2021版新高考数学一轮教师用书:第9章第2节 用样本估计总体
展开第二节 用样本估计总体
[考点要求] 1.了解分布的意义与作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.
(对应学生用书第175页)
1.常用统计图表
(1)作频率分布直方图的步骤:
①求极差(即一组数据中最大值与最小值的差).
②决定组距与组数.
③将数据分组.
④列频率分布表.
⑤画频率分布直方图.
(2)频率分布直方图:反映样本频率分布的直方图(如图)
横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本数据落在该组内的频率.各小矩形的面积和为1.
(3)频率分布折线图和总体密度曲线
①频率分布折线图:将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起来,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
(4)茎叶图的画法步骤:
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列;
第三步:将各个数据的叶依次写在其茎的右(左)侧.
2.样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把=称为x1,x2,…,xn这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=;
s2=[(x1-)2+(x2-)2+…+(xn-)2].
1.频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
一、思考辨析(正确的打“√”,错误的打“×”)
(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )
(2)一组数据的方差越大,说明这组数据越集中. ( )
(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越高.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
[答案] (1)√ (2)× (3)√ (4)×
二、教材改编
1.一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( )
A.4 B.8
C.12 D.16
B [设频数为n,则=0.25,∴n=32×=8.]
2.若某校高一年级8个班参加合唱比赛的得分分别为87,89,90,91,92,93,94,96,则这组数据的中位数和平均数分别是( )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
A [∵这组数据为87,89,90,91,92,93,94,96,∴中位数是=91.5,
平均数==91.5.]
3.甲、乙两位运动员在5场比赛的得分情况如茎叶图所示,记甲、乙两人的平均得分分别为甲,乙,则下列判断正确的是( )
A.甲>乙;甲比乙成绩稳定
B.甲>乙;乙比甲成绩稳定
C.甲<乙;甲比乙成绩稳定
D.甲<乙;乙比甲成绩稳定
D [∵甲==25,
乙==26,∴甲<乙,
∴s=[(16-25)2+(17-25)2+(28-25)2+(30-25)2+(34-25)2]=52,s=[(15-26)2+(28-26)2+(26-26)2+(28-26)2+(33-26)2]=35.6,
∴s>s,所以乙成绩稳定,故选D.]
4.如图是100位居民月均用水量的频率分布直方图,则月均用水量为[2,2.5)范围内的居民有________人.
25 [0.5×0.5×100=25.]
(对应学生用书第176页)
考点1 样本的数字特征的计算与应用
利用样本的数字特征解决决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
1.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
A [设9位评委评分按从小到大排列为x1<x2<x3<x4…<x8<x9,则原始中位数为x5,去掉最低分x1,最高分x9后剩余x2<x3<x4…<x8,
中位数仍为x5,∴A正确.]
2.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )
甲 乙
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
C [根据条形统计图可知甲的中靶情况为4环、5环、6环、7环、8环;乙的中靶情况为5环、5环、5环、6环、9环.甲=(4+5+6+7+8)=6,乙=(5×3+6+9)=6,甲的成绩的方差为
=2,乙的成绩的方差为=2.4;甲的成绩的极差为4环,乙的成绩的极差为4环;甲的成绩的中位数为6环,乙的成绩的中位数为5环,综上可知C正确,故选C.]
3.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x-y|的值为( )
A.1 B.2 C.3 D.4
D [由题意可知
∴
∴(x+y)2=x2+y2+2xy,即208+2xy=400,∴xy=96.
∴(x-y)2=x2+y2-2xy=16,
∴|x-y|=4,故选D.]
4.(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组 | [-0.20,0) | [0,0.20) | [0.20,0.40) | [0.40,0.60) | [0.60,0.80) |
企业数 | 2 | 24 | 53 | 14 | 7 |
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:≈8.602.
[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为=0.21.
产值负增长的企业频率为=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)=(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,s2=i
=[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]
=0.029 6,
s==0.02×≈0.17,
所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.
方差的简化计算公式:s2=[(x+x+…+x)-nx2],或写成s2=(x+x+…+x)-x2,即方差等于原数据平方的平均数减去平均数的平方.
考点2 茎叶图
茎叶图中的2个关注点
(1)重复出现的数据要重复记录,不能遗漏.
(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
某良种培育基地正在培育一小麦新品种A,将其与原有的一种优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产量的数据(单位:千克)如下:
品种A:
357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.
品种B:
363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.
(1)作出品种A与B亩产量数据的茎叶图;
(2)用茎叶图处理现有的数据,有什么优点?
(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.
[解] (1)画出茎叶图如图所示.
(2)由于每个品种的数据都只有25个,样本容量不大,画茎叶图很方便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且可以随时记录新的数据.
(3)通过观察茎叶图可以看出:①品种A的亩产量的平均数(或均值)比品种B高;②品种A的亩产量的标准差(或方差)比品种B大,故品种A的亩产量的稳定性较差.
茎叶图中数字大小排列不一定从小到大排列,解题时一定要看清楚.
1.[多选]胡萝卜中含有大量的β胡萝卜素,摄入人体消化器官后,可以转化为维生素A,现从a,b两个品种的胡萝卜所含的β胡萝卜素(单位:mg)得到茎叶图如图所示,则下列说法正确的有( )
A.a<b B.a的方差大于b的方差
C.b品种的众数为3.31 D.a品种的中位数为3.27
ABD [由茎叶图得:b品种所含β胡萝卜素普遍高于a品种,∴a<b,故A正确;a品种的数据波动比b品种的数据波动大,∴a的方差大于b的方差,故B正确;b品种的众数为3.31与3.41,故C错误;a品种的数据的中位数为:=3.27,故D正确.故选ABD.]
2.空气质量指数(Air Quality Index,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI大于100的天数约为________.(该年为365天)
146 [该样本中AQI大于100的频数是4,频率为,由此估计该地全年AQI大于100的频率为,估计此地该年AQI大于100的天数约为365×=146.]
考点3 频率分布直方图
频率、频数、样本容量的计算方法
(1)×组距=频率.
(2)=频率,=样本容量,样本容量×频率=频数.
(1)[多选]为了了解某校九年级1 600名学生的体能情况,随机抽查了部分学生,测试1分钟仰卧起坐的成绩(次数),将数据整理后绘制成如图所示的频率分布直方图,根据统计图的数据,下列结论正确的有( )
A.该校九年级学生1分钟仰卧起坐的次数的中位数为26.25
B.该校九年级学生1分钟仰卧起坐的次数的众数为27.5
C.该校九年级学生1分钟仰卧起坐的次数超过30的人数约为320
D.该校九年级学生1分钟仰卧起坐的次数少于20的人数约为32
(2)(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比,根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
①求乙离子残留百分比直方图中a,b的值;
②分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
(1)ABC [由频率分布直方图可知,中位数是频率分布直方图面积等分线对应的数值,是26.25;众数是最高矩形的中间值27.5;1分钟仰卧起坐的次数超过30的频率为0.2,所以估计1分钟仰卧起坐的次数超过30的人数为320;1分钟仰卧起坐的次数少于20的频率为0.1,所以估计1分钟仰卧起坐的次数少于20的人数为160.故D错误.]
(2)[解] ①由已知得0.70=a+0.20+0.15,故
a=0.35.
b=1-0.05-0.15-0.70=0.10.
②甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
频率分布直方图的纵坐标是,而不是频率,切莫与条形图混淆.
[教师备选例题]
(2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用水量 | [0,0.1) | [0.1,0.2) | [0.2,0.3) | [0.3,0.4) | [0.4,0.5) | [0.5,0.6) | [0.6,0.7) |
频数 | 1 | 3 | 2 | 4 | 9 | 26 | 5 |
使用了节水龙头50天的日用水量频数分布表
日用水量 | [0,0.1) | [0.1,0.2) | [0.2,0.3) | [0.3,0.4) | [0.4,0.5) | [0.5,0.6) |
频数 | 1 | 5 | 13 | 10 | 16 | 5 |
(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图:
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
[解] (1)如图所示:
(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,
因此该家庭使用节水龙头后日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
1=(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为
2=(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
1.为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图如图,由于不慎将部分数据丢失,但知道后5组频数和为62,设视力在4.6到4.8之间的学生数为a,最大频率为0.32,则a的值为( )
A.64 B.54 C.48 D.27
B [前两组中的频数为100×(0.05+0.11)=16.因为后五组频数和为62,所以前三组为38.所以第三组频数为22.又最大频率为0.32,对应的最大频数为0.32×100=32.所以a=22+32=54.]
2.某城市100户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
[解] (1)(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1,解得x=0.007 5.
即直方图中x的值为0.007 5.
(2)月平均用电量的众数是=230.
∵(0.002+0.009 5+0.011)×20=0.45<0.5,
(0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5,
∴月平均用电量的中位数在[220,240)内.
设中位数为a,则0.45+0.012 5×(a-220)=0.5,解得a=224,即中位数为224.
(3)月平均用电量在[220,240)的用户有0.012 5×20×100=25(户).同理可得月平均用电量在[240,260)的用户有15户,月平均用电量在[260,280)的用户有10户,月平均用电量在[280,300]的用户有5户,故抽取比例为=.
∴月平均用电量在[220,240)的用户中应抽取25×=5(户).