2021版新高考数学(文科)一轮复习教师用书:第10章第3节 用样本估计总体
展开第三节 用样本估计总体
[最新考纲] 1.了解分布的意义与作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.
1.作频率分布直方图的步骤
(1)求极差(即一组数据中最大值与最小值的差);
(2)决定组距与组数;
(3)将数据分组;
(4)列频率分布表;
(5)画频率分布直方图.
2.频率分布折线图和总体密度曲线
(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
3.茎叶图
茎叶图是统计中用来表示数据的一种图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.
4.样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把称为a1,a2,…,an这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=
s2=
=(x+x+…+x)-2.
1.频率分布直方图的三个结论
(1)小长方形的面积=组距×=频率.
(2)各小长方形的面积之和等于1.
(3)小长方形的高=,所有小长方形高的和为.
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
一、思考辨析(正确的打“√”,错误的打“×”)
(1)在频率分布直方图中,小矩形的高表示频率. ( )
(2)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越高. ( )
(3)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势. ( )
(4)一组数据的方差越大,说明这组数据的波动越大. ( )
[答案] (1)× (2)√ (3)√ (4)√
二、教材改编
1.一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( )
A.4 B.8 C.12 D.16
B [设频数为n,则=0.25,∴n=32×=8.]
2.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
A [∵这组数据由小到大排列为87,89,90,91,92,93,94,96,∴中位数是=91.5,平均数==91.5.]
3.如图是100位居民月均用水量的频率分布直方图,则月均用水量为[2,2.5)范围内的居民有 人.
25 [用水量为[2,2.5)的频率为0.5×0.5=0.25,则用水量为[2,2.5)的居民有100×0.25=25(人).]
4.已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是 .
0.1 [5个数的平均数==5.1,所以它们的方差s2=[(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.]
考点1 扇形图和折线图
(1)通过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系.
(2)折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.
1.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
A [设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.
建设前种植收入为0.6x,建设后种植收入为0.74x,故A不正确;
建设前其他收入为0.04x,建设后其他收入为0.1x,故B正确;
建设前养殖收入为0.3x,建设后养殖收入为0.6x,故C正确;
建设后养殖收入与第三产业收入的总和占建设后经济收入总量的58%,故D正确.]
2.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.
根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
A [对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;
对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;
对于选项C,D,由图可知显然正确.故选A.]
解答第1题时,理解“经济收入增加了一倍”是解题的关键.
考点2 茎叶图
茎叶图的应用
(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.
(2)给定两组数据的茎叶图,比较数字特征时,“重心”下移者平均数较大,数据集中者方差较小.
1.(2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.3,5 B.5,5 C.3,7 D.5,7
A [由两组数据的中位数相等可得65=60+y,解得y=5,又它们的平均值相等,所以×[56+62+65+74+(70+x)]=×(59+61+67+65+78),解得x=3,故选A.]
2.在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清,但曾计算得该组数据的极差与中位数之和为61,则被污染的数字为( )
A.1 B.2 C.3 D.4
B [由题图可知该组数据的极差为48-20=28,则该组数据的中位数为61-28=33,易得被污染的数字为2,故选B.]
3.甲、乙两名篮球运动员5场比赛得分的原始记录如茎叶图所示,若甲、乙两人的平均得分分别为甲,乙,则下列结论正确的是( )
A.甲<乙;乙比甲得分稳定
B.甲>乙;甲比乙得分稳定
C.甲>乙;乙比甲得分稳定
D.甲<乙;甲比乙得分稳定
A [因为甲==11,乙==16.8,所以甲<乙且乙比甲成绩稳定,故选A.]
第3题,从数据重心位置及数据离散程度,亦可知道答案.
考点3 频率分布直方图
1.由频率分布直方图进行相关计算时,需掌握的两个关系式
(1)×组距=频率.
(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
2.利用频率分布直方图估计样本的数字特征的方法
(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.
(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.
(3)众数:最高的矩形的中点的横坐标.
(1)在某次高中学科竞赛中,4 000名考生的参赛成绩统计如图所示,60分以下视为不及格,若同一组中数据用该组区间中点作代表,则下列说法中有误的是( )
A.成绩在[70,80]分的考生人数最多
B.不及格的考生人数为1 000人
C.考生竞赛成绩的平均分约70.5分
D.考生竞赛成绩的中位数为75分
(2)(2019·全国卷Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
①求乙离子残留百分比直方图中a,b的值;
②分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
(1)D [由频率分布直方图可得,成绩在[70,80]的频率最高,因此考生人数最多,故A正确;由频率分布直方图可得,成绩在[40,60)的频率为0.25,因此,不及格的人数为4 000×0.25=1 000,故B正确;由频率分布直方图可得:平均分等于45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5,故C正确;因为成绩在[40,70)的频率为0.45,由[70,80]的频率为0.3,所以中位数为70+10×≈71.67,故D错误.故选D.]
(2)[解] ①由已知得0.70=a+0.20+0.15,故a=0.35.
b=1-0.05-0.15-0.70=0.10.
②甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05,
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
频率分布直方图中各小长方形的面积之和为1,在求参数的值时,经常用到这个结论.
[教师备选例题]
某城市100户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数.
[解] (1)由(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1,解得x=0.007 5.
即直方图中x的值为0.007 5.
(2)月平均用电量的众数是=230.
∵(0.002+0.009 5+0.011)×20=0.45<0.5,(0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5,
∴月平均用电量的中位数在[220,240)内.
设中位数为a,则0.45+0.012 5×(a-220)=0.5,解得a=224,即中位数为224.
我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨).将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;
(3)估计居民月均用水量的中位数.
[解] (1)由频率分布直方图可知:月均用水量在[0,0.5)内的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.
由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,
解得a=0.30.
(2)由(1)知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.
由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.
(3)设中位数为x吨.
因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,又前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5,所以2≤x<2.5.
由0.50×(x-2)=0.5-0.48,解得x=2.04.
故可估计居民月均用水量的中位数为2.04吨.
考点4 样本的数字特征
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小;标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
样本数字特征的计算
(1)(2019·江苏高考)已知一组数据6,7,8,8,9,10,则该组数据的方差是 .
(2)(2019·全国卷Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为 .
(1) (2)0.98 [(1)由题意,该组数据的平均数为=8,
所以该组数据的方差是[(6-8)2+(7-8)2+(8-8)2+(8-8)2+(9-8)2+(10-8)2]=.
(2)==0.98.
则经停该站高铁列车所有车次的平均正点率的估计值为0.98.]
本例(2)中实际上就是用样本的平均数估计总体平均数.
样本的数字特征与频率分布直方图或茎叶图交汇
(2019·全国卷Ⅱ)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:≈8.602.
[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为=0.21.
产值负增长的企业频率为=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)=×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=ni(yi-)2
=×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]
=0.029 6,
s==0.02×≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
求标准差时,应先求平均数,再求方差,最后求标准差.
[教师备选例题]
1.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则 ( )
甲 乙
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
C [甲的平均数是=6,中位数是6,极差是4,方差是=2;乙的平均数是=6,中位数是5,极差是4,方差是=,故选C.]
2.甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):
甲 | 10 | 8 | 9 | 9 | 9 |
乙 | 10 | 10 | 7 | 9 | 9 |
如果甲、乙两人中只有1人入选,则入选的最佳人选应是 .
甲 [甲=乙=9,s=×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=,
s=×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=>s,故甲更稳定.]
甲、乙两人在相同条件下各射击10次,每次中靶环数情况如图所示:
(1)请填写下表(写出计算过程):
| 平均数 | 方差 | 命中9环及9环以上的次数 |
甲 |
|
|
|
乙 |
|
|
|
(2)从下列三个不同的角度对这次测试结果进行分析:
①从平均数和方差相结合看(分析谁的成绩更稳定);
②从平均数和命中9环及9环以上的次数相结合看(分析谁的成绩好些);
③从折线图上两人射击命中环数的走势看(分析谁更有潜力).
[解] 由题图,知
甲射击10次中靶环数分别为9,5,7,8,7,6,8,6,7,7.
将它们由小到大排列为5,6,6,7,7,7,7,8,8,9.
乙射击10次中靶环数分别为2,4,6,8,7,7,8,9,9,10.
将它们由小到大排列为2,4,6,7,7,8,8,9,9,10.
(1)甲=×(5+6×2+7×4+8×2+9)=7(环),
乙=×(2+4+6+7×2+8×2+9×2+10)=7(环),
s=×[(5-7)2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]=×(4+2+0+2+4)=1.2,
s=×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]
=×(25+9+1+0+2+8+9)=5.4.
填表如下:
| 平均数 | 方差 | 命中9环及9环以上的次数 |
甲 | 7 | 1.2 | 1 |
乙 | 7 | 5.4 | 3 |
(2)①∵平均数相同,s<s,
∴甲成绩比乙稳定.
②∵平均数相同,命中9环及9环以上的次数甲比乙少,
∴乙成绩比甲好些.
③∵甲成绩在平均数上下波动,而乙处于上升势头,从第三次以后就没有比甲少的情况发生,∴乙更有潜力.