2020年高考数学理科一轮复习讲义:第9章统计与统计案例第2讲
展开第2讲 用样本估计总体
[考纲解读] 1.了解频率分布直方图的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,并体会它们各自的特点.(重点) 2.理解样本数据标准差的意义和作用,会计算数据标准差;能从样本数据中提取基本的数字特征,并作出合理的解释. 3.会用样本的频率分布估计总体分布,用样本的基本数字特征估计总体的基本数字特征.(难点) 4.会用随机抽样的基本方法和样本估计总体的思想解决实际问题. [考向预测] 从近三年高考情况来看,本讲是高考中的一个热点.预测2020年将会考查用样本估计总体,主要体现在利用频率分布直方图或茎叶图估计总体,利用样本数字特征估计总体.题型以客观题呈现,试题难度不大,属中、低档题型.频率分布直方图与茎叶图也可能出现于解答题中,与概率等知识综合命题. |
1.用样本的频率分布估计总体分布
(1)频率分布:样本中所有数据(或者数据组)的频数和样本容量的比,就是该数据的频率,所有数据(或者数据组)的频率的分布变化规律叫做频率分布.
(2)作频率分布直方图的步骤:①求极差,即一组数据中的最大值与最小值的差;②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.
在频率分布直方图中,纵轴表示频率/组距,数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1.
(3)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为总体密度曲线.
(4)茎叶图:统计中还有一种被用来表示数据的图叫茎叶图,茎是指中间一列数,叶是从茎的旁边生长出来的数.
2.样本的数字特征
(1)众数、中位数、平均数
(2)方差和标准差
方差:s2=[(x1-)2+(x2-)2+…+(xn-)2],
标准差:
s= .
(3)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越波动;标准差、方差越小,数据的离散程度越小,越稳定.
3.各种统计表的优点与不足
1.概念辨析
(1)一组数据的方差越大,说明这组数据的波动越大.( )
(2)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( )
(3)在频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间内的频率越高.( )
(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )
答案 (1)√ (2)√ (3)√ (4)×
2.小题热身
(1)(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
答案 B
解析 因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.
(2)若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是( )
A.91.5和91.5 B.91.5和92
C.91和91.5 D.92和92
答案 A
解析 由茎叶图可知,这组数据的中位数是×(91+92)=91.5,平均数是×(87+89+90+91+92+93+94+96)=91.5.
(3)如图所示是一样本的频率分布直方图.若样本容量为100,则样本数据在[15,20]内的频数是( )
A.50
B.40
C.30
D.14
答案 C
解析 因为[15,20]对应的小矩形的面积为1-0.04×5-0.1×5=0.3,所以样本落在[15,20]的频数为0.3×100=30.故选C.
(4)已知一组数据87,89,90,91,93,则该组数据的方差是________.
答案 4
解析 该组数据的平均值为×(87+89+90+91+93)=90,所以该组数据的方差为×[(87-90)2+(89-90)2+(90-90)2+(91-90)2+(93-90)2]=4.
题型 样本数字特征的计算及应用
1.某同学使用计算器求30个数据的平均数时,错将其中一个数据105输入为165,那么由此求出的平均数与实际平均数的差是( )
A.2.5 B.-2 C.2 D.-2.5
答案 C
解析 将105输入为165,多输入了60,60÷30=2,所以求出的平均数与实际平均数的差是2.
2.(2018·九江二模)已知一组数据x1,x2,…,xn的方差为2,若数据ax1+b,ax2+b,…,axn+b(a>0)的方差为8,则a的值为( )
A.1 B.
C.2 D.4
答案 C
解析 根据方差的性质可知,a2×2=8,解得a=2.
3.一组数据1,10,5,2,x,2,且2<x<5,若该数据的众数是中位数的倍,则该数据的方差为________.
答案 9
解析 根据题意知,该组数据的众数是2,
则中位数是2÷=3,
把这组数据从小到大排列为1,2,2,x,5,10,
则=3,解得x=4,
所以这组数据的平均数为=×(1+2+2+4+5+10)=4,
方差为s2=×[(1-4)2+(2-4)2×2+(4-4)2+(5-4)2+(10-4)2]=9.
条件探究 把举例说明2中的“方差”改为“平均数”,“b”改为“2”,其他条件不变,试求a的值.
解 因为x1,x2,…,xn的平均数是2,所以ax1+2,ax2+2,…,axn+2的平均数是a·2+2=8,解得a=3.
众数、中位数、平均数、方差的意义及常用结论
(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.
(2)方差的简化计算公式:s2=[(x+x+…+x)-n2]或写成s2=(x+x+…+x)-2,即方差等于原数据平方的平均数减去平均数的平方.
(3)平均数、方差的公式推广
①若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
②数据x1,x2,…,xn的方差为s2.
a.数据x1+a,x2+a,…,xn+a的方差也为s2;
b.数据ax1,ax2,…,axn的方差为a2s2.
1.已知样本数据x1,x2,…,x10,其中x1,x2,x3的平均数为a;x4,x5,x6,…,x10的平均数为b,则样本数据的平均数为( )
A. B.
C. D.
答案 B
解析 依题意可得x1+x2+x3=3a,x4+x5+x6+…+x10=7b,所以样本数据的平均数为
=
==,故选B.
2.已知总体的各个体的值由小到大依次为2,3,3,7,a,b,12,13.7,18.3,20,且总体的中位数为10.5,若要使该总体的方差最小,则a,b的取值分别是________.
答案 10.5,10.5
解析 ∵中位数为10.5,∴=10.5,即a+b=21.
∵==10,
∴s2=[(2-10)2+(3-10)2×2+(7-10)2+(a-10)2+(b-10)2+(12-10)2+(13.7-10)2+(18.3-10)2+(20-10)2].
令y=(a-10)2+(b-10)2=2a2-42a+221
=22+,
当a=10.5时,y取最小值,方差s2也取最小值.
∴a=10.5,b=10.5.
题型 茎叶图及其应用
1.(2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.3,5 B.5,5 C.3,7 D.5,7
答案 A
解析 甲组数据的中位数为65,由甲、乙两组数据的中位数相等得y=5.又甲、乙两组数据的平均值相等,∴×(56+65+62+74+70+x)=×(59+61+67+65+78),∴x=3.故选A.
2.某良种培育基地正在培育一小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下:
品种A:
357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.
品种B:
363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430.
(1)作出数据的茎叶图;
(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.
解 (1)画出茎叶图如图所示:
(2)通过观察茎叶图可以看出:①品种A的亩产平均数(或均值)比品种B高;②品种A的亩产标准差(或方差)比品种B大,故品种A的亩产稳定性较差.
1.茎叶图的画法步骤
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将最小茎与最大茎之间的数按大小次序排成一列,写在左(右)侧;有两组数据时,写在中间;
第三步:将各个数据的叶依次写在其茎的右(左)侧.
2.茎叶图的应用
(1)茎叶图的绘制需注意:①“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;②重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.
(2)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.
1.甲、乙两位射击运动员的5次比赛成绩(单位:环)如茎叶图所示,若两位运动员平均成绩相同,则成绩较稳定(方差较小)的那位运动员成绩的方差为( )
A.2 B.4 C.6 D.8
答案 A
解析 根据茎叶图中的数据知,甲、乙二人的平均成绩相同,即×(87+89+90+91+93)=×(88+89+90+91+90+x),解得x=2,所以平均数为=90;
根据茎叶图中的数据知甲的成绩波动性小,较为稳定(方差较小),所以甲成绩的方差为s2=×[(88-90)2+(89-90)2+(90-90)2+(91-90)2+(92-90)2]=2.故选A.
2.为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:
服用A药的20位患者日平均增加的睡眠时间:
0.61.22.71.52.81.82.22.33.23.5
2.52.61.22.71.52.93.03.12.32.4
服用B药的20位患者日平均增加的睡眠时间:
3.21.71.90.80.92.41.22.61.31.4
1.60.51.80.62.11.12.51.22.70.5
(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?
(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?
解 (1)设A药观测数据的平均数为,B药观测数据的平均数为,由观测结果可得=(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3.
=(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.
由以上计算结果可得>,因此可看出A药的疗效更好.
(2)由观测结果可绘制如下茎叶图:
从以上茎叶图可以看出,A药疗效的试验结果有的叶集中在茎2,3上,而B药疗效的试验结果有的叶集中在茎0,1上,由此可看出A药的疗效更好.
题型 频率分布直方图
角度1 求频率或频数
1.党的十八大以来,脱贫攻坚取得显著成绩.2013年至2016年4年间,累计脱贫5564万人,2017年各地根据实际进行创新,精准、高效地完成了脱贫任务.某地区对当地3000户家庭的2017年所得年收入情况调查统计,年收入的频率分布直方图如图所示,数据(单位:千元)的分组依次为[20,40),[40,60),[60,80),[80,100],则年收入不超过6万的家庭大约为( )
A.900户 B.600户 C.300户 D.150户
答案 A
解析 由频率分布直方图得:年收入不超过6万的家庭所占频率为:(0.005+0.010)×20=0.3,∴年收入不超过6万的家庭大约为0.3×3000=900.
角度2 求数字特征
2.某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
解 (1)由(0.002+0.0095+0.011+0.0125+x+0.005+0.0025)×20=1,得x=0.0075,所以直方图中x的值是0.0075.
(2)月平均用电量的众数是=230.
因为(0.002+0.0095+0.011)×20=0.45<0.5,所以月平均用电量的中位数在[220,240)内,设中位数为a,由(0.002+0.0095+0.011)×20+0.0125×(a-220)=0.5,得a=224,所以月平均用电量的中位数是224.
(3)月平均用电量为[220,240)的用户有0.0125×20×100=25(户),月平均用电量为[240,260)的用户有0.0075×20×100=15(户),月平均用电量为[260,280)的用户有0.005×20×100=10(户),月平均用电量为[280,300]的用户有0.0025×20×100=5(户),
抽取比例为=,所以月平均用电量在[220,240)的用户中应抽取25×=5(户).
1.频率分布直方图的性质
(1)小长方形的面积=组距×=频率;
(2)各小长方形的面积之和等于1;
(3)小长方形的高=,所有小长方形的高的和为.
2.频率分布直方图中的众数、中位数与平均数
(1)最高的小长方形底边中点的横坐标即是众数;
(2)平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标是中位数;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
1.某高校调查了320名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这320名学生中每周的自习时间不足22.5小时的人数是( )
A.68 B.72 C.76 D.80
答案 B
解析 由频率分布直方图得每周的自习时间不足22.5小时的频率为(0.02+0.07)×2.5=0.225,∴这320名学生中每周的自习时间不足22.5小时的人数是0.225×320=72.故选B.
2.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
(1)作出这些数据的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?
解 (1)频率分布直方图如图.
(2)质量指标值的样本平均数为
=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为
s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.
(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.