高考数学复习第十章 第二节 用样本估计总体(导学案)
展开1.能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性.
2.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义.
3.结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义.
4.结合实例,能用样本估计总体的取值规律.
5.结合实例,能用样本估计百分位数,理解百分位数的统计含义.
1.总体取值规律的估计
(1)频率分布直方图的制作步骤
①求极差(一组数据中最大值与最小值的差);
②决定组距与组数;
③将数据分组;
④列频率分布表;
⑤画频率分布直方图.
点睛频率分布直方图的纵轴表示频率与组距的比值.
(2)不同的统计图的应用场景
2.总体百分位数的估计
(1)第p百分位数的定义:
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)计算一组n个数据的第p百分位数的步骤:
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
(3)中位数与四分位数:
中位数相当于第50百分位数.第25百分位数、中位数、第75百分位数把一组由小到大排列后的数据分成四等份,这三个分位数统称为四分位数.
3.总体集中趋势的估计
(1)平均数、中位数和众数的应用
数值型数据(如用水量、身高、收入、产量等)集中趋势多用平均数、中位数描述;分类型数据(如校服规格、性别、产品质量等级等)集中趋势多用众数描述.
(2)平均数、中位数的意义
平均数、中位数和众数等都是刻画“中心位置”的量,它们从不同角度刻画了数据的集中趋势,平均数反映了数据取值的平均水平,反映出样本数据中的更多信息,对极端值更加敏感,任何一个样本数据的改变都会引起平均数的改变;中位数对极端值不敏感,有的样本数据的改变不一定引起中位数的改变.
(3)平均数、中位数、众数的求法
4.总体离散程度的估计
(1)方差、标准差的定义
假设一组数据为x1,x2,…,xn,其平均数为x,则
方差:s2=1n[(x1-x)2+(x2-x)2+…+(xn-x)2]=1n∑i=1n(xi-x)2
标准差:
s=1n[(x1-x)2+(x2-x)2+…+(xn-x)2]=1n∑i=1n(xi-x)2
(2)方差、标准差的意义
在刻画数据的离散程度或波动幅度上,方差和标准差是一样的,实际问题中,多采用标准差.标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
(3)总体方差与总体标准差
一般式:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为Y,则称S2=1N∑i=1N(Yi-Y)2为总体方差,S=S2为总体标准差.
加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=1N∑i=1kfi(Yi-Y)2.
(4)样本方差与样本标准差
如果一个样本中,个体的变量值分别为y1,y2,…,yn,样本平均数为y,则称s2=1n∑i=1n(yi-y)2为样本方差,s=s2为样本标准差.
1.频率分布直方图中,各个小长方形的面积表示落在各小组内的频率,所有小长方形的面积之和为1.
2.若数据x1,x2,…,xn的方差为s2,则数据ax1+b,ax2+b,…,axn+b的方差为a2s2.
1.(教材变式)在去年的足球联赛上,一队每场比赛平均失球数是1.5,全年比赛失球个数的标准差为1.1,二队每场比赛平均失球数是2.1,全年失球个数的标准差是0.4.下面说法不正确的是( )
A.平均说来一队比二队技术好
B.二队比一队技术水平更稳定
C.一队有时表现很差,有时表现又非常好
D.二队很少失球
解析:选D.由平均失球知一队比二队技术好,故A正确;由标准差知二队比一队技术水平更稳定,故B正确;一队的标准差大说明一队表现不稳定,有时表现很差,有时表现又非常好,故C正确;二队平均失球数较大,标准差较小说明失球情况比较稳定,即经常失球,故D不正确.
2.(结论1)某校100名学生期末考试数学成绩的频率分布直方图如图所示,学生成绩的分组区间是[50,60),[60,70),[70,80),[80,90),[90,100],其中数学成绩不及格(分数低于60分)的学生有( )
A.5名B.10名C.25名D.20名
解析:选A.由频率分布直方图知,(a+0.04+0.03+0.02+a)×10=1,可得a=0.005,所以不及格人数为0.005×10×100=5.
3.(教材变式)某校举行演讲比赛,10位评委亮分后,往往先去掉一个最高分和一个最低分,再以余下的8个评分的平均值作为选手的最终得分,这是为了( )
A.减少计算量B.避免故障
C.剔除异常值D.活跃赛场气氛
解析:选C.比赛的评分使用的是平均分,记分过程中采用“去掉一个最高分和一个最低分”的方法是为了防止个别评委的人为因素而给出过高或过低的分数,对选手的得分造成较大的影响,这样可以降低误差,使得比赛尽量公平.
4.(特征数字数值计算错误)已知一组数据为20,30,40,50,50,60,70,80,其平均数、第60百分位数和众数的大小关系是( )
A.平均数>第60百分位数>众数
B.平均数<第60百分位数<众数
C.第60百分位数<众数<平均数
D.平均数=第60百分位数=众数
解析:选D.平均数为18×(20+30+40+50+50+60+70+80)=50,
因为8×60%=4.8,
所以第5个数50即为第60百分位数.众数为50,
所以它们的大小关系是平均数=第60百分位数=众数.
5.(结论2)如果数据2x1+1,2x2+1,…,2xn+1的方差为16,则数据5-3x1,5-3x2,…,5-3xn的方差为( )
A.36B.41C.72D.144
解析:选A.设数据x1,x2,…,xn的方差为s2,
则2x1+1,2x2+1,…,2xn+1的方差为4s2=16,所以s2=4.所以数据5-3x1,5-3x2,…,5-3xn的方差为9s2=36.
6.(统计图识别错误)某中学初中部共有120名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为__________.
解析:因为初中部女教师占70%,高中部女教师占40%,所以该校女教师的人数为120×0.7+150×0.4=84+60=144.
答案:144
题型一 统计图表的识别
[典例1](1)(2023·泉州模拟)已知某地A,B,C三个村的人口户数及低收入情况分别如图①和图②所示,为了解该地三个村的低收入原因,当地政府决定采用分层随机抽样的方法抽取10%的户数进行调查,则样本容量和抽取C村低收入户的户数分别是( )
A.100,20B.100,10
C.200,20D.200,10
解析:选B.由题图①得样本容量为(350+200+450)×10%=1 000×10%=100,
抽取C村的户数为200×10%=20(户),则抽取C村低收入户的户数为20×0.5=10(户).
(2)(2023·潍坊模拟)走路是“最简单、最优良的锻炼方式”,它不仅可以帮助减肥,还可以增强心肺功能、血管弹性、肌肉力量等.如图为甲、乙两名同学在同一星期内日步数的折线统计图,则下列结论中不正确的是( )
A.这一星期内甲的日步数的中位数为11 600
B.这一星期内甲的日步数的平均值大于乙
C.这一星期内甲的日步数的方差大于乙
D.这一星期内乙的日步数的30%分位数是7 030
解析:选D.对于A,这一星期内甲的日步数从小到大为:2 435,7 965,9 500,
11 600,12 700,16 000,16 800,所以中位数为11 600,选项A正确;
对于B,计算甲的平均数为x甲=17×(2 435+7 965+9 500+11 600+12 700+16 000+
16 800)=11 000,
乙的平均数为x乙=17×(14 200+12 300+7 030+12 970+5 340+11 600+10 060)=10 500,所以甲的日步数的平均值大于乙,选项B正确;
对于C,甲有极端值,对方差的影响大,所以甲日步数的方差大于乙,选项C正确;
对于D,因为7×30%=2.1,所以乙的日步数的30%分位数是从小到大的第3个数,为10 060,选项D错误.
(3)(2020·天津高考)从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )
A.10B.18C.20D.36
解析:选B.根据直方图,直径落在区间[5.43,5.47)内的零件频率为(6.25+5.00)×0.02=0.225,则直径落在区间[5.43,5.47)内零件的个数为80×0.225=18.
常见统计图的特点
(1)通过扇形统计图可以很清楚地表示出各部分数量同总数之间的关系.
(2)折线图可以显示随时间而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.
(3)频率分布直方图的数据特点
①频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.
②频率分布直方图中各小长方形的面积之和为1.
1.某高中为了解学生假期自主阅读书籍类型,在全校范围内随机抽取了部分学生进行调查.学生选择的书籍大致分为以下四类:A历史类、B文学类、C科学类、D哲学类.根据调查的结果,将数据整理成如图的两幅不完整的统计图,其中a-b=10.
根据上述信息,可知本次随机抽查的学生中选择A历史类书籍的人数为( )
A.45B.30C.25D.22
解析:选B.由题可知,样本量为30-180.1=120,所以选择A历史类书籍的人数为120-42-30-18=30.
2.(多选题)(2022·岳阳模拟)为组织好“市运会”,组委会征集了800名志愿者,现对他们的年龄进行抽样统计后,得到如图所示的频率分布直方图,但是年龄在[25,30)内的数据不慎丢失.则( )
A.年龄在[25,30)内对应小长方形的高度为0.04
B.年龄在[25,30)内对应小长方形的高度为0.2
C.这800名志愿者中年龄在[25,35)内的人数为400
D.这800名志愿者中年龄在[25,35)内的人数为440
解析:选AD.年龄在[25,30)内对应小长方形的高度为15×[1-(5×0.01+5×0.07+5×0.06+5×0.02)]=0.04.
年龄在[25,35)内的频率为0.04×5+0.07×5=0.55,
故所求人数为0.55×800=440.
3.(多选题)(2023·珠海模拟)某地一周的最低气温随时间变化的图象如图所示,根据图中的信息,下列有关该地区这一周最低气温的判断,正确的有( )
A.周六的最低气温比周四高5℃
B.相邻两天最低气温之差最大为3℃
C.前六天一直保持上升趋势
D.最大值与最小值的差为7℃
解析:选AD.周六和周四的最低气温分别为4℃和-1℃,差为5℃,故A项正确;
周六与周日的最低气温之差为4℃,故B项错误;
周三到周四,最低气温下降了,故C项错误;
最小值为周一的-3℃,最大值为周六的4℃,二者差为7℃,故D项正确.
【加练备选】
某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15℃,B点表示四月的平均最低气温约为5℃.下面叙述不正确的是( )
A.各月的平均最低气温都在0℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20℃的月份有5个
解析:选D.由题图可得各月的平均最低气温都在0℃以上,A正确;七月的平均温差约为9℃,而一月的平均温差约为5℃,故B正确;三月和十一月的平均最高气温都在10℃左右,基本相同,C正确;平均最高气温高于20℃的月份为六月、七月、八月,只有3个,D错误.
题型二 样本数据的特征数字
角度1 离散型数据的特征数字
[典例2](1)(2022·淄博模拟)已知一组数据5,2,x,5,8,9,且5
解析:选A.因为5
解析:由30×60%=18,设第19个数据为x,则7.8+x2=8.2,解得x=8.6,即第19个数据是8.6.
答案:8.6
样本数据中,众数、中位数、平均数的求法
(1)众数是样本数据中出现次数最多的数据.
(2)将样本数据按大小顺序排列,处在最中间位置的一个数据(或最中间两个数据的平均值)即为中位数.
(3)平均数是样本数据的算术平均数.
角度2 频率分布直方图的特征数字
[典例3](多选题)(2023·临沂模拟)在某次单元测试中,4 000名考生的考试成绩统计如图所示,60分以下视为不及格,若同一组中数据用该组区间中点作代表,则下列说法中正确的有( )
A.成绩在[70,80)分的考生人数最多
B.考生考试成绩的第80百分位数为83.3
C.考生考试成绩的平均分约为70.5分
D.考生考试成绩的中位数为75分
解析:选ABC.根据频率分布直方图得,成绩出现在[70,80)的频率最大,故A正确;
考生考试成绩的第80百分位数为80+×10≈83.3,故B正确;
根据频率分布直方图估计考试的平均分为45×0.1+55×0.15+65×0.2+75×0.3+
85×0.15+95×0.1=70.5,故C正确;
0.1+0.15+0.2=0.45<0.5,0.1+0.15+0.2+0.3=0.75>0.5,所以考生考试成绩的中位数为70+0.5-0.450.3×10≈71.67,故D错误.
[变式1]不及格考生的人数为__________人.
解析:不及格考生的人数所占的比例为0.1+0.15=0.25,故不及格考生人数为
4 000×0.25=1 000人.
答案:1 000
[变式2]为了调研学生近期的学习状态,现采用分层随机抽样的方法抽取一个容量为n的样本,已知成绩在[70,80)分的考生共抽取了30人,则n=__________.
解析:由频率分布直方图可知,成绩在[70,80)分的考生所占的比例为0.03×10=0.3,所以0.3=30n,得n=100.
答案:100
由频率分布直方图求特征数字
(1)众数:频率分布直方图中,最高矩形的底边中点的横坐标;
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等;
(3)平均数:平均数在频率分布直方图中等于每个小长方形的面积乘以相应矩形底边中点的横坐标之和.
(4)第p百分位数: ①确定第p百分位数所在的区间[a,b],②确定小于a和小于b的数据所占的百分比fa%,fb%,则第p百分位数为a+p%-fa%fb%-fa%×(b-a).
(2022·廊坊模拟)若数据3.2,3.4,3.8,4.2,4.3,4.5,x,6.6的第65百分位数是4.5,则实数x的取值范围是__________.
解析:因为8×65%=5.2,所以这组数据的第65百分位数是第6个数据为4.5,所以应该有5个数据不大于4.5,则x≥4.5.
答案:[4.5,+∞)
题型三 总体分散趋势的估计
[典例4](2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如表:
旧设备和新设备生产产品的该项指标的样本平均数分别记为x和y,样本方差分别记为s12和s22.
(1)求x,y,s12,s22;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y-x≥2s12+s2210,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
解析:(1)由题表中的数据可得:
x=110×(9.8+10.3+10.0+10.2+9.9+9.8+10.0+10.1+10.2+9.7)=10.0,
y=110×(10.1+10.4+10.1+10.0+10.1+10.3+10.6+10.5+10.4+10.5)=10.3,
s12=110×[(9.7-10.0)2+2×(9.8-10.0)2+(9.9-10.0)2+2×(10.0-10.0)2+(10.1-10.0)2+2×(10.2-10.0)2+(10.3-10.0)2]=0.036,
s22=110×[(10.0-10.3)2+3×(10.1-10.3)2+(10.3-10.3)2+2×(10.4-10.3)2+2×(10.5-10.3)2+
(10.6-10.3)2]=0.04.
(2)由(1)中数据得y-x=0.3,2s12+s2210=20.007 6,
显然y-x>2 s12+s2210,所以新设备生产产品的该项指标的均值较旧设备有显著提高.
计算方差、标准差的步骤
(1)求出样本数据的平均数x;
(2)计算每个样本数据与样本平均数的差xi-x(i=1,2,…,n),并求对应的平方值;
(3)求出上述n个平方值的平均数,即为样本方差;求出上述n个平方值平均数的算术平方根,即为样本标准差.
某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:74≈8.602.
解析:(1)根据产值增长率频数分布表得,
所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.
产值负增长的企业频率为2100=0.02.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)y=1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=1100∑i=15ni(yi-y)2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6,
s=0.029 6=0.02×74≈0.17,
所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.
统计图表
应用场景
扇形图
用于直观描述各类数据占总数的比例
条形图
用于直观描述离散型数据分布在不同类别的频数或频率
直方图
用于直观描述连续型数据分布在不同小组的频数或频率
折线图
用于描述数据随时间的变化趋势
数字
特征
样本数据
频率分布直方图
众数
出现次数最多的数据
取最高的小长方形底边中点的横坐标
中位数
将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)
划分频率分布直方图为左右两个面积相等的分界线与x轴交点的横坐标
平均数
样本数据的算术平均数
每个小矩形的面积乘以小矩形底边中点的横坐标之和
教材改编
结论应用
易错易混
1,3
2,5
4,6
旧
设备
9.8
10.3
10.0
10.2
9.9
9.8
10.0
10.1
10.2
9.7
新
设备
10.1
10.4
10.1
10.0
10.1
10.3
10.6
10.5
10.4
10.5
y的
分组
[-0.20,
0)
[0,
0.20)
[0.20,
0.40)
[0.40,
0.60)
[0.60,
0.80]
企业数
2
24
53
14
7
高考数学复习第七章 第二节 等差数列(导学案): 这是一份高考数学复习第七章 第二节 等差数列(导学案),共21页。学案主要包含了课程标准,必备知识·精归纳,基础小题·固根基,方法提炼,对点训练,一题多变,加练备选,解题提示等内容,欢迎下载使用。
高考数学复习第四章 第二节 导数与函数的单调性(导学案): 这是一份高考数学复习第四章 第二节 导数与函数的单调性(导学案),共24页。学案主要包含了课程标准,必备知识·精归纳,常用结论,基础小题·固根基,方法提炼,对点训练,加练备选,一题多变等内容,欢迎下载使用。
高考数学复习第二章 第二节 基本不等式(导学案): 这是一份高考数学复习第二章 第二节 基本不等式(导学案),共15页。