![高考数学科学创新复习方案提升版第56讲用样本估计总体学案(Word版附解析)01](http://img-preview.51jiaoxi.com/3/3/16104252/0-1724735865717/0.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![高考数学科学创新复习方案提升版第56讲用样本估计总体学案(Word版附解析)02](http://img-preview.51jiaoxi.com/3/3/16104252/0-1724735865776/1.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![高考数学科学创新复习方案提升版第56讲用样本估计总体学案(Word版附解析)03](http://img-preview.51jiaoxi.com/3/3/16104252/0-1724735865803/2.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
高考数学科学创新复习方案提升版第56讲用样本估计总体学案(Word版附解析)
展开1.频率分布表、频率分布直方图的制作步骤及意义
2.频率分布折线图
用线段连接频率分布直方图中各个矩形上面一边的eq \x(\s\up1(06))中点,就得到频率分布折线图.
3.不同统计图的特点及适用类型
(1)不同的统计图在表示数据上的特点
扇形图主要用于直观描述各类数据占总数的eq \x(\s\up1(07))比例,条形图和直方图主要用于直观描述不同类别或分组数据的eq \x(\s\up1(08))频数和eq \x(\s\up1(09))频率,折线图主要用于描述数据随eq \x(\s\up1(10))时间的变化趋势.
(2)不同的统计图适用的数据类型
条形图适用于描述eq \x(\s\up1(11))离散型的数据,直方图适用于描述eq \x(\s\up1(12))连续型的数据.
4.百分位数
(1)定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据eq \x(\s\up1(13))小于或等于这个值,且至少有(100-p)%的数据eq \x(\s\up1(14))大于或等于这个值.
(2)计算步骤:计算一组n个数据的第p百分位数的步骤:
第1步,按eq \x(\s\up1(15))从小到大排列原始数据.
第2步,计算i=eq \x(\s\up1(16))n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第eq \x(\s\up1(17))j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的eq \x(\s\up1(18))平均数.
5.总体集中趋势的估计
(1)平均数、中位数和众数等都是刻画“eq \x(\s\up1(19))中心位置”的量,它们从不同角度刻画了一组数据的集中趋势.
(2)一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用eq \x(\s\up1(20))平均数、eq \x(\s\up1(21))中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用eq \x(\s\up1(22))众数.
6.频率分布直方图中平均数、中位数、众数的求法
(1)样本平均数:可以用每个小矩形底边中点的eq \x(\s\up1(23))横坐标与小矩形面积的乘积之和近似代替.
(2)在频率分布直方图中,中位数左边和右边的直方图的面积应该eq \x(\s\up1(24))相等.
(3)将最高小矩形所在的区间eq \x(\s\up1(25))中点的横坐标作为众数的估计值.
7.方差、标准差
(1)假设一组数据为x1,x2,…,xn,则
①平均数eq \(x,\s\up6(-))=eq \f(x1+x2+…+xn,n),
②方差s2=eq \x(\s\up1(26))eq \f(1,n)eq \(∑,\s\up6(n),\s\d4(i=1))__(xi-eq \(x,\s\up6(-)))2,
③标准差s=eq \x(\s\up1(27))eq \r(\f(1,n)\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2).
(2)如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为eq \(Y,\s\up6(-)),则称S2=eq \f(1,N)eq \(∑,\s\up6(N),\s\d4(i=1)) (Yi-eq \(Y,\s\up6(-)))2为总体方差,S=eq \r(S2)为总体标准差.
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=eq \f(1,N)eq \(∑,\s\up6(k),\s\d4(i=1))fi(Yi-eq \(Y,\s\up6(-)))2.
(3)如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为eq \(y,\s\up6(-)),则称s2=eq \f(1,n)eq \(∑,\s\up6(n),\s\d4(i=1)) (yi-eq \(y,\s\up6(-)))2为样本方差,s=eq \r(s2)为样本标准差.
(4)标准差刻画了数据的离散程度或波动幅度,标准差eq \x(\s\up1(28))越大,数据的离散程度越大;标准差eq \x(\s\up1(29))越小,数据的离散程度越小.
(5)分层随机抽样的均值与方差
分层随机抽样中,如果样本量是按比例分配,记总的样本平均数为eq \(w,\s\up6(-)),样本方差为s2.
以分两层抽样的情况为例,假设第一层有m个数,分别为x1,x2,…,xm,平均数为eq \(x,\s\up6(-)),方差为seq \\al(2,1);第二层有n个数,分别为y1,y2,…,yn,平均数为eq \(y,\s\up6(-)),方差为seq \\al(2,2).则eq \(x,\s\up6(-))=eq \f(1,m)eq \(∑,\s\up6(m),\s\d4(i=1))xi,seq \\al(2,1)=eq \f(1,m)eq \(∑,\s\up6(m),\s\d4(i=1)) (xi-eq \(x,\s\up6(-)))2,eq \(y,\s\up6(-))=eq \f(1,n)eq \(∑,\s\up6(n),\s\d4(i=1))yi,seq \\al(2,2)=eq \f(1,n)eq \(∑,\s\up6(n),\s\d4(i=1)) (yi-eq \(y,\s\up6(-)))2.
则①eq \(w,\s\up6(-))=eq \x(\s\up1(30))eq \f(m,m+n)eq \(x,\s\up6(-))+eq \f(n,m+n)eq \(y,\s\up6(-)),
②s2=eq \x(\s\up1(31))eq \f(1,m+n){m[seq \\al(2,1)+(eq \(x,\s\up6(-))-eq \(w,\s\up6(-)))2]+n[seq \\al(2,2)+(eq \(y,\s\up6(-))-eq \(w,\s\up6(-)))2]}=eq \x(\s\up1(32))eq \f(1,m+n)eq \b\lc\[\rc\](\a\vs4\al\c1((mseq \\al(2,1)+nseq \\al(2,2))+\f(mn,m+n)(\(x,\s\up6(-))-\(y,\s\up6(-)))2)).
平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为eq \(x,\s\up6(-)),那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是meq \(x,\s\up6(-))+a.
(2)若数据x1,x2,…,xn的方差为s2,则:
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
1.(多选)(2021·新高考Ⅱ卷)下列统计量中,能度量样本x1,x2,…,xn的离散程度的是( )
A.样本x1,x2,…,xn的标准差
B.样本x1,x2,…,xn的中位数
C.样本x1,x2,…,xn的极差
D.样本x1,x2,…,xn的平均数
答案 AC
解析 由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势.故选AC.
2.(多选)给出一组数据:1,3,3,5,5,5,下列说法正确的是( )
A.这组数据的极差为4
B.这组数据的平均数为3
C.这组数据的中位数为4
D.这组数据的众数为3和5
答案 AC
解析 这组数据的极差为5-1=4,A正确;平均数为eq \f(1+3×2+5×3,6)=eq \f(11,3),B错误;中位数为eq \f(3+5,2)=4,C正确;众数为5,D错误.
3.设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为( )
A.0.01 B.0.1
C.1 D.10
答案 C
解析 因为数据axi+b(i=1,2,…,n)的方差是数据xi(i=1,2,…,n)的方差的a2倍,所以所求数据的方差为102×0.01=1.故选C.
4.从某网络平台推荐的影视作品中抽取400部,统计其评分数据,将所得400个评分数据分为8组:[66,70),[70,74),…,[94,98],并整理得到如下的频率分布直方图,则评分在区间[82,86)内的影视作品数量是( )
A.20 B.40
C.64 D.80
答案 D
解析 由频率分布直方图可知,评分在区间[82,86)内的影视作品数量为400×0.050×4=80.故选D.
5.(人教B必修第二册5.1.2练习A T2改编)90,92,92,93,93,94,95,96,99,100的75%分位数为________,80%分位数为________.
答案 96 97.5
解析 10×75%=7.5,10×80%=8,所以75%分位数为x8=96,80%分位数为eq \f(x8+x9,2)=eq \f(96+99,2)=97.5.
多角度探究突破
角度 扇形图
例1 (多选)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
答案 BCD
解析 设新农村建设前的收入为M,则新农村建设后的收入为2M,新农村建设前种植收入为0.6M,新农村建设后的种植收入为0.74M,所以种植收入增加了,所以A不正确;新农村建设前其他收入为0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B正确;新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,增加了一倍,所以C正确;新农村建设后,养殖收入与第三产业收入的总和占经济收入的30%+28%=58%>50%,所以超过了经济收入的一半,所以D正确.故选BCD.
角度 折线图
例2 (2023·乌鲁木齐二模)如图为2012~2022年我国电子信息制造业企业和工业企业利润总额增速情况折线图,根据该图,下列结论正确的是( )
A.2012~2022年电子信息制造业企业利润总额逐年递增
B.2017~2022年工业企业利润总额逐年递增
C.2012~2017年电子信息制造业企业利润总额均较上一年实现增长,且其增速均快于当年工业企业利润总额增速
D.2019~2022年工业企业利润总额增速的均值大于电子信息制造业企业利润总额增速的均值
答案 C
解析 对于A,由折线图可知,2018年电子信息制造业企业利润总额增速为负值,利润总额较上一年下降,A错误;对于B,由折线图可知,2019年工业企业利润总额增速为负值,利润总额较上一年下降,B错误;对于C,2012~2017年电子信息制造业企业利润总额增速为正,利润总额较上一年增长,且其增速大于当年工业企业利润总额增速,C正确;对于D,2019~2022年中,工业企业利润总额增速都小于电子信息制造业企业利润总额增速,则这几年中工业企业利润总额增速的均值小于电子信息制造业企业利润总额增速的均值,D错误.故选C.
角度 频率分布直方图
例3 (1)为研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.8 B.12
C.16 D.18
答案 B
解析 志愿者的总人数为eq \f(20,(0.24+0.16)×1)=50,所以第三组的人数为50×0.36=18,有疗效的人数为18-6=12.故选B.
(2)(多选)(2024·菏泽东明县开学考试)某小区为了让居民了解更多垃圾分类的知识,对500名小区居民进行了培训,并进行了培训结果测试,从中随机抽取50名居民的成绩(单位:分),按照[50,60),[60,70),…,[90,100]分成5组,并制成了如图所示的频率分布直方图,则下列结论正确的是( )
A.所抽取的50名居民成绩的平均数约为74
B.所抽取的50名居民成绩的中位数约为75
C.50名居民成绩的众数约为85
D.参加培训的居民中约有100人的成绩不低于85分
答案 AD
解析 因为频率和为1,可得0.1+0.3+0.3+10x+0.1=1,所以m=0.02,所抽取的50名居民成绩的平均数约为55×0.1+65×0.3+75×0.3+85×0.2+95×0.1=74,故A正确;设中位数为x,因为0.1+0.3<0.5,0.1+0.3+0.3>0.5,所以x∈(70,80),所以0.1+0.3+0.03(x-70)=0.5,所以x=70+eq \f(10,3)≠75,故B错误;50名居民成绩的众数无法由频率分布直方图判断出来,故C错误;成绩不低于85分的频率为0.2×0.5+0.1=0.2,参加培训的居民中成绩不低于85分的约有0.2×500=100人,故D正确.故选AD.
常见统计图的特点
(1)通过扇形统计图可以很清楚地表示出各部分数量同总数之间的关系.
(2)折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.
(3)准确理解频率分布直方图的数据特点
①频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆;
②频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.
1.(多选)(2023·太原模拟)十项全能是田径运动中全能项目的一种,是由跑、跳、投等10个田径项目组成的综合性男子比赛项目,比赛成绩是按照国际田径联合会制定的专门田径运动会全能评分表将各个单项成绩所得的评分加起来计算的,总分多者为优胜者.如图是某次十项全能比赛中甲、乙两名运动员的各个单项得分的雷达图,则下列说法正确的是( )
A.在400米跑项目中,甲的得分比乙的得分低
B.在跳高和标枪项目中,甲、乙水平相当
C.甲的各项得分比乙的各项得分更均衡
D.甲的各项得分的极差比乙的各项得分的极差大
答案 BD
解析 对于A,由雷达图可知,400米跑项目中,甲的得分比乙的得分高,A错误;对于B,由雷达图可知,在跳高和标枪项目中,甲、乙水平相当,B正确;对于C,甲的各项得分的波动较大,乙的各项得分均在(600,800]内,波动较小,C错误;对于D,甲的各项得分的极差约为1000-470=530,乙的各项得分的极差小于200,D正确.故选BD.
2.(多选)(2023·济南三模)某学校组建了辩论、英文剧场、民族舞、无人机和数学建模五个社团,高一学生全员参加,且每位学生只能参加一个社团.学校根据学生参加情况绘制如下统计图,已知无人机社团和数学建模社团的人数相等,则下列说法正确的是( )
A.高一年级学生人数为120
B.无人机社团的人数为17
C.若按比例分层随机抽样从各社团选派20人,则无人机社团选派的人数为3
D.若甲、乙、丙三人报名参加社团,则共有60种不同的报名方法
答案 AC
解析 由题中所给的数据可知,民族舞社团的人数为12,占高一年级学生人数的比例为10%,所以高一年级学生人数为12÷10%=120,英文剧场社团的人数为120×35%=42,辩论社团的人数为30,无人机社团的人数=数学建模社团的人数=(120-42-30-12)÷2=18,占高一年级学生人数的比例是eq \f(18,120)×100%=15%,A正确,B错误;按比例分层随机抽样20人,无人机社团应派出20×15%=3人,C正确;甲、乙、丙三人报名参加社团,每人有5种选法,共有53=125种不同的报名方法,D错误.故选AC.
多角度探究突破
角度 总体百分位数的估计
例4 (1)一组数据为6,47,49,15,42,41,7,39,43,40,36,则这组数据的一个四分位数是( )
A.15 B.25
C.50 D.75
答案 A
解析 将该组数据由小到大排列的结果为6,7,15,36,39,40,41,42,43,47,49,一共11个数,由11×25%=2.75,11×50%=5.5,11×75%=8.25,故第25百分位数是15,第50百分位数是40,第75百分位数是43.故选A.
(2)如图是将高三某班80名学生参加某次数学模拟考试所得的成绩(成绩均为整数)整理后画出的频率分布直方图,则此班的模拟考试成绩的80%分位数是________(结果保留两位小数).
答案 124.44
解析 由频率分布直方图可知,分数在120分以下的学生所占的比例为(0.01+0.015+0.015+0.03)×10×100%=70%,分数在130分以下的学生所占的比例为70%+0.0225×10×100%=92.5%,因此,80%分位数一定位于[120,130)内.由120+eq \f(0.80-0.70,0.0225)≈124.44,故此班的模拟考试成绩的80%分位数约为124.44.
角度 比例分配的分层随机抽样的均值与方差
例5 (多选)(2023·大连二十四中模拟)大连市教育局为了解二十四中学、第八中学、育明中学三所学校的学生文学经典名著的年阅读量,采用比例分配的分层随机抽样方法抽取了一个容量为120的样本.其中,从二十四中学抽取容量为35的样本,平均数为4,方差为9;从第八中学抽取容量为40的样本,平均数为7,方差为15;从育明中学抽取容量为45的样本,平均数为8,方差为21.据此估计,三所学校的学生文学经典名著的年阅读量的( )
A.均值为6.3 B.均值为6.5
C.方差为17.52 D.方差为18.25
答案 BD
解析 设二十四中学、第八中学、育明中学三组数据中每个人的数据分别为xi(i=1,2,3,…,35),yi(i=1,2,3,…,40),zi(i=1,2,3,…,45),均值== =6.5,方差= + = +
+ =
=eq \f(1,120)×[(9+2.52)×35+(15+0.52)×40+(21+1.52)×45]=18.25.故选BD.
角度 均值方差的应用
例6 (2023·全国乙卷)某厂为比较甲、乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10).试验结果如下:
记zi=xi-yi(i=1,2,…,10),z1,z2,…,z10的样本平均数为eq \(z,\s\up6(-)),样本方差为s2.
(1)求eq \(z,\s\up6(-)),s2;
(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果eq \(z,\s\up6(-))≥2eq \r(\f(s2,10)),则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).
解 (1)eq \(x,\s\up6(-))=eq \f(1,10)×(545+533+551+522+575+544+541+568+596+548)=552.3,
eq \(y,\s\up6(-))=eq \f(1,10)×(536+527+543+530+560+533+522+550+576+536)=541.3,
eq \(z,\s\up6(-))=eq \(x,\s\up6(-))-eq \(y,\s\up6(-))=552.3-541.3=11,
zi=xi-yi的值分别为9,6,8,-8,15,11,19,18,20,12,
故s2=eq \f(1,10)×[(9-11)2+(6-11)2+(8-11)2+(-8-11)2+(15-11)2+(11-11)2+(19-11)2+(18-11)2+(20-11)2+(12-11)2]=61.
(2)由(1)知,eq \(z,\s\up6(-))=11,2eq \r(\f(s2,10))=2eq \r(6.1)=eq \r(24.4),故有eq \(z,\s\up6(-))≥2eq \r(\f(s2,10)),所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.
1.频率分布直方图中第p百分位数的计算
(1)确定百分位数所在的区间[a,b].
(2)确定小于a和小于b的数据所占的百分比分别为fa%,fb%,则第p百分位数为a+eq \f(p%-fa%,fb%-fa%)×(b-a).
2.众数、中位数、平均数、方差的意义及常用结论
(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.
(2)方差的简化计算公式:s2=eq \f(1,n)[(xeq \\al(2,1)+xeq \\al(2,2)+…+xeq \\al(2,n))-neq \(x,\s\up6(-))2],或写成s2=eq \f(1,n)(xeq \\al(2,1)+xeq \\al(2,2)+…+xeq \\al(2,n))-eq \(x,\s\up6(-))2,即方差等于原始数据平方的平均数减去平均数的平方.
1.(2023·合肥模拟)若一组样本数据x1,x2,…,xn的平均数为10,另一组样本数据2x1+4,2x2+4,…,2xn+4的方差为8,则两组样本数据合并为一组样本数据后的平均数和方差分别为( )
A.17,54 B.17,48
C.15,54 D.15,48
答案 A
解析 由题意可知,数据x1,x2,…,xn的平均数为10,则=10,则=10n,所以数据2x1+4,2x2+4,…,2xn+4的平均数为=eq \f(1,n)eq \i\su(i=1,n, )(2xi+4)=eq \f(2,n)eq \i\su(i=1,n,x)i+4=2×10+4=24,方差为s′2=eq \f(1,n)eq \i\su(i=1,n,[)(2xi+4)-(2eq \(x,\s\up6(-))+4)]2=eq \f(4,n)eq \i\su(i=1,n, )(xi-10)2=eq \f(4,n)eq \i\su(i=1,n,x)eq \\al(2,i)-eq \f(4,n)×n×102=-400=8,所以=102n,将两组数据合并后,新数据x1,x2,…,xn,2x1+4,2x2+4,…,2xn+4的平均数为= =eq \f(1,2)eq \b\lc\(\rc\)(\a\vs4\al\c1(\f(3,n)\i\su(i=1,n,x)i+4))=eq \f(1,2)×(3×10+4)=17,方差为s″2==eq \f(1,2n)(5×102n-860n+458n)=54.故选A.
2.有13位同学参加学校组织的才艺表演比赛,已知他们所得的分数互不相同,共设7个获奖名额,某同学知道自己的比赛分数后,要判断自己能否获奖,在这13名同学成绩的统计量中只需知道一个量,它是________(填“众数”“中位数”或“平均数”).
答案 中位数
解析 因为7位获奖者的分数肯定是13名参赛选手中较高的,所以把13个不同的分数按从小到大排序,只要知道自己的分数和中位数就可以知道是否获奖了.
3.(2024·西安开学考试)某校开展了航天知识竞赛活动,竞赛分为初赛和复赛两个阶段.全校共有1000名学生参加,将他们的初赛成绩(成绩都在[50,100]内)分为[50,60),[60,70),[70,80),[80,90),[90,100] 5组,得到如图所示的频率分布直方图.
(1)求a的值,并估计全校学生初赛成绩的平均数(同一组中的数据以这组数据的中间值作为代表);
(2)若规定初赛成绩前20%的学生进入复赛,试估计进入复赛的分数线n.
解 (1)由(0.010+0.020+a+0.030+0.005)×10=1,解得a=0.035,
所以全校学生初赛成绩的平均数估计为55×0.1+65×0.2+75×0.35+85×0.3+95×0.05=75.
(2)由频率分布直方图可知,成绩在[80,100]内的频率为0.35>0.2,成绩在[90,100]内的频率为0.05<0.2,
则分数线n位于区间[80,90)内,
故n=90-eq \f(0.2-0.05,0.3)×10=85.
课时作业
一、单项选择题
1.(2024·吕梁开学考试)一组数据按从小到大的顺序排列为1,3,5,6,m,10,12,13,若该组数据的中位数是极差的eq \f(5,8),则该组数据的第60百分位数是( )
A.7.5 B.8
C.9 D.9.5
答案 C
解析 这组数据一共8个数,中位数是eq \f(6+m,2),极差为13-1=12,所以eq \f(6+m,2)=12×eq \f(5,8),解得m=9,又8×60%=4.8,则该组数据的第60百分位数是第5个数据9.故选C.
2.已知数据x1,x2,x3,x4,x5,x6的平均数是5,方差是9,则xeq \\al(2,1)+xeq \\al(2,2)+xeq \\al(2,3)+xeq \\al(2,4)+xeq \\al(2,5)+xeq \\al(2,6)=( )
A.159 B.204
C.231 D.636
答案 B
解析 根据题意,数据x1,x2,x3,x4,x5,x6的平均数eq \(x,\s\up6(-))=5,方差s2=9,则s2=eq \f(1,6)(xeq \\al(2,1)+xeq \\al(2,2)+xeq \\al(2,3)+xeq \\al(2,4)+xeq \\al(2,5)+xeq \\al(2,6))-eq \(x,\s\up6(-))2=9,变形可得xeq \\al(2,1)+xeq \\al(2,2)+xeq \\al(2,3)+xeq \\al(2,4)+xeq \\al(2,5)+xeq \\al(2,6)=204.故选B.
3.演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
答案 A
解析 中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均可能受影响.故选A.
4.(2023·滨州二模)某组样本数据的频率分布直方图如图所示,设该组样本数据的众数、平均数、第一四分位数分别为x1,x2,x3,则x1,x2,x3的大小关系是(注:同一组中的数据用该组区间中点值近似代替)( )
A.x3
解析 由频率分布直方图可知,众数为eq \f(2+3,2)=2.5,即x1=2.5,平均数x2=0.2×1.5+0.24×2.5+0.2×3.5+0.16×4.5+0.12×5.5+0.04×6.5+0.04×7.5=3.54,显然第一四分位数位于[2,3)之间,则0.2+(x3-2)×0.24=0.25,解得x3≈2.208,所以x3
A.R&D经费总量的平均数超过23000亿元
B.R&D经费总量的中位数为19678亿元
C.R&D经费与GDP之比的极差为0.45%
D.R&D经费与GDP之比增幅最大的是2021年到2022年
答案 C
解析 对于A,R&D经费总量的平均数为eq \f(1,7)×(15677+17606+19678+22144+24393+27956+30870)≈22617.7,所以A错误;对于B,R&D经费总量的中位数为22144亿元,所以B错误;对于C,R&D经费与GDP之比的极差为2.55%-2.10%=0.45%,所以C正确;对于D,R&D经费与GDP之比增幅最大的是2019年到2020年,所以D错误.故选C.
6.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则( )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
答案 B
解析 讲座前问卷答题的正确率的中位数为eq \f(70%+75%,2)=72.5%>70%,故A错误;讲座后问卷答题的正确率只有一个是80%,4个是85%,剩下的全部大于等于90%,所以讲座后问卷答题的正确率的平均数大于85%,故B正确;讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,故C错误;讲座后问卷答题的正确率的极差为100%-80%=20%,讲座前问卷答题的正确率的极差为95%-60%=35%>20%,故D错误.故选B.
7.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下列叙述不正确的是( )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
答案 D
解析 由图形可得各月的平均最低气温都在0 ℃以上,A正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C正确;平均最高气温高于20 ℃的月份为六月、七月、八月,只有3个,D错误.
8.(2024·重庆南岸模拟)已知某人收集了一个样本量为50的一组数据,并求得其平均数为70,方差为75,现发现在收集这些数据时,其中的两个数据记录有误,一个错将80记录为60,另一个错将70记录为90,在对错误的数据进行更正后,重新求得样本的平均数为eq \(X,\s\up6(-)),方差为s2,则( )
A.eq \(X,\s\up6(-))<70,s2>75 B.eq \(X,\s\up6(-))>70,s2<75
C.eq \(X,\s\up6(-))=70,s2>75 D.eq \(X,\s\up6(-))=70,s2<75
答案 D
解析 因为80+70=60+90,因此平均数不变,即eq \(X,\s\up6(-))=70,设其他48个数据依次为a1,a2,…,a48,因此(a1-70)2+(a2-70)2+…+(a48-70)2+(60-70)2+(90-70)2=50×75,(a1-70)2+(a2-70)2+…+(a48-70)2+(80-70)2+(70-70)2=50×s2,所以50(s2-75)=100-400-100=-400<0,所以s2<75.故选D.
二、多项选择题
9.(2023·新课标Ⅰ卷)有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则( )
A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数
B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数
C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差
D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差
答案 BD
解析 对于A,设x2,x3,x4,x5的平均数为m,x1,x2,…,x6的平均数为n,则n-m=eq \f(x1+x2+x3+x4+x5+x6,6)-eq \f(x2+x3+x4+x5,4)=eq \f(2(x1+x6)-(x2+x3+x4+x5),12),因为没有确定2(x1+x6),x2+x3+x4+x5的大小关系,所以无法判断m,n的大小,例如1,2,3,4,5,6,可得m=n=3.5,又如1,1,1,1,1,7,可得m=1,n=2,再如1,2,2,2,2,2,可得m=2,n=eq \f(11,6),故A错误;对于B,不妨设x1≤x2≤x3≤x4≤x5≤x6,可知x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数,均为eq \f(x3+x4,2),故B正确;对于C,因为x1是最小值,x6是最大值,则x2,x3,x4,x5的波动性不大于x1,x2,…,x6的波动性,即x2,x3,x4,x5的标准差不大于x1,x2,…,x6的标准差,例如2,4,6,8,10,12,则平均数n=eq \f(1,6)×(2+4+6+8+10+12)=7,标准差s1=
eq \r(\f(1,6)×[(2-7)2+(4-7)2+(6-7)2+(8-7)2+(10-7)2+(12-7)2])=eq \f(\r(105),3),而4,6,8,10的平均数m=eq \f(1,4)×(4+6+8+10)=7,标准差s2=
eq \r(\f(1,4)×[(4-7)2+(6-7)2+(8-7)2+(10-7)2])=eq \r(5),显然eq \f(\r(105),3)>eq \r(5),即s1>s2,故C错误;对于D,不妨设x1≤x2≤x3≤x4≤x5≤x6,则x6-x1≥x5-x2,当且仅当x1=x2,x5=x6时,等号成立,故D正确.故选BD.
10.某中学举行安全知识竞赛,对全校参赛的1000名学生的得分情况进行了统计,把得分数据按照[50,60),[60,70),[70,80),[80,90),[90,100]分成了5组,绘制了如图所示的频率分布直方图,根据图中信息,下列说法正确的是( )
A.这组数据的极差为50
B.这组数据的众数约为76
C.这组数据的中位数约为eq \f(540,7)
D.这组数据的第75百分位数约为85
答案 CD
解析 由频率分布直方图无法得到这组数据的最大值和最小值,故这组数据的极差无法准确判断,故A错误;这组数据的众数约为eq \f(1,2)×(70+80)=75,故B错误;因为(0.005+0.02)×10=0.25<0.5,0.25+0.035×10=0.6>0.5,所以中位数位于[70,80)之间,设中位数为x,则0.25+(x-70)×0.035=0.5,解得x=eq \f(540,7),即这组数据的中位数约为eq \f(540,7),故C正确;0.6+0.03×10=0.9>0.75,故第75百分位数约为80+eq \f(0.75-0.6,0.03)=85,故D正确.故选CD.
11.在发生某公共卫生事件期间,我国有关机构规定:“该事件在一段时间没有发生规模群体感染的标志为连续10天,每天新增加疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,不一定符合该标志的是( )
A.甲地总体均值为3,中位数为4
B.乙地总体均值为2,总体方差大于0
C.丙地中位数为3,众数为3
D.丁地总体均值为2,总体方差为3
答案 ABC
解析 平均数和中位数不能确定某一天的病例不超过7人,A不一定符合该标志;当总体方差大于0时,不知道总体方差的具体数值,因此不能确定数据的波动大小,B不一定符合该标志;中位数和众数也不能确定某一天的病例不超过7人,C不一定符合该标志;当总体均值为2时,若有一个数据超过7,则方差就超过3,D一定符合该标志.故选ABC.
三、填空题
12.从甲、乙、丙三个厂家生产的同一种产品中各抽取8件产品,对其使用寿命(单位:年)跟踪调查结果如下:
甲:3,4,5,6,8,8,8,10;
乙:4,6,6,6,8,9,12,13;
丙:3,3,4,7,9,10,11,12.
三个厂家在广告中都称该产品的使用寿命是8年,请根据结果判断厂家在广告中分别运用了平均数、众数、中位数中的哪一种集中趋势的特征数?甲:________,乙:________,丙:________.
答案 众数 平均数 中位数
解析 甲、乙、丙三个厂家从不同角度描述了一组数据的特征,甲:该组数据8出现的次数最多;乙:该组数据的平均数eq \(x,\s\up6(-))=eq \f(4+6×3+8+9+12+13,8)=8;丙:该组数据的中位数是eq \f(7+9,2)=8.
13.某校组织学生参与航天知识竞答活动,某班8位同学的成绩如下:7,6,8,9,8,7,10,m.若去掉m,该组数据的第25百分位数保持不变,则整数m(1≤m≤10)的值可以是________(写出一个满足条件的m值即可).
答案 7或8或9或10(填上述四个数中任意一个均可)
解析 7,6,8,9,8,7,10,m,若去掉m,该组数据从小到大排列为6,7,7,8,8,9,10,则7×0.25=1.75,故第25百分位数为第二个数即7,所以7,6,8,9,8,7,10,m这组数据的第25百分位数为7,而8×0.25=2,所以7为从小到大排列后第二个数与第三个数的平均数,所以m(1≤m≤10)的值可以是7或8或9或10.
14.(2024·邯郸一中期末)土壤修复是使遭受污染的土壤恢复正常功能的技术措施.中国现有耕地有近eq \f(1,5)受到不同程度的污染,但随着新发展理念的深入贯彻落实,国家对环境保护工作越来越重视.2021年我国正式启动(含已招标项目,不含未招标、流标项目)的土壤修复工程项目共510个,合同总金额为121.56亿元,覆盖全国除西藏、港、澳、台的30个省(区、市).如图为2021年30个省(区、市)土壤修复工程类项目数量的前十名,则这30个省(区、市)土壤修复工程类项目数据的第80百分位数是________,若图中未列出的其他20个省(区、市)土壤修复工程类项目数量的方差为44.7,则这30个省(区、市)土壤修复工程类项目数据的总体方差为________.
答案 30 188.6
解析 总共有30个省(区、市),第80百分位数即为第24位和第25位的平均值,第24位为广东,项目数据为28,第25位为山东,项目数据为32,故其第80百分位数为30.30个行政区域中,前十名的平均数为eq \f(1,10)×(58+36+36+35+33+32+28+26+24+22)=33,所以前十名的方差为eq \f(1,10)×[(58-33)2+(36-33)2+(36-33)2+(35-33)2+(33-33)2+(32-33)2+(28-33)2+(26-33)2+(24-33)2+(22-33)2]=eq \f(1,10)×(625+9+9+4+1+25+49+81+121)=92.4,除前十名外的20个省的平均数为eq \f(510-330,20)=9,方差为44.7,故30个省的平均数为17,方差为eq \f(1,30)×{10×[92.4+(33-17)2]+20×[44.7+(9-17)2]}=eq \f(1,30)×(3484+2174)=188.6.
四、解答题
15.为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
解 (1)由已知,得0.70=a+0.20+0.15,
故a=0.35,
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.
16.某市为了鼓励居民节约用电,实行“阶梯式”电价,将该市每户居民的月用电量划分为三档,月用电量不超过200千瓦时的部分按0.5元/千瓦时收费,超过200千瓦时但不超过400千瓦时的部分按0.8元/千瓦时收费,超过400千瓦时的部分按1.0元/千瓦时收费.
(1)求某户居民用电费用y(单位:元)关于月用电量x(单位:千瓦时)的函数解析式;
(2)为了了解居民的用电情况,通过抽样获得了今年1月份100户居民每户的用电量,统计分析后得到如图所示的频率分布直方图.若这100户居民中,今年1月份用电费用低于260元的居民所占的比例为80%,求a,b的值;
(3)根据(2)中求得的数据计算用电量的75%分位数.
解 (1)当0≤x≤200时,y=0.5x;
当200
当x>400时,
y=0.5×200+0.8×200+1.0×(x-400)=x-140.
所以y关于x的函数解析式为
y=eq \b\lc\{(\a\vs4\al\c1(0.5x,0≤x≤200,,0.8x-60,200
(2)由(1)可知,当y=260时,x=400,即用电量低于400千瓦时的居民所占的比例为80%,
结合频率分布直方图可知
eq \b\lc\{(\a\vs4\al\c1(0.0010×100+2×100b+0.0030×100=0.8,,100a+0.0005×100=0.2,))
解得a=0.0015,b=0.0020.
(3)设75%分位数为m,
因为用电量低于300千瓦时的居民所占的比例为(0.0010+0.0020+0.0030)×100=60%,
用电量低于400千瓦时的居民所占的比例为80%,
所以75%分位数m在[300,400)内,
所以0.6+(m-300)×0.0020=0.75,
解得m=375,
即用电量的75%分位数为375千瓦时.
17.(2023·新课标Ⅱ卷)某研究小组经过研究发现某种疾病的患病者与未患病者的某项医学指标有明显差异,经过大量调查,得到如下的患病者和未患病者该指标的频率分布直方图:
利用该指标制定一个检测标准,需要确定临界值c,将该指标大于c的人判定为阳性,小于或等于c的人判定为阴性.此检测标准的漏诊率是将患病者判定为阴性的概率,记为p(c);误诊率是将未患病者判定为阳性的概率,记为q(c).假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.
(1)当漏诊率p(c)=0.5%时,求临界值c和误诊率q(c);
(2)设函数f(c)=p(c)+q(c),当c∈[95,105]时,求f(c)的解析式,并求f(c)在区间[95,105]的最小值.
解 (1)依题意可知,患病者该指标的频率分布直方图中第一个小矩形的面积为5×0.002>0.5%,所以95
q(c)=0.01×(100-97.5)+5×0.002=0.035=3.5%.
(2)当c∈[95,100]时,f(c)=p(c)+q(c)=(c-95)×0.002+(100-c)×0.01+5×0.002=-0.008c+0.82≥0.02;
当c∈(100,105]时,f(c)=p(c)+q(c)=5×0.002+(c-100)×0.012+(105-c)×0.002=0.01c-0.98>0.02,
故f(c)=eq \b\lc\{(\a\vs4\al\c1(-0.008c+0.82,95≤c≤100,,0.01c-0.98,100
考向一 统计图表及应用
考向二 用样本估计总体
试验序号i
1
2
3
4
5
6
7
8
9
10
伸缩率xi
545
533
551
522
575
544
541
568
596
548
伸缩率yi
536
527
543
530
560
533
522
550
576
536
高考数学科学创新复习方案提升版第51讲双曲线(一)学案(Word版附解析): 这是一份高考数学科学创新复习方案提升版第51讲双曲线(一)学案(Word版附解析),共22页。
高考数学科学创新复习方案提升版第52讲双曲线(二)学案(Word版附解析): 这是一份高考数学科学创新复习方案提升版第52讲双曲线(二)学案(Word版附解析),共26页。
高考数学科学创新复习方案提升版第53讲抛物线(一)学案(Word版附解析): 这是一份高考数学科学创新复习方案提升版第53讲抛物线(一)学案(Word版附解析),共17页。