2021高三统考北师大版数学一轮学案:第10章第2讲 用样本估计总体
展开第2讲 用样本估计总体
基础知识整合
1.用样本的频率分布估计总体分布
(1)作频率分布直方图的步骤
①求极差(即一组数据中最大值与最小值的差).
②决定组距与组数.
③将数据分组.
④列频率分布表.
⑤画频率分布直方图.
(2)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
(3)茎叶图
茎是指中间的一列数,叶是从茎的旁边生长出来的数.
2.用样本的数字特征估计总体的数字特征
(1)众数:一组数据中出现次数最多的数.
(2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.
(3)平均数:=,反映了一组数据的平均水平.
(4)标准差:是样本数据到平均数的一种平均距离,s=
.
(5)方差:s2=[(x1-)2+(x2-)2+…+(xn-)2](xn是样本数据,n是样本容量,是样本平均数).
1.频率分布直方图与众数、中位数与平均数的关系
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
2.标准差与方差的特点
反映了各个样本数据聚集于样本平均数周围的程度.标准差(方差)越小,表明各个样本数据在样本平均数周围越集中;标准差(方差)越大,表明各个样本数据在样本平均数的两边越分散.
3.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)若数据x1,x2,…,xn的方差为s2,则:
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
1.(2017·全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数
答案 B
解析 因为可以用极差、方差或标准差来描述数据的离散程度,所以要评估亩产量稳定程度,应该用样本数据的极差、方差或标准差.故选B.
2.(2020·云川贵百校联考)某课外小组的同学们从社会实践活动中调查了20户家庭某月的用电量,如下表所示:
用电量/度 | 120 | 140 | 160 | 180 | 200 |
户数 | 2 | 3 | 5 | 8 | 2 |
则这20户家庭该月用电量的众数和中位数分别是( )
A.180,170 B.160,180
C.160,170 D.180,160
答案 A
解析 用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.
3.在样本频率分布直方图中,共有9个小长方形,若中间一个小长方形的面积等于其他8个长方形的面积和的,且样本容量为140,则中间一组的频数为( )
A.28 B.40
C.56 D.60
答案 B
解析 设中间一个小长方形的面积为x,其他8个长方形的面积为x,因此x+x=1,所以x=.所以中间一组的频数为140×=40.故选B.
4.(2019·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
答案 A
解析 中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.
5.(2019·江苏高考)已知一组数据6,7,8,8,9,10,则该组数据的方差是________.
答案
解析 这组数据的平均数为8,故方差为s2=×[(6-8)2+(7-8)2+(8-8)2+(8-8)2+(9-8)2+(10-8)2]=.
6.(2019·全国卷Ⅱ)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.
答案 0.98
解析 因为平均正点率
==0.98,所以经停该站高铁列车所有车次的平均正点率的估计值为0.98.
核心考向突破
考向一 频率分布直方图及应用
例1 (1)(2019·秦皇岛模拟)某商场在国庆黄金周的促销活动中,对10月1日9时至14时的销售额进行统计,其频率分布直方图如图所示.已知9时至10时的销售额为3万元,则11时至12时的销售额为( )
A.8万元 B.10万元
C.12万元 D.15万元
答案 C
解析 由频率分布直方图,知9时至10时的销售额的频率为0.1,故销售总额为=30万元.又11时至12时的销售额的频率为0.4,故销售额为0.4×30=12万元.故选C.
(2)某高校随机抽取20个班,调查各班有出国意向的人数,所得数据的茎叶图如图所示.以5为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],所作的频率分布直方图是( )
答案 A
解析 以5为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],各组的频数依次为1,1,4,2,4,3,3,2,可知画出的频率分布直方图为选项A.
1.频率、频数、样本容量的计算方法
(1)×组距=频率.
(2)=频率,=样本容量,样本容量×频率=频数.
2.绘制频率分布直方图时需注意
(1)制作好频率分布表后,可以利用各组的频率之和是不是1来检验该表是否正确.
(2)频率分布直方图的纵坐标是,而不是频率.
(3)频率分布直方图中各小矩形的高的比就是相应各组的频率之比.
[即时训练] 1.(2019·贵州黔东南州联考)近年呼吁高校招生改革的呼声越来越高,在赞成高校招生改革的市民中按年龄分组,得到样本频率分布直方图如图,其中年龄在[30,40)岁的有2500人,年龄在[20,30)岁的有1200人,则m的值为( )
A.0.013 B.0.13
C.0.012 D.0.12
答案 C
解析 由题意,得年龄在[30,40)岁的频率为0.025×10=0.25,则赞成高校招生改革的市民有=10000人,又因为年龄在[20,30)岁的有1200人,则m==0.012.故选C.
2.为了解某校高三学生联考的数学成绩情况,从该校参加联考学生的数学成绩中抽取一个样本,并分成五组,绘成如图所示的频率分布直方图,已知第一组至第五组的频率之比为1∶2∶8∶6∶3,第五组的频数为6,则样本容量为________.
答案 40
解析 因为第一组至第五组的频率之比为1∶2∶8∶6∶3,所以可设第一组至第五组的频率分别为k,2k,8k,6k,3k,又频率之和为1,所以k+2k+8k+6k+3k=1,解得k==0.05,所以第五组的频率为3×0.05=0.15,又第五组的频数为6,所以样本容量为=40.
考向二 茎叶图的应用
例2 (1)(2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )
A.3,5 B.5,5
C.3,7 D.5,7
答案 A
解析 甲组数据的中位数为65,由甲、乙两组数据的中位数相等,得y=5.又甲、乙两组数据的平均值相等,
∴×(56+65+62+74+70+x)=×(59+61+67+65+78),∴x=3.故选A.
(2)(2019·郑州质量预测)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物.如图是根据某地某日早7点到晚8点甲、乙两个PM2.5监测点统计的数据(单位:毫克/立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是( )
A.甲 B.乙
C.甲、乙相等 D.无法确定
答案 A
解析 从茎叶图上可以观察到:甲监测点的样本数据比乙监测点的样本数据更加集中,因此甲地浓度的方差较小.
茎叶图的绘制及应用
(1)制作茎叶图的一般方法是:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大顺序由上到下列出.
(2)估计数字特征,给定两组数据的茎叶图,“重心”下移者平均数较大,数据集中者方差较小.
[即时训练] 3.(2020·唐山五校联考)某校开展摄影比赛,9位评委为参赛作品A给出的分数如图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91.复核员在复核时,发现有一个数字(茎叶图中的x)无法看清.若记分员计算无误,则数字x应该是( )
A.1 B.2
C.3 D.4
答案 A
解析 当x≥4时,=≠91.当x<4时,=91,所以x=1,故选A.
精准设计考向,多角度探究突破
考向三 数字特征的应用
角度 样本的数字特征与直方图
例3 (2019·益阳模拟)为了了解某校九年级1600名学生的体能情况,随机抽查了部分学生,测试1分钟仰卧起坐的成绩(次数),将数据整理后绘制成如图所示的频率分布直方图,根据统计图的数据,下列结论错误的是( )
A.该校九年级学生1分钟仰卧起坐的次数的中位数为26.25
B.该校九年级学生1分钟仰卧起坐的次数的众数为27.5
C.该校九年级学生1分钟仰卧起坐的次数超过30的人数约为320
D.该校九年级学生1分钟仰卧起坐的次数少于20的人数约为32
答案 D
解析 由频率分布直方图可知,中位数是频率分布直方图面积等分线对应的数值,是26.25;众数是最高矩形的中间值27.5;1分钟仰卧起坐的次数超过30的频率为0.2,所以估计1分钟仰卧起坐的次数超过30的人数为320;1分钟仰卧起坐的次数少于20的频率为0.1,所以估计1分钟仰卧起坐的次数少于20的人数为160.故D错误.
角度 样本的数字特征与茎叶图
例4
为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( )
A.①③ B.①④
C.②③ D.②④
答案 B
解析 由茎叶图,得甲==29,
∴甲<乙,s甲>s乙,故选B.
众数、中位数、平均数、方差的意义及常用结论
(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.
(2)方差的简化计算公式:s2=[(x+x+…+x)-n2],或写成s2=(x+x+…+x)-2,即方差等于原始数据平方的平均数减去平均数的平方.
[即时训练] 4.如图是某工厂对一批新产品长度(单位:mm)检测结果的频率分布直方图,估计这批产品的平均长度为________mm.
答案 22.75
解析 根据频率分布直方图,估计这批产品的平均长度为(12.5×0.02+17.5×0.04+22.5×0.08+27.5×0.03+32.5×0.03)×5=22.75 mm.
5.对甲、乙两名自行车赛手在相同条件下进行了6次测试,测得他们的最大速度(单位:m/s)的数据如下:
甲 | 27 | 38 | 30 | 37 | 35 | 31 |
乙 | 33 | 29 | 38 | 34 | 28 | 36 |
(1)画出茎叶图;
(2)分别求出甲、乙两名自行车赛手最大速度(m/s)数据的平均数、方差、极差,并判断选谁参加比赛比较合适?
解 (1)画茎叶图如下(中间数为数据的十位数).
(2)甲==33.
乙==33.
s=×[(27-33)2+(38-33)2+(30-33)2+(37-33)2+(35-33)2+(31-33)2]≈15.67.
s=×[(33-33)2+(29-33)2+(38-33)2+(34-33)2+(28-33)2+(36-33)2]≈12.67.
甲的极差为11,乙的极差为10.
综合比较以上数据可知,甲、乙平均数相同,但乙的极差、方差相对更小,成绩更稳定,故选乙参加比赛较合适.
(2019·湖北黄冈模拟)从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.
(1)直方图中x的值为________;
(2)在这些用户中,用电量落在区间[100,250)内的户数为________.
答案 (1)0.0044 (2)70
解析 (1)由频率分布直方图,得用电量落在区间[200,250)内的频率为1-(0.0024+0.0036+0.0060+0.0024+0.0012)×50=0.22,于是x==0.0044.
(2)∵用电量落在区间[100,250)内的频率为(0.0036+0.0060+0.0044)×50=0.7,∴所求户数为100×0.7=70.
答题启示
正确理解频率分布直方图
(1)纵轴表示,即小长方形的高=;
(2)小长方形的面积=组距×=频率;
(3)数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1.
解本题时,易把频率0.22误认为是x的值而出错,x的值应由频率0.22除以组距50求得.
对点训练
某电子商务公司对10000名网络购物者上一年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a=________;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.
答案 (1)3 (2)6000
解析 (1)由频率分布直方图及频率和等于1可得0.2×0.1+0.8×0.1+1.5×0.1+2×0.1+2.5×0.1+a×0.1=1,解得a=3.
(2)消费金额在区间[0.5,0.9]内的频率为0.2×0.1+0.8×0.1+2×0.1+3×0.1=0.6,所以消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10000=6000.