还剩12页未读,
继续阅读
2020版新设计一轮复习数学(文)江苏专版讲义:第十一章第一节抽样方法、用样本估计总体
展开
第一节抽样方法、用样本估计总体
1.简单随机抽样
(1)抽取方式:逐个不放回抽取;
(2)特点:每个个体被抽到的概率相等;
(3)常用方法:抽签法和随机数表法.
2.分层抽样
(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围:
当总体是由差异明显的几个部分组成时,往往选用分层抽样.
3.系统抽样的步骤
(1)采用随机的方式将总体中的N个个体编号;
(2)将编号按间隔k分段,当是整数时,取k=;当不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数N′能被n整除,这时取k=,并将剩下的总体重新编号;
(3)在第一段中用简单随机抽样确定起始的个体编号l;
(4)按照一定的规则抽取样本,通常将编号为l,l+k,l+2k,…,l+(n-1)k的个体抽出.
4.作频率分布直方图的步骤
(1)求全距;
(2)决定组距与组数;
(3)将数据分组;
(4)列频率分布表;
(5)画频率分布直方图.
5.茎叶图的优点
茎叶图的优点是不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.
[提醒] 茎叶图中茎是指中间的一列数,叶是从茎的旁边生长出来的数.
6.样本的数字特征
(1)众数、中位数、平均数
数字特征
概 念
优点与缺点
众数
一组数据中重复出现次数最多的数
众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的忽视使它无法客观地反映总体特征
中位数
把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)
中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
如果有n个数据x1,x2,…,xn,那么这n个数的平均数=
平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
(2)标准差、方差
①标准差:样本数据到平均数的一种平均距离,一般用s表示,
s= .
②方差:标准差的平方s2
s2=[(x1-)2+(x2-)2+…+(xn-)2],其中xi(i=1,2,3,…,n)是样本数据,n是样本容量,是样本平均数.
[小题体验]
1.为调查某高校学生对“一带一路”政策的了解情况,现采用分层抽样的方法抽取一个容量为500的样本.其中大一年级抽取200人,大二年级抽取100人.若其他年级共有学生3 000人,则该校学生总人数是________.
解析:设该校学生总人数为n,则1-=,解得n=7 500.
答案: 7 500
2.某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.
解析:由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以共有80×0.6=48(人).
答案:48
3.已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________.
解析:5个数的平均数==5.1,所以它们的方差s2=[(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.
答案:0.1
1.简单随机抽样中易忽视样本是从总体中逐个抽取,是不放回抽样,且每个个体被抽到的概率相等.
2.系统抽样中,易忽视抽取的样本数也就是分段的段数,当不是整数时,注意剔除,剔除的个体是随机的,各段入样的个体编号成等差数列.
3.在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.
[小题纠偏]
1.已知某商场新进3 000袋奶粉,为检查其三聚氰胺是否超标,现采用系统抽样的方法从中抽取150袋检查,若第一组抽出的号码是11,则第六十一组抽出的号码为________.
解析:每组袋数:d==20,
由题意知这些号码是以11为首项,20为公差的等差数列.
a61=11+60×20=1 211.
答案:1 211
2.如图是甲、乙两名篮球运动员在五场比赛中所得分数的茎叶图,则在这五场比赛中得分较为稳定(方差较小)的那名运动员得分的方差为________.
解析:由茎叶图知,得分较为稳定的那名运动员是乙,他在五场比赛中得分分别为8,9,10,13,15,
所以乙==11,
s=×[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]=6.8.
答案:6.8
[题组练透]
1.总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为________.
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
解析:由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.
答案:01
2.采用系统抽样方法从1 000人中抽取50人做问卷调查,将他们随机编号1,2,…,1 000.适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.若抽到的50人中,编号落入区间[1,400]的人做问卷A,编号落入区间[401,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷C的人数为________.
解析:根据系统抽样的特点可知,所有做问卷调查的人的编号构成首项为8,公差d==20的等差数列{an},所以通项公式an=8+20(n-1)=20n-12,令751≤20n-12≤1 000,得≤n≤,又因为n∈N*,所以39≤n≤50,所以做问卷C的共有12人.
答案:12
3.(2019·南京调研)某高校甲、乙、丙、丁四个专业分别有150,150,400,300名学生.为了解学生的就业倾向,用分层抽样的方法从该校这四个专业中抽取40名学生进行调查,则应从丙专业抽取的学生人数为________.
解析:由题意得,应从丙专业抽取的学生人数为40×=16.
答案:16
4.某企业三月中旬生产A、B、C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:
产品类别
A
B
C
产品数量(件)
1 300
样本容量(件)
130
由于不小心,表格中A、C产品的有关数据已被污染看不清楚,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C的产品数量是________件.
解析:设样本容量为x,则×1 300=130,
所以x=300.所以A产品和C产品在样本中共有300-130=170(件).
设C产品的样本容量为y,则y+y+10=170,
所以y=80.所以C产品的数量为×80=800(件).
答案:800
[谨记通法]
三种抽样方法的比较
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
均为不放回抽样,且抽样过程中每个个体被抽取的机会相等
从总体中逐个抽取
是后两种方法的基础
总体中的个数较少
系统抽样
将总体均分成几部分,按事先确定的规则在各部分中抽取
在起始部分抽样时采用简单随机抽样
元素个数很多且均衡的总体抽样
分层抽样
将总体分成几层,分层按比例进行抽取
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
[典例引领]
1.(2019·启东模拟)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x+y的值为________.
解析:由茎叶图知,甲组的中位数为65,当乙组的中位数也为65时,y=5,此时乙组的平均数为=66,所以x=66×5-(56+65+62+74+70)=3,所以 x+y=8.
答案:8
2.(2018·海安质量测试)某校高一年级共有800名学生,根据他们参加某项体育测试的成绩得到了如图所示的频率分布直方图,则成绩不低于80分的学生人数为________.
解析:由题设中提供的频率分布直方图可以看出:不低于80分的学生人数为(0.02+0.01)×10×800=240.
答案:240
3.(2018·苏州测试)为了了解某校今年准备报考飞行员的学生的体重情况,将所得的数据整理后,其频率分布直方图如图所示,已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为12,则报考飞行员的学生人数为________.
解析:设报考飞行员的学生人数为x,则=(1-0.037×5-0.013×5)×,解得x=48,即报考飞行员的学生人数为48.
答案:48
[由题悟法]
1.茎叶图中的3个关注点
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.
(2)重复出现的数据要重复记录,不能遗漏.
(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
2.由频率分布直方图进行相关计算时,需掌握的2个关系式
(1)×组距=频率.
(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
[即时应用]
1.(2018·苏北四市期末)某次比赛甲得分的茎叶图如图所示,若去掉一个最高分,去掉一个最低分,则剩下4个分数的方差为________.
解析:剩下的4个分数是42,44,46,52,则其平均数是46,
故方差为×(16+4+0+36)=14.
答案:14
2.随着社会的发展,食品安全问题渐渐成为社会关注的热点,为了提高学生的食品安全意识,某学校组织全校学生参加食品安全知识竞赛,成绩的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若该校的学生总人数为3 000,则成绩不超过60分的学生人数大约为________.
解析:由频率分布直方图知,成绩不超过60分的学生的频率为(0.005+0.01)×20=0.3,所以成绩不超过60分的学生人数大约为0.3×3 000=900.
答案:900
[锁定考向]
样本的数字特征常与频率分布直方图、茎叶图等知识交汇命题.
常见的命题角度有:
(1)样本的数字特征与直方图交汇;
(2)样本的数字特征与茎叶图交汇;
(3)样本的数字特征与优化决策问题.
[题点全练]
角度一:样本的数字特征与直方图交汇
1.(2019·苏州调研) 样本容量为100的频率分布直方图如图所示,根据样本频率分布直方图估计平均数为________ .
解析:平均数为×(6×10+20×12+40×14+24×16+10×18)=14.24.
答案:14.24
角度二:样本的数字特征与茎叶图交汇
2.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示.
则7个剩余分数的方差为________.
解析:根据茎叶图,去掉1个最低分87,1个最高分99,
则[87+94+90+91+90+(90+x)+91]=91,
所以x=4.
所以s2=[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=.
答案:
角度三:样本的数字特征与优化决策问题
3.甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):
甲
10
8
9
9
9
乙
10
10
7
9
9
如果甲、乙两人中只有1人入选,则入选的最佳人选应是________.
解析:因为甲=乙=9,s=×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=,s=×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=>s,故甲更稳定.
答案:甲
[通法在握]
1.利用频率分布直方图估计样本的数字特征的方法
(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数值.
(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.
(3)众数:最高的矩形的中点的横坐标.
2.利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
[演练冲关]
1.(2019·常州调研)用茎叶图记录甲、乙两名同学高三前5次数学测试的成绩,如图.他们在分析对比成绩变化时,发现乙同学成绩的一个数字看不清楚了.若已知乙的平均成绩低于甲的平均成绩,则看不清楚的数字为________.
解析:甲的平均成绩为×(99+100+101+102+103)=101,设看不清楚的数字为x,则由题意得×(93+94+97+110+110+x)<101,解得x<1.因为x≥0,x∈N,所以x=0,即看不清楚的数字为0.
答案:0
2.为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.
解析:不妨设样本数据为x1,x2,x3,x4,x5,且x1<x2<x3<x4<x5,则由样本方差为4,知(x1-7)2+(x2-7)2+(x3-7)2+(x4-7)2+(x5-7)2=20.若5个整数的平方和为20,则这5个整数的平方只能在0,1,4,9,16中选取(每个数最多出现2次),当这5个整数的平方中最大的数为16时,分析可知,总不满足和为20;当这5个整数的平方中最大的数为9时,0,1,1,9,9这组数满足要求,此时对应的样本数据为x1=4,x2=6,x3=7,x4=8,x5=10;当这5个整数的平方中最大的数不超过4时,总不满足要求,因此不存在满足条件的另一组数据.
答案:10
一抓基础,多练小题做到眼疾手快
1.(2019·南通中学高三学情调研)一汽车厂生产A,B,C三类轿车,每类轿车均有舒适型和标准型两种型号,某月的产量如下表(单位:辆):
轿车A
轿车B
轿车C
舒适型
100
150
z
标准型
300
450
600
按类用分层抽样的方法在这个月生产的轿车中抽取50辆,其中有A类轿车10辆,则z的值为________.
解析:由题意知=,解得z=400.
答案:400
2.(2018·泰州调研)某校在高三年级的1 000名学生中随机抽出100名学生的数学成绩作为样本进行分析,得到样本频率分布直方图如图所示,则估计该校高三学生中数学成绩在[110,140)之间的人数为________.
解析:由样本频率分布直方图知该校高三学生中数学成绩在[110,140)之间的频率为(0.02+0.026+0.02)×10=0.66,所以估计该校高三学生中数学成绩在[110,140)之间的人数为 1 000×0.66=660.
答案:660
3.某校高三年级500名学生中,血型为O型的有200人,A型的有125人,B型的有125人,AB型的有50人.为研究血型与色弱之间的关系,现用分层抽样的方法从这500名学生中抽取一个容量为60的样本,则应抽取________名血型为AB的学生.
解析:在整个抽样过程中,每个个体被抽到的概率为=,所以血型为AB的学生应抽取的人数为50×=6.
答案:6
4.已知一组数据:87,x,90,89,93的平均数为90,则该组数据的方差为________.
解析:由题意知×(87+x+90+89+93)=90,解得x=91,所以方差s2=×[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4.
答案:4
5.(2019·启东第一中学月考)某厂共有1 000名员工,准备选择50人参加技术评估,现将这1 000名员工编号为1到1 000,准备用系统抽样的方法抽取.已知随机抽取到的员工最小的编号是15,那么抽取到的员工最大的编号是________.
解析:样本间隔为1 000÷50=20,∵随机抽取到的最小的编号是15,∴在抽取到的员工中最大的编号是15+49×20=995.
答案:995
6.(2018·苏州期末)若一组样本数据9,8,x,10,11的平均数为10,则该组样本数据的方差为________.
解析:由=10,得x=12,
故方差s2==2.
答案:2
二保高考,全练题型做到高考达标
1.(2018·通州期末)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,则x的值为________.
答案:7
2.(2019·如皋检测)从编号为01,02,…,50的50个产品中用系统抽样的方法抽取一个样本,已知样本中的前两个编号分别为03,08(编号按从小到大的顺序排列),则样本中最大的编号是________.
解析:由题意知,抽样间隔是5,
∴样本中最大的编号是3+5×9=48.
答案:48
3.(2018·南京学情调研)为了解某一段公路汽车通过时的车速情况,现随机抽测了通过这段公路的200辆汽车的时速,所得数据均在区间[40,80]中,其频率分布直方图如图所示,则在抽测的200辆汽车中,时速在区间[40,60)内的汽车有________辆.
解析:根据频率分布直方图得,时速在区间[40,60)内的频率为(0.01+0.03)×10=0.4,故时速在区间[40,60)内的汽车有0.4×200=80(辆).
答案:80
4.用分层抽样的方法从某高中学生中抽取一个容量为45的样本,其中高一年级抽20人,高三年级抽10人,已知该校高二年级共有学生300人,则该校学生的总人数为________.
解析:样本中高二年级抽45-20-10=15(人),设该校学生的总人数为n,则=,所以n=900.
答案:900
5.(2018·扬州期末)某学校从高三年级共800名男生中随机抽取50名测量身高.根据测量结果可知被测学生身高全部介于155 cm和195 cm之间,将测量结果按如下方式分成八组:第一组[155,160),第二组[160,165),…,第八组[190,195].按上述分组方式得到的频率分布直方图的一部分如图所示,估计这所学校高三年级全体男生身高在180 cm以上(含180 cm)的人数为________.
解析:这所学校高三年级全体男生身高在180 cm以上(含180 cm)的频率为1-(0.008+0.016+0.04+0.04+0.06)×5=1-0.82=0.18,所以全体男生身高在180 cm以上(含180 cm)的人数为0.18×800=144.
答案:144
6.(2019·海门中学检测)已知数据x1,x2,…,x10的均值为2,标准差为s,又知数据3x1+2,3x2+2,…,3x10+2的方差为27,则s=________.
解析:∵数据x1,x2,…,x10的均值为2,标准差为s,
数据3x1+2,3x2+2,…,3x10+2的方差为27,
∴9s2=27,解得s=.
答案:
7.已知x是1,2,3,x,5,6,7这七个数据的中位数且1,2,x2,-y这四个数据的平均数为1,则y-的最小值为________.
解析:由题意1+2+x2-y=4,所以y=x2-1.由中位数定义知,3≤x≤5,所以y-=x2-1-.当x∈[3,5]时,函数y=x2-1与y=-均为增函数,所以y=x2-1-在[3,5]上为增函数,所以min=8-=.
答案:
8.(2018·南通调研)为了了解某校教师使用多媒体进行教学的情况,采用简单随机抽样的方法,从该校400名授课教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示,如图所示.据此可估计上学期该校400名教师中,使用多媒体进行教学的次数在[16,30)内的人数为________.
解析:由茎叶图可知,在20名教师中,上学期使用多媒体进行教学的次数在[16,30)内的人数为8,据此可以估计400名教师中,使用多媒体进行教学的次数在[16,30)内的人数为400×=160.
答案:160
9.某初级中学共有学生2 000名,各年级男、女生人数如下表:
初一年级
初二年级
初三年级
女生
373
x
y
男生
377
370
z
已知在全校学生中随机抽取1名,抽到初二年级女生的概率是0.19.
(1)求x的值;
(2)现用分层抽样的方法在全校抽取48名学生,问应在初三年级抽取多少名?
解:(1)因为=0.19,所以x=380.
(2)初三年级人数为y+z=2 000-(373+377+380+370)=500,现用分层抽样的方法在全校抽取48名学生,应在初三年级抽取的人数为:×500=12(名).
10.某班100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是[50,60),[60,70),[70,80),[80,90),[90,100].
(1)求图中a的值.
(2)若在同一组数据中,将该组区间的中点值作为这组数据的平均分,根据频率分布直方图,估计这100名学生语文成绩的平均分.
(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如表所示,求数学成绩在[50,90)之外的人数.
分数段
[50,60)
[60,70)
[70,80)
[80,90)
x∶y
1∶1
2∶1
3∶4
4∶5
解:(1)由频率分布直方图知(0.04+0.03+0.02+2a)×10=1,因此a=0.005.
(2)估计这次成绩的平均分=55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=73.
所以这100名学生语文成绩的平均分为73分.
(3)分别求出语文成绩在分数段[50,60),[60,70),[70,80),[80,90)的人数依次为0.05×100=5,0.4×100=40,0.3×100=30,0.2×100=20.
所以数学成绩分数段在[50,60),[60,70),[70,80),[80,90)的人数依次为5,20,40,25.
所以数学成绩在[50,90)之外的人数有100-(5+20+40+25)=10(人).
三上台阶,自主选做志在冲刺名校
1.(2018·苏州测试)已知等差数列{an}的公差为d,若a1,a2,a3,a4,a5的方差为8,则d=________.
解析:因为数列{an}为等差数列,所以a1,a2,a3,a4,a5的平均数为a3,所以方差为[(-2d)2+(-d)2+0+d2+(2d)2]=2d2=8,解得d=±2.
答案:±2
2.一组数据是19,20,x,43,已知这组数据的平均数是整数,且24<x<28,则这组数据的方差为________.
解析:因为(19+20+x+43)=为整数,且24<x<28,所以x=26,所以这组数据的平均数为=27,方差为[(19-27)2+(20-27)2+(26-27)2+(43-27)2]=(64+49+1+256)=×370=92.5.
答案:92.5
3.(2017·北京高考)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等,试估计总体中男生和女生人数的比例.
解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.
(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.
所以总体中分数在区间[40,50)内的人数估计为400×=20.
(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×=30.
所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.
所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
1.简单随机抽样
(1)抽取方式:逐个不放回抽取;
(2)特点:每个个体被抽到的概率相等;
(3)常用方法:抽签法和随机数表法.
2.分层抽样
(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围:
当总体是由差异明显的几个部分组成时,往往选用分层抽样.
3.系统抽样的步骤
(1)采用随机的方式将总体中的N个个体编号;
(2)将编号按间隔k分段,当是整数时,取k=;当不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数N′能被n整除,这时取k=,并将剩下的总体重新编号;
(3)在第一段中用简单随机抽样确定起始的个体编号l;
(4)按照一定的规则抽取样本,通常将编号为l,l+k,l+2k,…,l+(n-1)k的个体抽出.
4.作频率分布直方图的步骤
(1)求全距;
(2)决定组距与组数;
(3)将数据分组;
(4)列频率分布表;
(5)画频率分布直方图.
5.茎叶图的优点
茎叶图的优点是不但可以保留所有信息,而且可以随时记录,这对数据的记录和表示都能带来方便.
[提醒] 茎叶图中茎是指中间的一列数,叶是从茎的旁边生长出来的数.
6.样本的数字特征
(1)众数、中位数、平均数
数字特征
概 念
优点与缺点
众数
一组数据中重复出现次数最多的数
众数通常用于描述变量的值出现次数最多的数.但显然它对其他数据信息的忽视使它无法客观地反映总体特征
中位数
把一组数据按从小到大的顺序排列,处在中间位置的一个数据(或两个数据的平均数)
中位数等分样本数据所占频率,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点
平均数
如果有n个数据x1,x2,…,xn,那么这n个数的平均数=
平均数与每一个样本数据有关,可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均数在估计总体时可靠性降低
(2)标准差、方差
①标准差:样本数据到平均数的一种平均距离,一般用s表示,
s= .
②方差:标准差的平方s2
s2=[(x1-)2+(x2-)2+…+(xn-)2],其中xi(i=1,2,3,…,n)是样本数据,n是样本容量,是样本平均数.
[小题体验]
1.为调查某高校学生对“一带一路”政策的了解情况,现采用分层抽样的方法抽取一个容量为500的样本.其中大一年级抽取200人,大二年级抽取100人.若其他年级共有学生3 000人,则该校学生总人数是________.
解析:设该校学生总人数为n,则1-=,解得n=7 500.
答案: 7 500
2.某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.
解析:由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以共有80×0.6=48(人).
答案:48
3.已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是________.
解析:5个数的平均数==5.1,所以它们的方差s2=[(4.7-5.1)2+(4.8-5.1)2+(5.1-5.1)2+(5.4-5.1)2+(5.5-5.1)2]=0.1.
答案:0.1
1.简单随机抽样中易忽视样本是从总体中逐个抽取,是不放回抽样,且每个个体被抽到的概率相等.
2.系统抽样中,易忽视抽取的样本数也就是分段的段数,当不是整数时,注意剔除,剔除的个体是随机的,各段入样的个体编号成等差数列.
3.在绘制茎叶图时,易遗漏重复出现的数据,重复出现的数据要重复记录,同时不要混淆茎叶图中茎与叶的含义.
[小题纠偏]
1.已知某商场新进3 000袋奶粉,为检查其三聚氰胺是否超标,现采用系统抽样的方法从中抽取150袋检查,若第一组抽出的号码是11,则第六十一组抽出的号码为________.
解析:每组袋数:d==20,
由题意知这些号码是以11为首项,20为公差的等差数列.
a61=11+60×20=1 211.
答案:1 211
2.如图是甲、乙两名篮球运动员在五场比赛中所得分数的茎叶图,则在这五场比赛中得分较为稳定(方差较小)的那名运动员得分的方差为________.
解析:由茎叶图知,得分较为稳定的那名运动员是乙,他在五场比赛中得分分别为8,9,10,13,15,
所以乙==11,
s=×[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]=6.8.
答案:6.8
[题组练透]
1.总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为________.
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 3623 4869 6938 7481
解析:由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.
答案:01
2.采用系统抽样方法从1 000人中抽取50人做问卷调查,将他们随机编号1,2,…,1 000.适当分组后在第一组采用简单随机抽样的方法抽到的号码为8.若抽到的50人中,编号落入区间[1,400]的人做问卷A,编号落入区间[401,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷C的人数为________.
解析:根据系统抽样的特点可知,所有做问卷调查的人的编号构成首项为8,公差d==20的等差数列{an},所以通项公式an=8+20(n-1)=20n-12,令751≤20n-12≤1 000,得≤n≤,又因为n∈N*,所以39≤n≤50,所以做问卷C的共有12人.
答案:12
3.(2019·南京调研)某高校甲、乙、丙、丁四个专业分别有150,150,400,300名学生.为了解学生的就业倾向,用分层抽样的方法从该校这四个专业中抽取40名学生进行调查,则应从丙专业抽取的学生人数为________.
解析:由题意得,应从丙专业抽取的学生人数为40×=16.
答案:16
4.某企业三月中旬生产A、B、C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:
产品类别
A
B
C
产品数量(件)
1 300
样本容量(件)
130
由于不小心,表格中A、C产品的有关数据已被污染看不清楚,统计员记得A产品的样本容量比C产品的样本容量多10,根据以上信息,可得C的产品数量是________件.
解析:设样本容量为x,则×1 300=130,
所以x=300.所以A产品和C产品在样本中共有300-130=170(件).
设C产品的样本容量为y,则y+y+10=170,
所以y=80.所以C产品的数量为×80=800(件).
答案:800
[谨记通法]
三种抽样方法的比较
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
均为不放回抽样,且抽样过程中每个个体被抽取的机会相等
从总体中逐个抽取
是后两种方法的基础
总体中的个数较少
系统抽样
将总体均分成几部分,按事先确定的规则在各部分中抽取
在起始部分抽样时采用简单随机抽样
元素个数很多且均衡的总体抽样
分层抽样
将总体分成几层,分层按比例进行抽取
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
[典例引领]
1.(2019·启东模拟)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x+y的值为________.
解析:由茎叶图知,甲组的中位数为65,当乙组的中位数也为65时,y=5,此时乙组的平均数为=66,所以x=66×5-(56+65+62+74+70)=3,所以 x+y=8.
答案:8
2.(2018·海安质量测试)某校高一年级共有800名学生,根据他们参加某项体育测试的成绩得到了如图所示的频率分布直方图,则成绩不低于80分的学生人数为________.
解析:由题设中提供的频率分布直方图可以看出:不低于80分的学生人数为(0.02+0.01)×10×800=240.
答案:240
3.(2018·苏州测试)为了了解某校今年准备报考飞行员的学生的体重情况,将所得的数据整理后,其频率分布直方图如图所示,已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为12,则报考飞行员的学生人数为________.
解析:设报考飞行员的学生人数为x,则=(1-0.037×5-0.013×5)×,解得x=48,即报考飞行员的学生人数为48.
答案:48
[由题悟法]
1.茎叶图中的3个关注点
(1)“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一.
(2)重复出现的数据要重复记录,不能遗漏.
(3)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.
2.由频率分布直方图进行相关计算时,需掌握的2个关系式
(1)×组距=频率.
(2)=频率,此关系式的变形为=样本容量,样本容量×频率=频数.
[即时应用]
1.(2018·苏北四市期末)某次比赛甲得分的茎叶图如图所示,若去掉一个最高分,去掉一个最低分,则剩下4个分数的方差为________.
解析:剩下的4个分数是42,44,46,52,则其平均数是46,
故方差为×(16+4+0+36)=14.
答案:14
2.随着社会的发展,食品安全问题渐渐成为社会关注的热点,为了提高学生的食品安全意识,某学校组织全校学生参加食品安全知识竞赛,成绩的频率分布直方图如图所示,数据的分组依次为[20,40),[40,60),[60,80),[80,100],若该校的学生总人数为3 000,则成绩不超过60分的学生人数大约为________.
解析:由频率分布直方图知,成绩不超过60分的学生的频率为(0.005+0.01)×20=0.3,所以成绩不超过60分的学生人数大约为0.3×3 000=900.
答案:900
[锁定考向]
样本的数字特征常与频率分布直方图、茎叶图等知识交汇命题.
常见的命题角度有:
(1)样本的数字特征与直方图交汇;
(2)样本的数字特征与茎叶图交汇;
(3)样本的数字特征与优化决策问题.
[题点全练]
角度一:样本的数字特征与直方图交汇
1.(2019·苏州调研) 样本容量为100的频率分布直方图如图所示,根据样本频率分布直方图估计平均数为________ .
解析:平均数为×(6×10+20×12+40×14+24×16+10×18)=14.24.
答案:14.24
角度二:样本的数字特征与茎叶图交汇
2.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示.
则7个剩余分数的方差为________.
解析:根据茎叶图,去掉1个最低分87,1个最高分99,
则[87+94+90+91+90+(90+x)+91]=91,
所以x=4.
所以s2=[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=.
答案:
角度三:样本的数字特征与优化决策问题
3.甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):
甲
10
8
9
9
9
乙
10
10
7
9
9
如果甲、乙两人中只有1人入选,则入选的最佳人选应是________.
解析:因为甲=乙=9,s=×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=,s=×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=>s,故甲更稳定.
答案:甲
[通法在握]
1.利用频率分布直方图估计样本的数字特征的方法
(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数值.
(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.
(3)众数:最高的矩形的中点的横坐标.
2.利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
[演练冲关]
1.(2019·常州调研)用茎叶图记录甲、乙两名同学高三前5次数学测试的成绩,如图.他们在分析对比成绩变化时,发现乙同学成绩的一个数字看不清楚了.若已知乙的平均成绩低于甲的平均成绩,则看不清楚的数字为________.
解析:甲的平均成绩为×(99+100+101+102+103)=101,设看不清楚的数字为x,则由题意得×(93+94+97+110+110+x)<101,解得x<1.因为x≥0,x∈N,所以x=0,即看不清楚的数字为0.
答案:0
2.为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据.已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.
解析:不妨设样本数据为x1,x2,x3,x4,x5,且x1<x2<x3<x4<x5,则由样本方差为4,知(x1-7)2+(x2-7)2+(x3-7)2+(x4-7)2+(x5-7)2=20.若5个整数的平方和为20,则这5个整数的平方只能在0,1,4,9,16中选取(每个数最多出现2次),当这5个整数的平方中最大的数为16时,分析可知,总不满足和为20;当这5个整数的平方中最大的数为9时,0,1,1,9,9这组数满足要求,此时对应的样本数据为x1=4,x2=6,x3=7,x4=8,x5=10;当这5个整数的平方中最大的数不超过4时,总不满足要求,因此不存在满足条件的另一组数据.
答案:10
一抓基础,多练小题做到眼疾手快
1.(2019·南通中学高三学情调研)一汽车厂生产A,B,C三类轿车,每类轿车均有舒适型和标准型两种型号,某月的产量如下表(单位:辆):
轿车A
轿车B
轿车C
舒适型
100
150
z
标准型
300
450
600
按类用分层抽样的方法在这个月生产的轿车中抽取50辆,其中有A类轿车10辆,则z的值为________.
解析:由题意知=,解得z=400.
答案:400
2.(2018·泰州调研)某校在高三年级的1 000名学生中随机抽出100名学生的数学成绩作为样本进行分析,得到样本频率分布直方图如图所示,则估计该校高三学生中数学成绩在[110,140)之间的人数为________.
解析:由样本频率分布直方图知该校高三学生中数学成绩在[110,140)之间的频率为(0.02+0.026+0.02)×10=0.66,所以估计该校高三学生中数学成绩在[110,140)之间的人数为 1 000×0.66=660.
答案:660
3.某校高三年级500名学生中,血型为O型的有200人,A型的有125人,B型的有125人,AB型的有50人.为研究血型与色弱之间的关系,现用分层抽样的方法从这500名学生中抽取一个容量为60的样本,则应抽取________名血型为AB的学生.
解析:在整个抽样过程中,每个个体被抽到的概率为=,所以血型为AB的学生应抽取的人数为50×=6.
答案:6
4.已知一组数据:87,x,90,89,93的平均数为90,则该组数据的方差为________.
解析:由题意知×(87+x+90+89+93)=90,解得x=91,所以方差s2=×[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4.
答案:4
5.(2019·启东第一中学月考)某厂共有1 000名员工,准备选择50人参加技术评估,现将这1 000名员工编号为1到1 000,准备用系统抽样的方法抽取.已知随机抽取到的员工最小的编号是15,那么抽取到的员工最大的编号是________.
解析:样本间隔为1 000÷50=20,∵随机抽取到的最小的编号是15,∴在抽取到的员工中最大的编号是15+49×20=995.
答案:995
6.(2018·苏州期末)若一组样本数据9,8,x,10,11的平均数为10,则该组样本数据的方差为________.
解析:由=10,得x=12,
故方差s2==2.
答案:2
二保高考,全练题型做到高考达标
1.(2018·通州期末)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,则x的值为________.
答案:7
2.(2019·如皋检测)从编号为01,02,…,50的50个产品中用系统抽样的方法抽取一个样本,已知样本中的前两个编号分别为03,08(编号按从小到大的顺序排列),则样本中最大的编号是________.
解析:由题意知,抽样间隔是5,
∴样本中最大的编号是3+5×9=48.
答案:48
3.(2018·南京学情调研)为了解某一段公路汽车通过时的车速情况,现随机抽测了通过这段公路的200辆汽车的时速,所得数据均在区间[40,80]中,其频率分布直方图如图所示,则在抽测的200辆汽车中,时速在区间[40,60)内的汽车有________辆.
解析:根据频率分布直方图得,时速在区间[40,60)内的频率为(0.01+0.03)×10=0.4,故时速在区间[40,60)内的汽车有0.4×200=80(辆).
答案:80
4.用分层抽样的方法从某高中学生中抽取一个容量为45的样本,其中高一年级抽20人,高三年级抽10人,已知该校高二年级共有学生300人,则该校学生的总人数为________.
解析:样本中高二年级抽45-20-10=15(人),设该校学生的总人数为n,则=,所以n=900.
答案:900
5.(2018·扬州期末)某学校从高三年级共800名男生中随机抽取50名测量身高.根据测量结果可知被测学生身高全部介于155 cm和195 cm之间,将测量结果按如下方式分成八组:第一组[155,160),第二组[160,165),…,第八组[190,195].按上述分组方式得到的频率分布直方图的一部分如图所示,估计这所学校高三年级全体男生身高在180 cm以上(含180 cm)的人数为________.
解析:这所学校高三年级全体男生身高在180 cm以上(含180 cm)的频率为1-(0.008+0.016+0.04+0.04+0.06)×5=1-0.82=0.18,所以全体男生身高在180 cm以上(含180 cm)的人数为0.18×800=144.
答案:144
6.(2019·海门中学检测)已知数据x1,x2,…,x10的均值为2,标准差为s,又知数据3x1+2,3x2+2,…,3x10+2的方差为27,则s=________.
解析:∵数据x1,x2,…,x10的均值为2,标准差为s,
数据3x1+2,3x2+2,…,3x10+2的方差为27,
∴9s2=27,解得s=.
答案:
7.已知x是1,2,3,x,5,6,7这七个数据的中位数且1,2,x2,-y这四个数据的平均数为1,则y-的最小值为________.
解析:由题意1+2+x2-y=4,所以y=x2-1.由中位数定义知,3≤x≤5,所以y-=x2-1-.当x∈[3,5]时,函数y=x2-1与y=-均为增函数,所以y=x2-1-在[3,5]上为增函数,所以min=8-=.
答案:
8.(2018·南通调研)为了了解某校教师使用多媒体进行教学的情况,采用简单随机抽样的方法,从该校400名授课教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示,如图所示.据此可估计上学期该校400名教师中,使用多媒体进行教学的次数在[16,30)内的人数为________.
解析:由茎叶图可知,在20名教师中,上学期使用多媒体进行教学的次数在[16,30)内的人数为8,据此可以估计400名教师中,使用多媒体进行教学的次数在[16,30)内的人数为400×=160.
答案:160
9.某初级中学共有学生2 000名,各年级男、女生人数如下表:
初一年级
初二年级
初三年级
女生
373
x
y
男生
377
370
z
已知在全校学生中随机抽取1名,抽到初二年级女生的概率是0.19.
(1)求x的值;
(2)现用分层抽样的方法在全校抽取48名学生,问应在初三年级抽取多少名?
解:(1)因为=0.19,所以x=380.
(2)初三年级人数为y+z=2 000-(373+377+380+370)=500,现用分层抽样的方法在全校抽取48名学生,应在初三年级抽取的人数为:×500=12(名).
10.某班100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是[50,60),[60,70),[70,80),[80,90),[90,100].
(1)求图中a的值.
(2)若在同一组数据中,将该组区间的中点值作为这组数据的平均分,根据频率分布直方图,估计这100名学生语文成绩的平均分.
(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如表所示,求数学成绩在[50,90)之外的人数.
分数段
[50,60)
[60,70)
[70,80)
[80,90)
x∶y
1∶1
2∶1
3∶4
4∶5
解:(1)由频率分布直方图知(0.04+0.03+0.02+2a)×10=1,因此a=0.005.
(2)估计这次成绩的平均分=55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=73.
所以这100名学生语文成绩的平均分为73分.
(3)分别求出语文成绩在分数段[50,60),[60,70),[70,80),[80,90)的人数依次为0.05×100=5,0.4×100=40,0.3×100=30,0.2×100=20.
所以数学成绩分数段在[50,60),[60,70),[70,80),[80,90)的人数依次为5,20,40,25.
所以数学成绩在[50,90)之外的人数有100-(5+20+40+25)=10(人).
三上台阶,自主选做志在冲刺名校
1.(2018·苏州测试)已知等差数列{an}的公差为d,若a1,a2,a3,a4,a5的方差为8,则d=________.
解析:因为数列{an}为等差数列,所以a1,a2,a3,a4,a5的平均数为a3,所以方差为[(-2d)2+(-d)2+0+d2+(2d)2]=2d2=8,解得d=±2.
答案:±2
2.一组数据是19,20,x,43,已知这组数据的平均数是整数,且24<x<28,则这组数据的方差为________.
解析:因为(19+20+x+43)=为整数,且24<x<28,所以x=26,所以这组数据的平均数为=27,方差为[(19-27)2+(20-27)2+(26-27)2+(43-27)2]=(64+49+1+256)=×370=92.5.
答案:92.5
3.(2017·北京高考)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:
(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等,试估计总体中男生和女生人数的比例.
解:(1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,所以样本中分数小于70的频率为1-0.6=0.4.
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.
(2)根据题意,样本中分数不小于50的频率为(0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0.9-5=5.
所以总体中分数在区间[40,50)内的人数估计为400×=20.
(3)由题意可知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×=30.
所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.
所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2.
相关资料
更多