所属成套资源:(人教版)2020高考理科数学一轮复习讲义
2020版高考理科数学(人教版)一轮复习讲义:第十一章第三节随机抽样与用样本估计总体
展开第三节随机抽样与用样本估计总体1.简单随机抽样(1)抽取方式:逐个不放回抽取;(2)特点:每个个体被抽到的概率相等;(3)常用方法:抽签法和随机数法.⇒ 利用随机数表抽样时,①选定的初始数和读数的方向是任意的;②对各个个体编号要视总体中的个体数情况而定,且必须保证所编号码的位数一致.2.分层抽样(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.利用分层抽样要注意按比例抽取,若各层应抽取的个体数不都是整数,则应当调整各层容量,即先剔除各层中“多余”的个体.3.系统抽样(1)系统抽样适用于元素个数很多且均衡的总体.(2)系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本.①先将总体的N个个体编号;②确定分段间隔k,对编号进行分段.当(n是样本容量)是整数时,取k=;③在第1段用简单随机抽样确定第一个个体编号l(l≤k);④按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号l+k,再加k得到第3个个体编号l+2k,依次进行下去,直到获取整个样本.4.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差);(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.5.频率分布折线图和总体密度曲线(1)频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.(2)总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.6.茎叶图统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.7.标准差和方差(1)标准差是样本数据到平均数的一种平均距离.(2)标准差:s= .(3)方差:s2=[(x1-)2+(x2-)2+…+(xn-)2](xn是样本数据,n是样本容量,是样本平均数).1.标准差与方差的特点反映了各个样本数据聚集于样本平均数周围的程度.标准差方差越小,表明各个样本数据在样本平均数周围越集中;标准差方差越大,表明各个样本数据在样本平均数的两边越分散.2.平均数、方差的公式推广1若数据x1,x2,…,xn的平均数为\x\to(x),那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m\x\to(x)+a.,2数据x1,x2,…,xn的方差为s2.,①数据x1+a,x2+a,…,xn+a的方差也为s2;,②数据ax1,ax2,…,axn的方差为a2s2.[小题查验基础]一、判断题(对的打“√”,错的打“×”)(1)在简单随机抽样中,某一个个体被抽到的可能性与第几次抽取有关,第一次被抽到的可能性最大.( )(2)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( )(3)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( )(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( )答案:(1)× (2)× (3)√ (4)× (5)√二、选填题1.为了了解某地参加计算机水平测试的5 000名学生的成绩,从中抽取了200名学生的成绩进行统计分析.在这个问题中,这200名学生成绩的全体是( )A.总体 B.个体C.从总体中抽取的一个样本 D.样本容量解析:选C 根据随机抽样的概念可知选C.2.某学校为调查高三年级的240名学生完成课后作业所需的时间,采取了两种抽样调查方式:第一种由学生会的同学随机抽取24名同学进行调查;第二种由教务处对高三年级的学生进行编号,从001到240,抽取学号最后一位为3的同学进行调查,则这两种抽样方法依次为( )A.分层抽样,简单随机抽样B.简单随机抽样,分层抽样C.分层抽样,系统抽样D.简单随机抽样,系统抽样解析:选D 由三种抽样方法的定义可知,题中第一种方法为简单随机抽样,第二种为系统抽样.3.为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A.x1,x2,…,xn的平均数 B.x1,x2,…,xn的标准差C.x1,x2,…,xn的最大值 D.x1,x2,…,xn的中位数解析:选B 统计问题中,体现数据的稳定程度的指标为数据的方差或标准差.故选B.4.某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.解析:设应从高二年级抽取x名学生,则=,解得x=15.答案:155.如图是某班8位学生诗词比赛得分的茎叶图,那么这8位学生得分的众数和中位数分别为________.解析:依题意,结合茎叶图,将题中的数由小到大依次排列得到:86,86,90,91,93,93,93,96,因此这8位学生得分的众数是93,中位数是=92.答案:93 92[题组练透]1.利用简单随机抽样,从n个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为,则在整个抽样过程中,每个个体被抽到的概率为( )A. B.C. D.解析:选C 根据题意,=,解得n=28.故在整个抽样过程中每个个体被抽到的概率为=.2.福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球的号码为( )81472368639317901269868162935060913375856139850632359246225410027849821886704805468815192049 A.12 B.33C.06 D.16解析:选C 被选中的红色球的号码依次为17,12,33,06,32,22.所以第四个被选中的红色球的号码为06.3.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽取一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )A.73 B.78C.77 D.76解析:选B 样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.4.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:最喜爱喜爱一般不喜欢4 8007 2006 4001 600 电视台为了了解观众的具体想法和意见,打算从中抽取100人进行详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽取的人数分别为( )A.25,25,25,25 B.48,72,64,16C.20,40,30,10 D.24,36,32,8解析:选D 因为抽样比为=,所以每类人中应抽取的人数分别为4 800×=24,7 200×=36,6 400×=32,1 600×=8.5.为了了解高一、高二、高三学生的身体状况,现用分层抽样的方法抽取一个容量为1 200的样本,三个年级学生人数之比依次为k∶5∶3,已知高一年级共抽取了240人,则高三年级抽取的人数为________.解析:因为高一年级抽取学生的比例为=,所以=,解得k=2,故高三年级抽取的人数为1 200×=360.答案:360[名师微点]1.应用随机数法的两个关键点(1)确定以表中的哪个数(哪行哪列)为起点,以哪个方向为读数的方向;(2)读数时注意结合编号特点进行读取,若编号为两位数字,则两位两位地读取,若编号为三位数字,则三位三位地读取,有超过总体号码或出现重复号码的数字舍去,这样继续下去,直到获取整个样本.2.解决分层抽样题的关键先确定抽样比,然后把各层个体数乘以抽样比,即得各层要抽取的个体数.常用公式:(1)抽样比==;(2)层1的容量∶层2的容量∶层3的容量=样本中层1的容量∶样本中层2的容量∶样本中层3的容量.[典例精析]我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.[解] (1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04,同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得a=0.30.(2)由(1)可知,100位居民中每人月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12. 根据样本中的频率,可以估计全市30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x<3.由0.30×(x-2.5)=0.85-0.73,解得x=2.9.所以估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.[解题技法]1.谨记频率分布直方图的相关公式(1)直方图中各小长方形的面积之和为1.(2)直方图中纵轴表示,故每组样本的频率为组距×,即矩形的面积.(3)直方图中每组样本的频数为频率×总数.2.频率分布直方图中数字特征的计算(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.[过关训练]1.(2019·贵阳模拟)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80~100分的学生人数是( )A.15 B.18C.20 D.25解析:选A 根据频率分布直方图,得第二小组的频率是0.040×10=0.4,∵频数是40,∴样本容量是=100,又成绩在80~100分的频率是(0.010+0.005)×10=0.15,∴成绩在80~100分的学生人数是100×0.15=15.2.某网络营销部门随机抽查了某市200名网友在2018年11月11日的网购金额,所得数据如下表:网购金额(单位:千元)人数频率(0,1]160.08(1,2]240.12(2,3]xp(3,4]yq(4,5]160.08(5,6]140.07总计2001.00 已知网购金额不超过3千元与超过3千元的人数比恰为3∶2.(1)试确定x,y,p,q的值,并补全频率分布直方图(如图);(2)该营销部门为了了解该市网友的购物体验,从这200名网友中,用分层抽样的方法从网购金额在(1,2]和(4,5]的两个群体中确定5人进行问卷调查,若需从这5人中随机选取2人继续访谈,则此2人来自不同群体的概率是多少?解:(1)根据题意有解得∴p=0.40,q=0.25.补全频率分布直方图如图所示.(2)根据题意,抽取网购金额在(1,2]内的人数为×5=3(人).抽取网购金额在(4,5]内的人数为×5=2(人).故此2人来自不同群体的概率P==.[典例精析]某良种培育基地正在培育一小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产量的数据(单位:千克)如下.品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)作出品种A与B亩产量数据的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.[解] (1)画出茎叶图如图所示.(2)由于每个品种的数据都只有25个,样本容量不大,画茎叶图很方便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且可以随时记录新的数据.(3)通过观察茎叶图可以看出:①品种A的亩产量的平均数(或均值)比品种B高;②品种A的亩产量的标准差(或方差)比品种B大,故品种A的亩产量的稳定性较差.[解题技法]茎叶图的使用策略(1)茎叶图的绘制需注意:①“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;②重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.(2)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等. [过关训练]1.如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )A.3,5 B.5,5C.3,7 D.5,7解析:选A 甲组数据的中位数为65,由甲、乙两组数据的中位数相等,得y=5.又甲、乙两组数据的平均值相等,∴×(56+65+62+74+70+x)=×(59+61+67+65+78),∴x=3.故选A.2.某赛季甲、乙两名篮球运动员每场比赛的得分如茎叶图所示.下列结论错误的是( )A.乙运动员得分的中位数是36B.甲运动员发挥的稳定性比乙运动员发挥的稳定性差C.甲运动员的平均分为27分D.乙运动员的得分有集中在茎3上解析:选C 从茎叶图知,A、D是正确的,乙运动员的得分较集中,甲运动员得分较分散,故B是正确的,甲运动员得分的平均分为<27.故选C.[典例精析]某大学艺术专业的400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据按[20,30),[30,40),…,[80,90]分成7组,并整理得到如图所示的频率分布直方图.(1)估计总体的众数;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女学生人数相等.试估计总体中男生和女生人数的比例.[解] (1)由频率分布直方图可估计总体的众数为=75.(2)由频率分布直方图可知,样本中分数在区间[50,90)内的人数为(0.01+0.02+0.04+0.02)×10×100=90.因为样本中分数小于40的学生有5人,所以样本中分数在区间[40,50)内的人数为100-90-5=5.设总体中分数在区间[40,50)内的人数为x,则=,解得x=20,故估计总体中分数在区间[40,50)内的人数为20.(3)由频率分布直方图可知,样本中分数不小于70的人数为(0.04+0.02)×10×100=60.因为样本中分数不小于70的男女学生人数相等,所以样本中分数不小于70的男生人数为30.因为样本中有一半男生的分数不小于70,所以样本中男生的人数为60,女生的人数为40.由样本估计总体,得总体中男生和女生人数的比例约为3∶2.[解题技法]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.[过关训练]1.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A.甲的成绩的平均数小于乙的成绩的平均数B.甲的成绩的中位数等于乙的成绩的中位数C.甲的成绩的方差小于乙的成绩的方差D.甲的成绩的极差小于乙的成绩的极差解析:选C 甲的平均数是=6,中位数是6,极差是4,方差是=2;乙的平均数是=6,中位数是5,极差是4,方差是=,比较可得选项C正确.2.已知一组数据x1,x2,x3,x4,x5的方差是2,则数据2x1,2x2,2x3,2x4,2x5的标准差为________.解析:由s2=(xi-)2=2,则数据2x1,2x2,2x3,2x4,2x5的方差是8,标准差为2.答案:23.甲、乙两人参加某体育项目训练,近期的五次测试成绩(单位:分)如图所示:(1)分别求出甲、乙两人成绩的平均数与方差;(2)根据(1)的结果,对两人的成绩作出评价.解:(1)由题图可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;乙:13分,14分,12分,12分,14分.甲==13, 乙==13,s=×[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,s=×[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.(2)由s>s,可知乙的成绩较稳定.从题图看,甲的成绩基本呈上升趋势,而乙的成绩上下波动,因此甲的成绩在不断提高,而乙的成绩则无明显提高.