资料中包含下列文件,点击文件名可预览资料内容
还剩19页未读,
继续阅读
成套系列资料,整套一键下载
- 专题08 空间直线与平面与平面与平面的垂直(重难点突破)-【教育机构专用】2022年春季高一数学辅导讲义(新教材人教A版2019) 其他 0 次下载
- 专题09 随机抽样与用样本估计总体(课时训练)-【教育机构专用】2022年春季高一数学辅导讲义(新教材人教A版2019) 试卷 0 次下载
- 专题10 统计案例(课时训练)-【教育机构专用】2022年春季高一数学辅导讲义(新教材人教A版2019) 试卷 0 次下载
- 专题10 统计案例(重难点突破)-【教育机构专用】2022年春季高一数学辅导讲义(新教材人教A版2019) 其他 0 次下载
- 专题11 随机事件的概率与事件的相互独立性(课时训练)-【教育机构专用】2022年春季高一数学辅导讲义(新教材人教A版2019) 试卷 0 次下载
专题09 随机抽样与用样本估计总体(重难点突破)-【教育机构专用】2022年春季高一数学辅导讲义(新教材人教A版2019)
展开
专题09 随机抽样与用样本估计总体
一、 知识结构思维导图
二、 学法指导与考点梳理
知识点一 简单随机抽样
(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
知识点二 系统抽样
(1)定义:当总体中的个体数目较多时,可将总体分成均衡的几个部分,然后按照事先定出的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样.
(2)系统抽样的操作步骤
假设要从容量为N的总体中抽取容量为n的样本.
①先将总体的N个个体编号;
②确定分段间隔k,对编号进行分段,当(n是样本容量)是整数时,取k=;
③在第1段用简单随机抽样确定第一个个体编号l(l≤k);
④按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.
知识点三 分层抽样
(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
(2)应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.
【知识拓展】
1.不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
2.系统抽样一般也称为等距抽样,入样个体的编号相差分段间隔k的整数倍.
3.分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.
知识点四 频率分布直方图
(1)频率分布表的画法:
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:反映样本频率分布的直方图(如图)
横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本落在该组内的频率.
知识点五 茎叶图
统计中一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.
知识点六 样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把称为a1,a2,…,an这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=,s2=[(x1-)2+(x2-)2+…+(xn-)2].
【知识扩展】
1.频率分布直方图与众数、中位数与平均数的关系
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
三、 重难点题型突破
重难点突破1 简单随机抽样及其应用
例1.(1).(湖南省株洲二中2019届期末)某学校为调查高三年级的240名学生完成课后作业所需的时间,采取了两种抽样调查方式:第一种由学生会的同学随机抽取24名同学进行调查;第二种由教务处对高三年级的学生进行编号,从001到240,抽取学号最后一位为3的同学进行调查,则这两种抽样方法依次为( )
A.分层抽样,简单随机抽样 B.简单随机抽样,分层抽样
C.分层抽样,系统抽样 D.简单随机抽样,系统抽样
【答案】D
【解析】由三种抽样方法的定义可知,题中第一种方法为简单随机抽样,第二种为系统抽样.
(2). (辽宁省本溪一中2019届期中)在一个容量为N的总体中抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )
A.p1=p2<p3 B.p2=p3<p1
C.p1=p3<p2 D.p1=p2=p3
【答案】D
【解析】由随机抽样的知识知,三种抽样中,每个个体被抽到的概率都相等,故选D.
【变式训练1】. (2021·广东惠州市·高三一模)某工厂利用随机数表对生产的50个零件进行抽样测试,先将50个零件进行编号,编号分别为01,02,…,50,从中抽取5个样本,下面提供随机数表的第1行到第2行:
若从表中第1行第9列开始向右依次读取数据,则得到的第4个样本编号是( )
A.10 B.09 C.71 D.20
【答案】B
【分析】
按照题意依次读出前4个数即可.
【详解】
从随机数表第1行的第9列数字开始由左向右每次连续读取2个数字,删除超出范围及重复的编号,符合条件的编号有14,05,11,09,
所以选出来的第4个个体的编号为09,
故选:B
【变式训练2】. (2021·河南安阳市·高三一模(文))嫦娥五号的成功发射,实现了中国航天史上的五个“首次”,某中学为此举行了“讲好航天故事”演讲比赛.若将报名的30位同学编号为01,02,…,30,利用下面的随机数表来决定他们的出场顺序,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,重复的跳过,则选出来的第7个个体的编号为( )
A.12 B.20 C.29 D.23
【答案】C
【分析】
依次从数表中读出答案.
【详解】
依次从数表中读出的有效编号为:12,02,01,04,15,20,01,29,
得到选出来的第7个个体的编号为29.
故选:C.
重难点突破2 系统抽样及其应用
例2. (1).(河南省许昌一中2019届模拟)利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽取一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )
A.73 B.78
C.77 D.76
【答案】B
【解析】样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.
(2).(湖北省咸宁一中2019届模拟)某校高三年级共有30个班,学校心理咨询室为了了解同学们的心理状况,将每个班编号,依次为1到30,现用系统抽样的方法抽取5个班进行调查,若抽到的编号之和为75,则抽到的最小的编号为________.
【答案】3
【解析】系统抽样的抽取间隔为=6.设抽到的最小编号为x,则x+(6+x)+(12+x)+(18+x)+(24+x)=75,所以x=3.
【变式训练1】. (山东省青岛二中2019届模拟)一个总体中有90个个体,随机编号0,1,2,…,89,依从小到大的编号顺序平均分成9个小组,组号依次为1,2,3,…,9.现用系统抽样方法抽取一个容量为9的样本,规定:如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同,若m=8,则在第8组中抽取的号码是________.
【答案】76
【解析】由题意知m=8,k=8,则m+k=16,也就是第8组抽取的号码个位数字为6,十位数字为8-1=7,故抽取的号码为76.
【变式训练2】. (2021·奉新县第一中学高三三模(文))某学校决定从该校的2000名高一学生中采用系统抽样(等距)的方法抽取50名学生进行体质分析,现将2000名学生从1至2000编号,已知样本中第一个编号为7,则抽取的第26个学生的编号为( )
A.997 B.1007 C.1047 D.1087
【答案】B
【分析】按照等距系统抽样的定义进行分组抽样即可求得第26个学生的编号.
【详解】
按照等距系统抽样的定义,2000名学生分50组,即40人一组,第1组1~40,第2组41~80,…,第50组1961~2000;
若第一个编号为7,则后面每组的编号都比前一组多40,可以求得第26个学生的编号为:
,
故选:B
重难点突破3 分层抽样及其应用
例3.(2020·云南昆明一中高三(文))“二万五千里长征”是1934年10月到1936年10月中国工农红军进行的一次战略转移,是人类历史上的伟大奇迹,向世界展示了中国工农红军的坚强意志,在期间发生了许多可歌可泣的英雄故事.在中国共产党建党周年之际,某中学组织了“长征英雄事迹我来讲”活动,已知该中学共有高中生名,用分层抽样的方法从该校高中学生中抽取一个容量为的样本参加活动,其中高三年级抽了人,高二年级抽了人,则该校高一年级学生人数为( )
A. B. C. D.
【答案】C
【解析】因为用分层抽样的方法从某校学生中抽取一个容量为的样本,其中高三年级抽人,高二年级抽人,所以高一年级要抽取人,因为该校高中学共有名学生,所以各年级抽取的比例是,所以该校高一年级学生人数为人,故选C。
【变式训练1】.(2020·河南省开封市高三模拟(文))为应对新冠疫情,许多企业在非常时期转产抗疫急需物资,某工厂转产甲、乙、丙、丁四种不同型号的防疫物资,产量分别为件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽.取件进行检验,则应从甲种型号的产品中抽取____________件.
【答案】
【解析】甲种型号的产品占总产量的百分比为:,
则抽取件进行检验时,从甲种型号的产品中抽取(件)。
重难点突破4 茎叶图及其应用
例4.(1)(2020届河南省郑州市高三第二次质量预测)郑州市2019年各月的平均气温数据的茎叶图如下:则这组数据的中位数是( )
A.20 B.21 C.20.5 D.23
【答案】C
【解析】由题意得,这组数据是:01,02,15,16,18,20,21,23,23, 28,32,34,
故中位数是:,故选C。
(2).(2021·山东烟台市·高三二模)(多选题)某教练组为了比较甲、乙两名篮球运动员的竞技状态,选取了他们最近10场常规赛得分制成如图的茎叶图,则从最近10场比赛的得分看( )
A.甲的中位数大于乙的中位数 B.甲的平均数大于乙的平均数
C.甲的竞技状态比乙的更稳定 D.乙的竞技状态比甲的更稳定
【答案】AC
【分析】
由茎叶图求甲乙的中位数、平均数、方差,即可判断各选项的正误.
【详解】
由茎叶图知:甲的得分为;乙的得分为,
A:甲、乙中位数分别为、,即甲的中位数大于乙的中位数,正确;
B:甲的平均数,乙的平均数,甲的平均数小于乙的平均数,错误;
C:甲的方差,乙的方差,即,甲的竞技状态比乙的更稳定,正确,故D错误.
故选:AC.
【变式训练1】.(2020·河北省沧州市高三一模)某工厂为生产一种标准长度为的精密器件,研发了一台生产该精密器件的车床,该精密器件的实际长度为,“长度误差”为,只要“长度误差”不超过就认为合格.已知这台车床分昼、夜两个独立批次生产,每天每批次各生产件.已知每件产品的成本为元,每件合格品的利润为元.在昼、夜两个批次生产的产品中分别随机抽取件,检测其长度并绘制了如下茎叶图:
(1)分别估计在昼、夜两个批次的产品中随机抽取一件产品为合格品的概率;
(2)以上述样本的频率作为概率,求这台车床一天的总利润的平均值.
【答案】(1)昼、夜批次合格品概率估计值分别为、;(2)元.
【解析】
(1)由样本数据可知,在昼批次的个样本中有个不合格品,有个合格品,合格品的比率为,因此昼批次合格品概率估计值为.
在夜批次的个样本中有个不合格品,有个合格品,合格品的比率为,因此夜批次合格品概率估计值为;
(2)昼批次合格品的概率为,不合格品的概率为,所以件产品中合格品的均值为件,不合格品的均值为件,所以利润为(元);
夜批次合格品的概率为,不合格品的概率为,所以件产品中合格品的均值为
件,不合格品的均值为件,所以利润为(元).
故这台车床一天的总利润的平均值为(元).
【变式训练2】.2021·陕西西安市·高三月考(文))某中学高一(1)班在接种了“新冠疫苗”之后,举行了“疫情防控,接种疫苗”知识竞赛.这次竞赛前21名同学成绩的茎叶图如图所示,已知前7名女生的平均得分为221分.
(1)求茎叶图中的值;
(2)如果在竞赛成绩高于205分且按男生和女生分层抽样抽取6人,再从这6人中任选3人作为后期举行的“接种疫苗,感恩祖国”主题班会中心发言人,求这3人中有女生的概率.
【答案】(1)4;(2).
【分析】
(1)解方程即得解;
(2)利用古典概型的概率和对立事件的概率求解.
【详解】
(1)由题得.
(2)女生高于205分的有6人,男生高于205分的有12人,
按照分层抽样,所以从女生中抽取2人,从男生中抽取4人,
从这6人中任选3人,有女生的概率为.
【点睛】
方法点睛:求随机事件的概率,常用的方法:先定性(古典概型的概率、几何概型的概率、独立事件的概率、互斥事件的概率、独立重复试验的概率、条件概率),再定量.
重难点突破5 频率分布直方图
例5.(2020·云南昆明一中高三)某学校为了解本校文、理科学生的学业水平模拟测试数学成绩情况,分别从理科班学生中随机抽取人的成绩得到样本甲,从文科班学生中随机抽取人的成绩得到样本乙,根据两个样本数据分别得到如下直方图:
甲样本数据直方图
乙样本数据直方图
已知乙样本中数据在的有个.
(1)求和乙样本直方图中的值;
(2)试估计该校理科班学生本次模拟测试数学成绩的平均值和文科班学生本次模拟测试数学成绩的中位数(同一组中的数据用该组区间中点值为代表).
【答案】(1),;(2)81.5,82.5.
【解析】
(1)由直方图可知,乙样本中数据在的频率为,而这个组学生有人,则,得,由乙样本数据直方图可知,故。
(2)甲样本数据的平均值估计值为
.
由(1)知,故乙样本数据直方图中前三组的频率之和为
,
前四组的频率之和为,
故乙样本数据的中位数在第组,则可设该中位数为,
由得
,故乙样本数据的中位数为.
根据样本估计总体的思想,可以估计该校理科班学生本次模拟测试数学成绩的平均值约为,文科班学生本次模拟测试数学成绩的中位数约为.
【变式训练1】.(2020·东北师大附中高三模拟)2019年10月1日我国隆重纪念了建国70周年,期间进行了一系列大型庆祝活动,极大地激发了全国人民的爱国热情.某校高三学生也投入到了这场爱国活动中,他(她)们利用周日休息时间到社区做义务宣讲员,学校为了调查高三男生和女生周日的活动时间情况,随机抽取了高三男生和女生各40人,对他(她)们的周日活动时间进行了统计,分别得到了高三男生的活动时间(单位:小时)的频数分布表和女生的活动时间(单位:小时)的频率分布直方图.(活动时间均在内)
活动时间
频数
8
10
7
9
4
2
(1)根据调查,试判断该校高三年级学生周日活动时间较长的是男生还是女生?并说明理由;
(2)在被抽取的80名高三学生中,从周日活动时间在内的学生中抽取2人,求恰巧抽到1男1女的概率.
【答案】(1)女生,理由见解析;(2)
【解析】(1)该校高三年级周日活动时间较长的是女生,
理由如下:列出女生周日活动时间频数表
活动时间
频数
6
7
12
10
4
对比男生和女生活动时间频数表,可以发现:
活动时间在2小时及其以上的男生有22人,女生有34人;
活动时间在3小时及其以上的男生有15,女生有26人;
都是女生人数多于男生人数,所以该校高三年级周日活动时间较长的是女生;
(2)被抽到的80学生中周日活动时间在内的男生有2人,分别记为,,女生有4,分别记为,,,,
从这6人中抽取2.共有以下15个基本事件,分别为:
,,,,,,,,,,,,,;
其中恰为1男1女的共有8种情形,所以所求概率。
【变式训练2】.(2021·安徽芜湖市·高三二模(文))有一种鱼的身体吸收汞,一定量身体中汞的含量超过其体重的的鱼被人食用后,就会对人体产生危害.某海鲜市场进口了一批这种鱼,质监部门对这种鱼进行抽样检测,在30条鱼的样本中发现的汞含量(乘以百万分之一)如下:
0.07 0.34 0.95 0.98 1.02 0.98 1.37 1.40 0.39 1.02
1.44 1.58 0.54 1.08 0.71 0.70 1.20 1.24 1.62 1.68
1.85 1.30 0.81 0.82 0.84 1.39 1.26 2.20 0.91 1.31
(1)完成下面频率分布表,并画出频率分布直方图;
频率分布表:
分组
频数
频率
1
合计
30
1
频率分布直方图:
(2)根据频率分布直方图估算样本数据的平均值(保留小数点后两位,同一组中的数据用该组区间中点值代表),并根据频率分布直方图描述这批鱼身体中汞含量的分布规律.
【答案】(1)填表见解析;作图见解析;(2)平均值为:,答案见解析.
【分析】
(1)由样本数据,即可完善频率分布表中的数据,并画出频率直方图.
(2)由(1)的频率直方图计算样本均值,进而描述汞含量分布规律.
【详解】
(1)由题设样本数据,则可得频率分布表如下,
分组
频数
频率
3
10
12
4
1
合计
30
1
(2)根据频率分布直方图估算平均值为:
,
分布规律:
①该频率分布直方图呈中间高,两边低,大多数鱼身体中汞含量主要集中在区间;
②汞含量在区间的鱼最多,汞含量在区间的次之,在区间的最少;
③汞含量超过的数据所占比例较大,这说明这批鱼被人食用,对人体产生危害的可能性比较大.
重难点突破6 样本的数字特征
例6.(1)(2020届湖北省高三模拟)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城”的满意程度,组织居民给活动打分(分数为整数,满分100分),从中随机抽取一个容量为120的样本,发现所给数据均在[40,100]内.现将这些分数分成以下6组并画出样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形则下列说法中有错误的是( )
A.第三组的频数为18人
B.根据频率分布直方图估计众数为75分
C.根据频率分布直方图估计样本的平均数为75分
D.根据频率分布直方图估计样本的中位数为75分
【答案】C
【解析】对于A,因为各组的频率之和等于1,所以分数在[60,70)内的频率为:f=1﹣10(0.005+0.015+0.030+0.025+0.010)=0.15,
所以第三组[60,70)的频数为120×0.15=18(人),故正确;
对于B,因为众数的估计值是频率分布直方图中最高矩形的中点,从图中可看出众数的估计值为75分,故正确;对于C,又根据频率分布直方图,样本的平均数的估计值为:45×(10×0.005)+55×(10×0.015)+65×(10×0.015)+75×(10×0.03)+85×(10×0.025)+95×(10×0.01)=73.5(分),故错误;
对于D,因为(0.05+0.15+0.15)×10=0.35<0.5,(0.05+0.15+0.15+0.3)×10>0.5,所以中位数位于[70,80)上,所以中位数的估计值为:7075,故正确;
故选C。
(2).(2020届安徽省皖南八校高三第三次联考)新高考方案规定,普通高中学业水平考试分为合格性考试(合格考)和选择性考试(选择考).其中“选择考”成绩将计入高考总成绩,即“选择考”成绩根据学生考试时的原始卷面分数,由高到低进行排序,评定为A,B,C,D,E五个等级.某试点高中2019年参加“选择考”总人数是2017年参加“选择考”总人数的2倍,为了更好地分析该校学生“选择考”的水平情况,统计了该校2017年和2019年“选择考”成绩等级结果,得到如图表:
针对该校“选择考”情况,2019年与2017年比较,下列说法正确的是( )
A.获得A等级的人数不变 B.获得B等级的人数增加了1倍
C.获得C等级的人数减少了 D.获得E等级的人数不变
【答案】D
【解析】设2017年参加“选择考”总人数为,则2019年参加“选择考”总人数为;
则2017年获得A等级有人,2019年获得A等级有,排除A;
2017年获得B等级有人,2019年获得B等级有,排除B;
2017年获得C等级有人,2019年获得C等级有,排除C;
2017年获得E等级有人,2019年获得E等级有,人数不变,
故选D。
【变式训练1】.(2020·湖北省随州市高三调研)某大学为了调查该校学生性别与身高的关系,对该校1000名学生按照的比例进行抽样调查,得到身高频数分布表如下:
男生身高频率分布表
男生身高
(单位:厘米)
频数
7
10
19
18
4
2
女生身高频数分布表
女生身高
(单位:厘米)
频数
3
10
15
6
3
3
(1)估计这1000名学生中女生的人数;
(2)估计这1000名学生中身高在的概率;
(3)在样本中,从身高在的女生中任取2名女生进行调查,求这2名学生身高在的概率.(身高单位:厘米)
【答案】(1)400名;(2)0.49;(3).
【解析】
(1)由频率分布表可得样本中男生为60名,女生为40名,估计这1000名学生中女生的人数大约是(名).
(2)由表知,样本中身高在的人数为,样本容量是100,
样本中身高在的概率为,
估计这1000名学生中身高在的概率为0.49.
(3)依题意,身高在的女生有3名,记为,,,身高在的女生有3名,记为,,,则从身高在的女生中任取2名,所有情况有:,,,,,,,,,,,,,,共15种,其中2名学生的身高都在的情况有,,共3种,这2名学生身高都在的概率为。
【变式训练2】.(2021·四川成都市·成都七中高二期中(文))某班(共50名同学)举行了一次主题为“明初心·知使命”的党史知识竞赛活动,根据全班同学的竞赛成绩(均在80~100之间)绘制成频率分布直方图如图.
(1)求的值,并估计全班成绩的中位数;
(2)若从成绩在的同学中随机选出两人,求至少有一人成绩在的概率.
【答案】(1),中位数;(2).
【分析】
(1)由频率之和为1可求得,再根据频率判断出中位数所在区间,列出式子即可求出;
(2)可得成绩在的有2人,在的有4人,求出随机选出两人的所有情况,再求出至少有一人成绩在的情况即可得出概率.
【详解】
解:(1)由,解得.
因为第五组的频率为,第四组的频率,
,所以中位数落在第四组.
设中位数为,由,
解得中位数.
(2)由频率分布直方图知,成绩在的有人,
在的有人.
设此六人分别为,和,,,,则从成绩在的同学中随机选出2位,
有,,,,;,,,;
,,;,;共15种可能情形.
其中两人成绩都在分,有,,;,;共6种可能情形.
则至少有一人成绩在的有9种情形,
故“至少有一人成绩在”的概率为.
一、 知识结构思维导图
二、 学法指导与考点梳理
知识点一 简单随机抽样
(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.
(2)最常用的简单随机抽样的方法:抽签法和随机数法.
知识点二 系统抽样
(1)定义:当总体中的个体数目较多时,可将总体分成均衡的几个部分,然后按照事先定出的规则,从每一部分抽取一个个体得到所需要的样本,这种抽样方法叫做系统抽样.
(2)系统抽样的操作步骤
假设要从容量为N的总体中抽取容量为n的样本.
①先将总体的N个个体编号;
②确定分段间隔k,对编号进行分段,当(n是样本容量)是整数时,取k=;
③在第1段用简单随机抽样确定第一个个体编号l(l≤k);
④按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.
知识点三 分层抽样
(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
(2)应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.
【知识拓展】
1.不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
2.系统抽样一般也称为等距抽样,入样个体的编号相差分段间隔k的整数倍.
3.分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.
知识点四 频率分布直方图
(1)频率分布表的画法:
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:反映样本频率分布的直方图(如图)
横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本落在该组内的频率.
知识点五 茎叶图
统计中一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶是从茎的旁边生长出来的数.
知识点六 样本的数字特征
(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.
(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(3)平均数:把称为a1,a2,…,an这n个数的平均数.
(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为,则这组数据的标准差和方差分别是
s=,s2=[(x1-)2+(x2-)2+…+(xn-)2].
【知识扩展】
1.频率分布直方图与众数、中位数与平均数的关系
(1)最高的小长方形底边中点的横坐标即是众数.
(2)中位数左边和右边的小长方形的面积和是相等的.
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
三、 重难点题型突破
重难点突破1 简单随机抽样及其应用
例1.(1).(湖南省株洲二中2019届期末)某学校为调查高三年级的240名学生完成课后作业所需的时间,采取了两种抽样调查方式:第一种由学生会的同学随机抽取24名同学进行调查;第二种由教务处对高三年级的学生进行编号,从001到240,抽取学号最后一位为3的同学进行调查,则这两种抽样方法依次为( )
A.分层抽样,简单随机抽样 B.简单随机抽样,分层抽样
C.分层抽样,系统抽样 D.简单随机抽样,系统抽样
【答案】D
【解析】由三种抽样方法的定义可知,题中第一种方法为简单随机抽样,第二种为系统抽样.
(2). (辽宁省本溪一中2019届期中)在一个容量为N的总体中抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )
A.p1=p2<p3 B.p2=p3<p1
C.p1=p3<p2 D.p1=p2=p3
【答案】D
【解析】由随机抽样的知识知,三种抽样中,每个个体被抽到的概率都相等,故选D.
【变式训练1】. (2021·广东惠州市·高三一模)某工厂利用随机数表对生产的50个零件进行抽样测试,先将50个零件进行编号,编号分别为01,02,…,50,从中抽取5个样本,下面提供随机数表的第1行到第2行:
若从表中第1行第9列开始向右依次读取数据,则得到的第4个样本编号是( )
A.10 B.09 C.71 D.20
【答案】B
【分析】
按照题意依次读出前4个数即可.
【详解】
从随机数表第1行的第9列数字开始由左向右每次连续读取2个数字,删除超出范围及重复的编号,符合条件的编号有14,05,11,09,
所以选出来的第4个个体的编号为09,
故选:B
【变式训练2】. (2021·河南安阳市·高三一模(文))嫦娥五号的成功发射,实现了中国航天史上的五个“首次”,某中学为此举行了“讲好航天故事”演讲比赛.若将报名的30位同学编号为01,02,…,30,利用下面的随机数表来决定他们的出场顺序,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,重复的跳过,则选出来的第7个个体的编号为( )
A.12 B.20 C.29 D.23
【答案】C
【分析】
依次从数表中读出答案.
【详解】
依次从数表中读出的有效编号为:12,02,01,04,15,20,01,29,
得到选出来的第7个个体的编号为29.
故选:C.
重难点突破2 系统抽样及其应用
例2. (1).(河南省许昌一中2019届模拟)利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽取一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )
A.73 B.78
C.77 D.76
【答案】B
【解析】样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.
(2).(湖北省咸宁一中2019届模拟)某校高三年级共有30个班,学校心理咨询室为了了解同学们的心理状况,将每个班编号,依次为1到30,现用系统抽样的方法抽取5个班进行调查,若抽到的编号之和为75,则抽到的最小的编号为________.
【答案】3
【解析】系统抽样的抽取间隔为=6.设抽到的最小编号为x,则x+(6+x)+(12+x)+(18+x)+(24+x)=75,所以x=3.
【变式训练1】. (山东省青岛二中2019届模拟)一个总体中有90个个体,随机编号0,1,2,…,89,依从小到大的编号顺序平均分成9个小组,组号依次为1,2,3,…,9.现用系统抽样方法抽取一个容量为9的样本,规定:如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同,若m=8,则在第8组中抽取的号码是________.
【答案】76
【解析】由题意知m=8,k=8,则m+k=16,也就是第8组抽取的号码个位数字为6,十位数字为8-1=7,故抽取的号码为76.
【变式训练2】. (2021·奉新县第一中学高三三模(文))某学校决定从该校的2000名高一学生中采用系统抽样(等距)的方法抽取50名学生进行体质分析,现将2000名学生从1至2000编号,已知样本中第一个编号为7,则抽取的第26个学生的编号为( )
A.997 B.1007 C.1047 D.1087
【答案】B
【分析】按照等距系统抽样的定义进行分组抽样即可求得第26个学生的编号.
【详解】
按照等距系统抽样的定义,2000名学生分50组,即40人一组,第1组1~40,第2组41~80,…,第50组1961~2000;
若第一个编号为7,则后面每组的编号都比前一组多40,可以求得第26个学生的编号为:
,
故选:B
重难点突破3 分层抽样及其应用
例3.(2020·云南昆明一中高三(文))“二万五千里长征”是1934年10月到1936年10月中国工农红军进行的一次战略转移,是人类历史上的伟大奇迹,向世界展示了中国工农红军的坚强意志,在期间发生了许多可歌可泣的英雄故事.在中国共产党建党周年之际,某中学组织了“长征英雄事迹我来讲”活动,已知该中学共有高中生名,用分层抽样的方法从该校高中学生中抽取一个容量为的样本参加活动,其中高三年级抽了人,高二年级抽了人,则该校高一年级学生人数为( )
A. B. C. D.
【答案】C
【解析】因为用分层抽样的方法从某校学生中抽取一个容量为的样本,其中高三年级抽人,高二年级抽人,所以高一年级要抽取人,因为该校高中学共有名学生,所以各年级抽取的比例是,所以该校高一年级学生人数为人,故选C。
【变式训练1】.(2020·河南省开封市高三模拟(文))为应对新冠疫情,许多企业在非常时期转产抗疫急需物资,某工厂转产甲、乙、丙、丁四种不同型号的防疫物资,产量分别为件.为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽.取件进行检验,则应从甲种型号的产品中抽取____________件.
【答案】
【解析】甲种型号的产品占总产量的百分比为:,
则抽取件进行检验时,从甲种型号的产品中抽取(件)。
重难点突破4 茎叶图及其应用
例4.(1)(2020届河南省郑州市高三第二次质量预测)郑州市2019年各月的平均气温数据的茎叶图如下:则这组数据的中位数是( )
A.20 B.21 C.20.5 D.23
【答案】C
【解析】由题意得,这组数据是:01,02,15,16,18,20,21,23,23, 28,32,34,
故中位数是:,故选C。
(2).(2021·山东烟台市·高三二模)(多选题)某教练组为了比较甲、乙两名篮球运动员的竞技状态,选取了他们最近10场常规赛得分制成如图的茎叶图,则从最近10场比赛的得分看( )
A.甲的中位数大于乙的中位数 B.甲的平均数大于乙的平均数
C.甲的竞技状态比乙的更稳定 D.乙的竞技状态比甲的更稳定
【答案】AC
【分析】
由茎叶图求甲乙的中位数、平均数、方差,即可判断各选项的正误.
【详解】
由茎叶图知:甲的得分为;乙的得分为,
A:甲、乙中位数分别为、,即甲的中位数大于乙的中位数,正确;
B:甲的平均数,乙的平均数,甲的平均数小于乙的平均数,错误;
C:甲的方差,乙的方差,即,甲的竞技状态比乙的更稳定,正确,故D错误.
故选:AC.
【变式训练1】.(2020·河北省沧州市高三一模)某工厂为生产一种标准长度为的精密器件,研发了一台生产该精密器件的车床,该精密器件的实际长度为,“长度误差”为,只要“长度误差”不超过就认为合格.已知这台车床分昼、夜两个独立批次生产,每天每批次各生产件.已知每件产品的成本为元,每件合格品的利润为元.在昼、夜两个批次生产的产品中分别随机抽取件,检测其长度并绘制了如下茎叶图:
(1)分别估计在昼、夜两个批次的产品中随机抽取一件产品为合格品的概率;
(2)以上述样本的频率作为概率,求这台车床一天的总利润的平均值.
【答案】(1)昼、夜批次合格品概率估计值分别为、;(2)元.
【解析】
(1)由样本数据可知,在昼批次的个样本中有个不合格品,有个合格品,合格品的比率为,因此昼批次合格品概率估计值为.
在夜批次的个样本中有个不合格品,有个合格品,合格品的比率为,因此夜批次合格品概率估计值为;
(2)昼批次合格品的概率为,不合格品的概率为,所以件产品中合格品的均值为件,不合格品的均值为件,所以利润为(元);
夜批次合格品的概率为,不合格品的概率为,所以件产品中合格品的均值为
件,不合格品的均值为件,所以利润为(元).
故这台车床一天的总利润的平均值为(元).
【变式训练2】.2021·陕西西安市·高三月考(文))某中学高一(1)班在接种了“新冠疫苗”之后,举行了“疫情防控,接种疫苗”知识竞赛.这次竞赛前21名同学成绩的茎叶图如图所示,已知前7名女生的平均得分为221分.
(1)求茎叶图中的值;
(2)如果在竞赛成绩高于205分且按男生和女生分层抽样抽取6人,再从这6人中任选3人作为后期举行的“接种疫苗,感恩祖国”主题班会中心发言人,求这3人中有女生的概率.
【答案】(1)4;(2).
【分析】
(1)解方程即得解;
(2)利用古典概型的概率和对立事件的概率求解.
【详解】
(1)由题得.
(2)女生高于205分的有6人,男生高于205分的有12人,
按照分层抽样,所以从女生中抽取2人,从男生中抽取4人,
从这6人中任选3人,有女生的概率为.
【点睛】
方法点睛:求随机事件的概率,常用的方法:先定性(古典概型的概率、几何概型的概率、独立事件的概率、互斥事件的概率、独立重复试验的概率、条件概率),再定量.
重难点突破5 频率分布直方图
例5.(2020·云南昆明一中高三)某学校为了解本校文、理科学生的学业水平模拟测试数学成绩情况,分别从理科班学生中随机抽取人的成绩得到样本甲,从文科班学生中随机抽取人的成绩得到样本乙,根据两个样本数据分别得到如下直方图:
甲样本数据直方图
乙样本数据直方图
已知乙样本中数据在的有个.
(1)求和乙样本直方图中的值;
(2)试估计该校理科班学生本次模拟测试数学成绩的平均值和文科班学生本次模拟测试数学成绩的中位数(同一组中的数据用该组区间中点值为代表).
【答案】(1),;(2)81.5,82.5.
【解析】
(1)由直方图可知,乙样本中数据在的频率为,而这个组学生有人,则,得,由乙样本数据直方图可知,故。
(2)甲样本数据的平均值估计值为
.
由(1)知,故乙样本数据直方图中前三组的频率之和为
,
前四组的频率之和为,
故乙样本数据的中位数在第组,则可设该中位数为,
由得
,故乙样本数据的中位数为.
根据样本估计总体的思想,可以估计该校理科班学生本次模拟测试数学成绩的平均值约为,文科班学生本次模拟测试数学成绩的中位数约为.
【变式训练1】.(2020·东北师大附中高三模拟)2019年10月1日我国隆重纪念了建国70周年,期间进行了一系列大型庆祝活动,极大地激发了全国人民的爱国热情.某校高三学生也投入到了这场爱国活动中,他(她)们利用周日休息时间到社区做义务宣讲员,学校为了调查高三男生和女生周日的活动时间情况,随机抽取了高三男生和女生各40人,对他(她)们的周日活动时间进行了统计,分别得到了高三男生的活动时间(单位:小时)的频数分布表和女生的活动时间(单位:小时)的频率分布直方图.(活动时间均在内)
活动时间
频数
8
10
7
9
4
2
(1)根据调查,试判断该校高三年级学生周日活动时间较长的是男生还是女生?并说明理由;
(2)在被抽取的80名高三学生中,从周日活动时间在内的学生中抽取2人,求恰巧抽到1男1女的概率.
【答案】(1)女生,理由见解析;(2)
【解析】(1)该校高三年级周日活动时间较长的是女生,
理由如下:列出女生周日活动时间频数表
活动时间
频数
6
7
12
10
4
对比男生和女生活动时间频数表,可以发现:
活动时间在2小时及其以上的男生有22人,女生有34人;
活动时间在3小时及其以上的男生有15,女生有26人;
都是女生人数多于男生人数,所以该校高三年级周日活动时间较长的是女生;
(2)被抽到的80学生中周日活动时间在内的男生有2人,分别记为,,女生有4,分别记为,,,,
从这6人中抽取2.共有以下15个基本事件,分别为:
,,,,,,,,,,,,,;
其中恰为1男1女的共有8种情形,所以所求概率。
【变式训练2】.(2021·安徽芜湖市·高三二模(文))有一种鱼的身体吸收汞,一定量身体中汞的含量超过其体重的的鱼被人食用后,就会对人体产生危害.某海鲜市场进口了一批这种鱼,质监部门对这种鱼进行抽样检测,在30条鱼的样本中发现的汞含量(乘以百万分之一)如下:
0.07 0.34 0.95 0.98 1.02 0.98 1.37 1.40 0.39 1.02
1.44 1.58 0.54 1.08 0.71 0.70 1.20 1.24 1.62 1.68
1.85 1.30 0.81 0.82 0.84 1.39 1.26 2.20 0.91 1.31
(1)完成下面频率分布表,并画出频率分布直方图;
频率分布表:
分组
频数
频率
1
合计
30
1
频率分布直方图:
(2)根据频率分布直方图估算样本数据的平均值(保留小数点后两位,同一组中的数据用该组区间中点值代表),并根据频率分布直方图描述这批鱼身体中汞含量的分布规律.
【答案】(1)填表见解析;作图见解析;(2)平均值为:,答案见解析.
【分析】
(1)由样本数据,即可完善频率分布表中的数据,并画出频率直方图.
(2)由(1)的频率直方图计算样本均值,进而描述汞含量分布规律.
【详解】
(1)由题设样本数据,则可得频率分布表如下,
分组
频数
频率
3
10
12
4
1
合计
30
1
(2)根据频率分布直方图估算平均值为:
,
分布规律:
①该频率分布直方图呈中间高,两边低,大多数鱼身体中汞含量主要集中在区间;
②汞含量在区间的鱼最多,汞含量在区间的次之,在区间的最少;
③汞含量超过的数据所占比例较大,这说明这批鱼被人食用,对人体产生危害的可能性比较大.
重难点突破6 样本的数字特征
例6.(1)(2020届湖北省高三模拟)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城”的满意程度,组织居民给活动打分(分数为整数,满分100分),从中随机抽取一个容量为120的样本,发现所给数据均在[40,100]内.现将这些分数分成以下6组并画出样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形则下列说法中有错误的是( )
A.第三组的频数为18人
B.根据频率分布直方图估计众数为75分
C.根据频率分布直方图估计样本的平均数为75分
D.根据频率分布直方图估计样本的中位数为75分
【答案】C
【解析】对于A,因为各组的频率之和等于1,所以分数在[60,70)内的频率为:f=1﹣10(0.005+0.015+0.030+0.025+0.010)=0.15,
所以第三组[60,70)的频数为120×0.15=18(人),故正确;
对于B,因为众数的估计值是频率分布直方图中最高矩形的中点,从图中可看出众数的估计值为75分,故正确;对于C,又根据频率分布直方图,样本的平均数的估计值为:45×(10×0.005)+55×(10×0.015)+65×(10×0.015)+75×(10×0.03)+85×(10×0.025)+95×(10×0.01)=73.5(分),故错误;
对于D,因为(0.05+0.15+0.15)×10=0.35<0.5,(0.05+0.15+0.15+0.3)×10>0.5,所以中位数位于[70,80)上,所以中位数的估计值为:7075,故正确;
故选C。
(2).(2020届安徽省皖南八校高三第三次联考)新高考方案规定,普通高中学业水平考试分为合格性考试(合格考)和选择性考试(选择考).其中“选择考”成绩将计入高考总成绩,即“选择考”成绩根据学生考试时的原始卷面分数,由高到低进行排序,评定为A,B,C,D,E五个等级.某试点高中2019年参加“选择考”总人数是2017年参加“选择考”总人数的2倍,为了更好地分析该校学生“选择考”的水平情况,统计了该校2017年和2019年“选择考”成绩等级结果,得到如图表:
针对该校“选择考”情况,2019年与2017年比较,下列说法正确的是( )
A.获得A等级的人数不变 B.获得B等级的人数增加了1倍
C.获得C等级的人数减少了 D.获得E等级的人数不变
【答案】D
【解析】设2017年参加“选择考”总人数为,则2019年参加“选择考”总人数为;
则2017年获得A等级有人,2019年获得A等级有,排除A;
2017年获得B等级有人,2019年获得B等级有,排除B;
2017年获得C等级有人,2019年获得C等级有,排除C;
2017年获得E等级有人,2019年获得E等级有,人数不变,
故选D。
【变式训练1】.(2020·湖北省随州市高三调研)某大学为了调查该校学生性别与身高的关系,对该校1000名学生按照的比例进行抽样调查,得到身高频数分布表如下:
男生身高频率分布表
男生身高
(单位:厘米)
频数
7
10
19
18
4
2
女生身高频数分布表
女生身高
(单位:厘米)
频数
3
10
15
6
3
3
(1)估计这1000名学生中女生的人数;
(2)估计这1000名学生中身高在的概率;
(3)在样本中,从身高在的女生中任取2名女生进行调查,求这2名学生身高在的概率.(身高单位:厘米)
【答案】(1)400名;(2)0.49;(3).
【解析】
(1)由频率分布表可得样本中男生为60名,女生为40名,估计这1000名学生中女生的人数大约是(名).
(2)由表知,样本中身高在的人数为,样本容量是100,
样本中身高在的概率为,
估计这1000名学生中身高在的概率为0.49.
(3)依题意,身高在的女生有3名,记为,,,身高在的女生有3名,记为,,,则从身高在的女生中任取2名,所有情况有:,,,,,,,,,,,,,,共15种,其中2名学生的身高都在的情况有,,共3种,这2名学生身高都在的概率为。
【变式训练2】.(2021·四川成都市·成都七中高二期中(文))某班(共50名同学)举行了一次主题为“明初心·知使命”的党史知识竞赛活动,根据全班同学的竞赛成绩(均在80~100之间)绘制成频率分布直方图如图.
(1)求的值,并估计全班成绩的中位数;
(2)若从成绩在的同学中随机选出两人,求至少有一人成绩在的概率.
【答案】(1),中位数;(2).
【分析】
(1)由频率之和为1可求得,再根据频率判断出中位数所在区间,列出式子即可求出;
(2)可得成绩在的有2人,在的有4人,求出随机选出两人的所有情况,再求出至少有一人成绩在的情况即可得出概率.
【详解】
解:(1)由,解得.
因为第五组的频率为,第四组的频率,
,所以中位数落在第四组.
设中位数为,由,
解得中位数.
(2)由频率分布直方图知,成绩在的有人,
在的有人.
设此六人分别为,和,,,,则从成绩在的同学中随机选出2位,
有,,,,;,,,;
,,;,;共15种可能情形.
其中两人成绩都在分,有,,;,;共6种可能情形.
则至少有一人成绩在的有9种情形,
故“至少有一人成绩在”的概率为.
相关资料
更多