专题18 统计与成对数据的统计分析-备战2024年高考数学考试易错题(新高考专用)
展开一、知识速览
二、考点速览
知识点1 随机抽样
1、抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.
2、简单随机抽样
(1)定义:一般地,设一个总体含有个个体,从中逐个不放回地抽取个个体作为样本(),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)两种常用的简单随机抽样方法
①抽签法:一般地,抽签法就是把总体中的个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取次,就得到一个容量为的样本.适用于总体个数较少的情况。
②随机数法:即利用随机数表、随机数骰子或计算机产生的随机数进行抽样.这里仅介绍随机数表法.随机数表由数字,,,…,组成,并且每个数字在表中各个位置出现的机会都是一样的.适用于总体个数较多的情况,但是当总体容量很大时,需要的样本容量也很大时,利用随机数法抽取样本仍不方便.
(3)简单随机抽样的特征(只有四个特点都满足的抽样才是简单随机抽样)
①有限性:简单随机抽样要求被抽取的样本的总体个数是有限的,便于通过样本对总体进行分析.
②逐一性:简单随机抽样是从总体中逐个地进行抽取,便于实践中操作.
③不放回性:简单随机抽样是一种不放回抽样,便于进行有关的分析和计算.
④等可能性:简单单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样方法的公平.
3、分层抽样
(1)定义:一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.
分层抽样适用于已知总体是由差异明显的几部分组成的.
(2)分层抽样问题类型及解题思路
①求某层应抽个体数量:按该层所占总体的比例计算.
②已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.
③分层抽样的计算应根据抽样比构造方程求解,其中“抽样比=eq \f(样本容量,总体容量)=eq \f(各层样本数量,各层个体数量)”
【注意】分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取()个个体(其中是层数,是抽取的样本容量,是第层中个体的个数,是总体容量).
知识点2 用样本估计总体
1、频率分布直方图
(1)频率、频数、样本容量的计算方法
①eq \f(频率,组距)×组距=频率.
②eq \f(频数,样本容量)=频率,eq \f(频数,频率)=样本容量,样本容量×频率=频数.
③频率分布直方图中各个小方形的面积总和等于.
(2)频率分布直方图中数字特征的计算
= 1 \* GB3 ①最高的小长方形底边中点的横坐标即是众数.
= 2 \* GB3 ②中位数左边和右边的小长方形的面积和是相等的.设中位数为,利用左(右)侧矩形面积之和等于,即可求出.
= 3 \* GB3 ③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和,即有,其中为每个小长方形底边的中点,为每个小长方形的面积.
2、百分位数
(1)定义:一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数:我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
3、样本的数字特征
(1)众数、中位数、平均数
①众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
②中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
③平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
(2)标准差和方差
①标准差:标准差是样本数据到平均数的一种平均距离,一般用表示.假设样本数据是,表示这组数据的平均数,则标准差.
②方差:方差就是标准差的平方,即.显然,在刻画样本数据的分散程度上,方差与标准差是一样的.在解决实际问题时,多采用标准差.
【注意】标准差、方差描述了一组数据围绕平均数波动程度的大小.标准差、方差越大,则数据的离散程度越大;标准差、方差越小,数据的离散程度越小.反之亦可由离散程度的大小推算标准差、方差的大小.
= 3 \* GB3 ③平均数、方差的性质:如果数据的平均数为,方差为,那么
一组新数据的平均数为,方差是.
一新数据的平均数为,方差是.
一组新数据的平均数为,方差是.
知识点3 成对数据的统计分析
1、两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2、回归分析与回归方程
(1)回归分析的定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(3)回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
(3)相关系数
若相应于变量的取值,变量的观测值为,
则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
= 1 \* GB3 ①当时,表示两个变量正相关;当时,表示两个变量负相关.
= 2 \* GB3 ②越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
= 3 \* GB3 ③通常当时,认为两个变量具有很强的线性相关关系.
3、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图:通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数:用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
4、独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表:假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表
(3)独立性检验:计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
一、应用随机数法的两个关键点
1、确定以表中的哪个数(哪行哪列)为起点,以哪个方向为读数的方向;
2、读数时注意结合编号特点进行读取.若编号为两位数字,则两位两位地读取;若编号为三位数字,则三位三位地读取,有超过总体号码或出现重复号码的数字舍去,这样继续下去,直到获取整个样本.
【典例1】(2023·宁夏银川·银川一中校考一模)对件样品进行编号,,,,在如下随机数表中,指定从第行第列开始,从左往右抽取两个数字,抽取个编号,则抽到的第个编号是( )
A. B. C. D.
【答案】D
【解析】自第行第列开始,第一个编号为,
去除编号不在的号码和重复号码,依次抽取的个编号为:,
则抽到的第个编号为.故选:D.
【典例2】(2023上·上海·高三控江中学校考阶段练习)总体由编号为、、、、的个个体组成,利用随机数表从中抽取个个体,下面提供随机数表的第行到第行:
若从表中第行第列开始向右依次读取,则抽取的第个个体的编号是 .
【答案】
【解析】由题意,结合随机数表法可知,从中抽取个个体的编号依次为:、、、、,
故答案为:.
二、解决分层抽样的常用公式
先确定抽样比,然后把各层个体数乘以抽样比,即得各层要抽取的个体数.
(1)抽样比=eq \f(样本容量,总体容量)=eq \f(各层样本容量,各层个体总量);
(2)层1的容量∶层2的容量∶层3的容量=样本中层1的容量∶样本中层2的容量∶样本中层3的容量.
【典例1】(2023上·湖北武汉·高三武钢三中校考阶段练习)某企业为了解员工身体健康情况,采用分层随机抽样的方法从该企业的营销部门和研发部门抽取部分员工体检.已知该企业营销部门和研发部门的员工人数之比是,且被抽到参加体检的员工中,营销部门的人数比研发部门的人数多72,则参加体检的人数是( )
A.90 B.96 C.108 D.144
【答案】C
【解析】设参加体检的人数有人,
则,解得,即参加体检的人数是人.故选:C.
【典例2】(2023·山东潍坊·统考模拟预测)某高中学校共有学生3600人,为了解某次数学文化知识竞赛的得分情况,采用分层抽样的方法从这3600名学生中抽取一个容量为48的样本,若从高一、高二、高三抽取的人数组成一个以4为公差的等差数列,则该学校高三年级的学生人数为 人.
【答案】1500
【解析】设从高二抽取的人数为,则高一抽取的人数为,高三抽取的人数为.
所以,解得,所以高三年级抽取了20人,
由分层抽样的概念可知高三年级的学生人数为:.
故答案为:1500.
三、频率分布直方图的计算
1、由频率分布直方图进行相关计算需掌握的2个关系式
(1)eq \f(频率,组距)×组距=频率.
(2)eq \f(频数,样本容量)=频率,此关系式的变形为eq \f(频数,频率)=样本容量,样本容量×频率=频数.
2、利用频率分布直方图估计样本的数字特征的方法
(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.
(2)平均数:平均数的估计值等于每个小矩形的面积乘以矩形底边中点横坐标之和.
(3)众数:最高的矩形的中点的横坐标.
【典例1】(2023上·贵州黔东南·高三天柱民族中学校联考阶段练习)(多选)某工厂为了了解一批产品的质量,从中随机抽取了100件产品测量其长度,所得数据都在区间中,其频率分布直方图如图所示,则( )
A.
B.估计产品长度的样本数据的分位数是
C.估计产品长度的样本数据的众数是
D.估计产品长度的样本数据的平均数是
【答案】ABC
【解析】对选项A:,解得,正确;
对选项B:长度在以下的比例为,
长度在以下的比例为,
故分位数位于内,设为,则,解得,正确;
对选项C:产品长度的样本数据的众数是,正确;
对选项D:平均数为,错误.故选:ABC.
【典例2】(2023上·云南昆明·高三校考阶段练习)(多选)在一次考试中,某地抽取一组样本,将学生的考分按,,…,分成10组,得到如下频率分布直方图:
根据频率分布直方图,则下列结论正确的是( )
A.规定分数不低于60分为及格,则及格率为0.6
B.样本的中位数为60
C.以频率作为概率,每组数据区间中点作代表,估计该地此次考试的平均分为60分
D.规定此次考试80%的考生定为合格等级,则合格等级的学生最低分为40分
【答案】AD
【解析】分数在的频率为:,A正确;
分数在的频率为0.4,分数在的频率为0.56,
由,得样本的中位数为66.25,B错误;
,
,而.
所以估计该地此次考试的平均分为61.8分,C错误;
分数在的频率为0.2,所以合格等级的学生最低为40分,D正确.故选:AD.
四、百分位数的计算
计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
【典例1】(2023上·陕西榆林·高三子洲中学校考期中)某校高一年级18个班参加艺术节合唱比赛,通过简单随机抽样,获得了10个班的比赛得分如下:91,89,90,92,94,87,93,96,91,85,则这组数据的80%分位数为( )
A.92 B.93 C.92.5 D.93.5
【答案】D
【解析】比赛得分按从小到大排列为85,87,89,90,91,91,92,93,94,96,,
所以这组数据的分位数为.故选:D.
【典例2】(2023上·广东惠州·高三统考阶段练习)在一次篮球比赛中,某支球队共进行了8场比赛,得分分别为:29,30,38,25,37,40,42,32,那么这组数据的第75百分位数为( )
A.37.5 B.38 C.39 D.40
【答案】C
【解析】数据按从小到大排序为,
而,故第75百分位数为,故选:C
五、用样本的数字特征估计总体的数字特征
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
【典例1】(2023上·云南楚雄·高三统考期中)现有一组数据,,,,的平均数为8,若随机去掉一个数(,2,3,4,5)后,余下的四个数的平均数为9,则下列说法正确的是( )
A.余下四个数的极差比原来五个数的极差更小 B.余下四个数的中位数比原来五个数的中位数更大
C.余下四个数的最小值比原来五个数的最小值更大 D.去掉的数一定是4
【答案】D
【解析】因为,,,,的平均数为8,设去掉后余下的四个数的平均数为9,
则,D正确.
例如这5个数分别为3,4,4,4,25,则去掉4之后,极差依然不变为22,
中位数不变依然为4不变,,最小值不变依然为3,则C错误则可得A,B,C错误.故选:D.
【典例2】(2023·浙江金华·校联考模拟预测)有一组样本数据,则( )
A.这组样本数据的极差不小于4 B.这组样本数据的平均数不小于4
C.这组样本数据的中位数不小于3 D.这组样本数据的众数等于3
【答案】A
【解析】样本数据中,
对于A,显然这组样本数据的极差大于等于,故A正确;
对于B,若,则平均数为,故B错误;
对于C,若,则中位数为,故C错误;
对于D,若,则众数为,故D错误.故选:A
【典例3】(2023·全国·校联考模拟预测)已知样本数据都为正数,其方差,则样本数据、、、、的平均数为 .
【答案】11
【解析】根据题意,设样本数据、、、、的平均数为,
其方差
,
又,
则有,解得,
则样本数据、、、、的平均数为;
故答案为:11.
六、判断相关关系的2种方法
1、散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系;
2、相关系数法:利用相关系数判定,当|r|越趋近于1时,相关性越强
【典例1】(2023·浙江杭州·统考二模)某兴趣小组研究光照时长x(h)和向日葵种子发芽数量y(颗)之间的关系,采集5组数据,作如图所示的散点图.若去掉后,下列说法正确的是( )
A.相关系数r变小 B.决定系数变小
C.残差平方和变大 D.解释变量x与预报变量y的相关性变强
【答案】D
【解析】从图中可以看出较其他点,偏离直线远,故去掉后,回归效果更好,
对于A,相关系数越接近于1,模型的拟合效果越好,
若去掉后,相关系数r变大,故A错误;
对于B,决定系数越接近于1,模型的拟合效果越好,
若去掉后,决定系数变大,故B错误;
对于C,残差平方和越小,模型的拟合效果越好,若去掉后,残差平方和变小,故C错误;
对于D,若去掉后,解释变量x与预报变量y的相关性变强,且是正相关,故D正确.
故选:D.
【典例2】(2023上·天津蓟州·高三校考开学考试)对两个变量,进行线性相关检验,得线性相关系数,对两个变量,进行线性相关检验,得线性相关系数,则下列判断正确的是( )
A.变量与正相关,变量与负相关,变量与的线性相关性较强
B.变量与负相关,变量与正相关,变量与的线性相关性较强
C.变量与正相关,变量与负相关,变量与的线性相关性较强
D.变量与负相关,变量与正相关,变量与的线性相关性较强
【答案】C
【解析】因为线性相关系数,所以,正相关,
因为线性相关系数,所以,负相关,
又因为,所以变量,的线性相关性比,的线性相关性强,
故A、B、D错误,C正确.故选:C.
七、线性回归分析问题的类型及解题方法
1、求回归直线方程
①计算出eq \x\t(x),eq \x\t(y),eq \i\su(i=1,n,x)eq \\al(2,i),eq \i\su(i=1,n,x)iyi或eq \i\su(i=1,n, )(xi-eq \x\t(x))(yi-eq \x\t(y)),eq \i\su(i=1,n, )(xi-eq \x\t(x))2的值;
②利用公式计算回归系数eq \(a,\s\up6(^)),eq \(b,\s\up6(^));
③写出回归直线方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)).
2、回归模型的拟合效果:利用相关系数r判断,当|r|越趋近于1时,两变量的线性相关性越强.
【典例1】(2023·江西景德镇·统考一模)对某位运动员近5次比赛成绩统计如下表:
根据表可得y关于x的线性回归方程为:,则下列说法不正确的是( )
A. B.y与x的相关系数
C.得分y的方差为22.8 D.预测第6次比赛成绩约为54
【答案】C
【解析】由表格数据,,,
所以,故,当,则,A、D对;
,C错;
,B对.故选:C
【典例2】(2023上·广东广州·高三广东广雅中学校考阶段练习)新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下:
(1)计算,的相关系数,并判断是否可以认为研发投入与产品收益具有较高的线性相关程度?(若,则线性相关程度一般,若,则线性相关程度较高)
(2)求出关于的线性回归方程,并预测若想收益超过50(亿元)则需研发投入至少多少亿元?(结果保留一位小数)参考数据:,.
附:相关系数公式:,
回归直线方程的斜率,截距.
【答案】(1),线性相关程度较高;(2)回归直线方程为;至少投资亿元
【解析】(1),
,
,,
所以,所以线性相关程度较高.
(2)由(1)得,,
所以,,
所以,由,得,
所以至少投资亿元.
八、非线性回归分析的求法
(1)根据原始数据作出散点图;
(2)根据散点图选择恰当的拟合函数;
(3)作恰当变换,将其转化成线性函数,求线性回归方程;
(4)在(3)的基础上通过相应变换,即可得非线性回归方程.
【典例1】(2023上·重庆渝中·高三统考期中)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近6年区块链企业总数量相关数据,如下表:
(1)若用模型拟合与的关系,根据提供的数据,求出与的经验回归方程;
(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为,甲胜丙的概率为,乙胜丙的概率为,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.
参考数据:,其中,
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为
【答案】(1);(2)
【解析】(1)令,
,
则,
,所以,
所以;
(2)设甲公司获得“优胜公司”为事件,
则,
所以甲公司获得“优胜公司”的概率为.
【典例2】(2023·广西南宁·南宁三中校考一模)数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018-2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1-5.
(1)由上表数据知,可用指数函数模型拟合与的关系,请建立关于的回归方程;
(2)根据上述数据求得关于的回归方程后,预测2024年的中国车载音乐市场规模.
参考数据:
其中,.
参考公式:对于一组数据,,,其回归直线的斜率和截距的最小二乘法估计公式分别为,.
【答案】(1);(2)45.628(十亿元).
【解析】(1)因为,所以两边同时取自然对数,得,
设,所以,
设,,则,
因为,,
所以,
,所以,,
所以,,所以
(2)把2024年代码代入方程,
得(十亿元)
故预测2024年的中国车载音乐市场规模45.628(十亿元)
九、独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式计算.
(3)比较与临界值的大小关系,作统计推断.
【典例1】(2023上·江西抚州·高三校考期中)“一带一路”是促进各国共同发展,实现共同繁荣的合作共赢之路.为了了解我国与某国在“一带一路”合作中两国的贸易量情况,随机抽查了100天进口贸易量与出口贸易量(单位:亿人民币/天)得下表:
附:.
(1)估计事件“我国与该国贸易中,一天的进口贸易量与出口贸易量均不超过100亿人民币”的概率;
(2)根据所给数据,完成下面的列联表:
(3)根据(2)中的列联表,判断是否有99%的把握认为“我国与该国贸易中一天的进口贸易量与出口贸易量”有关?
【答案】(1);(2)列联表见解析;
(3)有99%的把握认为我国与该国贸易中一天的进口贸易量与出口贸易量有关.
【解析】(1)由表中,在100天中,进口贸易与出口贸易均不超过100的天数为,
用频率估计概率,可得所求概率为.
(2)列出列联表如下:
(3)由(2)得 ,
所以有99%的把握认为我国与该国贸易中一天的进口贸易量与出口贸易量有关.
【典例2】(2023上·四川成都·高三四川省成都列五中学校考阶段练习)最近,纪录片《美国工厂》引起中美观众热议,大家都认识到,大力发展制造业,是国家强盛的基础,而产业工人的年龄老化成为阻碍美国制造业发展的障碍,中国应未雨绸缪.某工厂有35周岁以上(含35周岁)工人300名,35周岁以下工人200名,为研究工人的日平均生产量是否与年龄有关.现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“35周岁以上(含35周岁)”和“35周岁以下”分为两组,在将两组工人的日平均生产件数分成5组:分别加以统计,得到如图所示的频率分布直方图.
,附表:
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“35周岁以下组”工人的概率.
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成的列联表,并判断是否有95%的把握认为“生产能手与工人所在的年龄组有关”?
【答案】(1);(2)列联表见解析,有把握.
【解析】(1)由已知得,样本中有35周岁以上组工人60名,35周岁以下组工人40名,
所以,样本中日平均生产件数不足60件的工人中,
35周岁以上组工人有(人),记为;
35周岁以下组工人有(人),记为,
从中随机抽取2名工人,所有可能的结果共有10种:
,,,,
至少有一名“35周岁以下组”工人的可能结果共有7种:
,,,,,,,
故所求的概率:.
(2)由频率分布直方图可知,在抽取的100名工人中,
“35周岁以上组”中的生产能手(人),
“35周岁以下组”中的生产能手(人),
据此可得列联表如下:
所以得:,
所以有95%的把握认为“生产能手与工人所在的年龄组有关”.
易错点1 对统计图表中的概念理解不清,识图不准确
点拨:求解统计图表问题,重要的是认真观察图表,发现有用信息和数据。对于频率分布直方图,应注意图中的每一个小矩形的面积是落在该区间上的频率,所有小矩形的面积和为1,当小矩形等高时,说明频率相等,计算时不要漏掉其中一个.
【典例1】(2023下·河北秦皇岛·高三校联考开学考试)(多选)下图反映2017年到2022年6月我国国有企业营业总收入及增速统计情况:
2017年到2022年6月国有企业营业总收入及增速统计图
根据图中的信息,下列说法错误的是( )
A.2017-2022年我国国有企业营业总收入逐年增加
B.2017-2022年我国国有企业营业总收入逐年下降
C.2017-2021年中,我国国有企业营业总收入增速最快的是2021年
D.2017-2021年我国国有企业营业总收入的平均数大于630000亿元
【答案】ABD
【解析】由图知.2022年下半年我国国有企业营业总收入及增速未知,故A、B错误;
2017-2021年中,我国国有企业营业总收入增速最快的是2021年,为,C正确;
2017-2021年我国国有企业营业总收入的平均数小于630000亿元.D错误.故选:ABD.
【典例2】(2023上·云南曲靖·高三校考阶段练习)(多选)在某市高二年级举行的一次体育统考中,共有10000名考生参加考试.为了解考生的成绩情况,随机抽取了名考生的成绩,其成绩均在区间,按照分组作出如图所示的频率分布直方图.若在样本中,成绩落在区间的人数为32,则( )
A.
B.考生成绩的中位数为71
C.考生成绩的第70百分位数为75
D.估计该市考生成绩的平均分为70.6(每组数据以区间的中点值为代表)
【答案】BD
【解析】对于A,由频率分布直方图可得,
则,故A错误;
对于B,考生成绩的中位数为,故B正确;
对于C,设考生成绩的第70百分位数为,由于数据在的频率为,
故,则,故C错误;
对于D,该市考生成绩的平均分为,故D正确.
故选:BD.
【典例3】(2023·河南·校联考二模)某银行为客户定制了A,B,C,D,E共5个理财产品,并对5个理财产品的持有客户进行抽样调查,得出如下的统计图:
用该样本估计总体,以下四个说法错误的是( )
A.44~56周岁人群理财人数最多
B.18~30周岁人群理财总费用最少
C.B理财产品更受理财人青睐
D.年龄越大的年龄段的人均理财费用越高
【答案】B
【解析】A.44~56周岁人群理财人数所占比例是37%,是最多的,故正确;
B.设总人数为a,则18~30周岁人群的人均理财费用约为,
31~43周岁人群的人均理财费用约为,
44~56周岁人群的人均理财费用约为,
57周岁人群的人均理财费用约为,
所以57周岁及以上人群的人均理财费用最少,故错误;
C.由条形图可知:B理财产品更受理财人青睐,故正确;
D.由折线图知:年龄越大的年龄段的人均理财费用越高,故正确,故选:B
易错点2 对样本数字特征认识不到位
点拨:统计学的另一基本思想是通过科学合理地获取样本,再通过对样本数据的处理,用样本数字特征去估计总体的相应数字特征。对此我们要有一个辩证的理解,即有时会出现偏差,而解决这一问题的方法是适度增加样本容量,当样本容量越大,它对总体接近程度越大,可信度越高。
【典例1】(2023上·山东济南·高三统考期末)(多选)有一组样本数据,其样本平均数为.现加入一个新数据,且,组成新的样本数据,与原样本数据相比,新的样本数据可能( )
A.平均数不变 B.众数不变 C.极差变小 D.第20百分位数变大
【答案】BD
【解析】因为,所以新的样本数据平均数减小,A错误;
加入一个新数据,则众数仍有可能为原数据的众数,B正确;
若加入一个新数据不是最大值也不是最小值,则新数据极差等于原数据极差,C错误;
若为原数据从小到大排列的第20为后的数,因为样本数增加,所以第20百分位数可能后移,
则新数据第20百分位数可能变大.D正确,故选:BD.
【典例2】(2023上·湖南·高三校联考阶段练习)(多选)已知数据成公差大于0的等差数列,若去掉数据,则( )
A.极差不变 B.第25百分位数变大 C.平均数不变 D.方差变小
【答案】AC
【解析】选项A,根据极差的定义,原数据的极差为,去掉后的极差为,
即极差不变,故A正确;
选项B,原数据的第25百分位数为,去掉后的第25百分位数为,
即第25百分位数变小,故B错误;
选项C,原数据的平均数为,去掉后的平均数为
,即平均数不变,故C正确;
选项D,则原数据的方差为,去掉后的方差为
,
故,即方差变大,故D错误.故选:AC.
【典例3】(2023上·广西玉林·高三校联考开学考试)(多选)已知一组样本数据,现有两组新数据:第①组数据和第②组数据,则与原数据相比,下列说法正确的是( )
A.第①组数据中位数不变 B.第①组数据平均数不变或变大
C.第②组数据极差变小 D.第②组数据方差变小
【答案】BCD
【解析】对于A,当原数据全是负数时,原数据中位数是负数,
而第①组样本数据全是正数,中位数为正数,A错误;
对于B,当原数据全是非负数时,第①组样本数据平均数不变,否则平均数变大,B正确;
对于C,第②组数据极差为,作差比较得:
,极差变小,C正确;
对于D,第②组数据与原数据平均数相等,而极差变小,
说明第②组数据相对于原数据更集中于平均数,因此方差变小,D正确.故选:BCD
易错点3 求解独立性检验问题对的值理解不准确
点拨: 构造一个随机变量,其中为样本容量.如果的观测值,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的为一个判断规则的临界值.
【典例1】(2023·陕西榆林·统考三模)若由一个列联表中的数据计算得,则( )
A.能有的把握认为这两个变量有关系
B.能有的把握认为这两个变量没有关系
C.能有的把握认为这两个变量有关系
D.能有的把握认为这两个变量没有关系
【答案】A
【解析】因为,所以能有的把握认为这两个变量有关系.故选:A
【典例2】(2022·河南·校联考模拟预测)为考察一种新药预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的列联表中,由列联表中的数据计算得.参照附表,下列结论正确的是( )
附表:
A.在犯错误的概率不超过0.1%的前提下,认为“药物有效”
B.在犯错误的概率不超过0.1%的前提下,认为“药物无效”
C.有99%以上的把握认为“药物有效”
D.有99%以上的把握认为“药物无效”
【答案】C
【解析】因为,即,所以有以上的把握认为“药物有效”.故选:C.
【典例3】(2023·广东深圳·深圳中学统考模拟预测)(多选)某研究机构为了探究吸烟与肺气肿是否有关,调查了200人.统计过程中发现随机从这200人中抽取一人,此人为肺气肿患者的概率为0.1.在制定列联表时,由于某些因素缺失了部分数据,而获得如图所示的列联表,下列结论正确的是( )
参考公式与临界值表:
A.不吸烟患肺气肿的人数为5人 B.200人中患肺气肿的人数为10人
C.的观测值 D.按99.9%的可靠性要求,可以认为“吸烟与肺气肿有关系”
【答案】AD
【解析】A选项,200人中抽取一人,此人为肺气肿患者的概率为0.1,故肺气肿患者共有人,
由于吸烟患肺气肿的人数为15人,故不吸烟患肺气肿的人数为5人,A正确,B错误;
C选项,列联表如下:
则的观测值,C错误;
D选项,由于,故按99.9%的可靠性要求,可以认为“吸烟与肺气肿有关系”,D正确.
故选:AD总计
总计
0.10
0.05
0.010
0.005
0.001
2.706
3.841
6.635
7.879
10.828
比赛次数x
1
2
3
4
5
得分y
39
40
48
48
50
研发投入(亿元)
1
2
3
4
5
产品收益(亿元)
3
7
9
10
11
年份
2017
2018
2019
2020
2021
2022
编号
1
2
3
4
5
6
企业总数量(单位:百个)
50
78
124
121
137
352
年份代码
1
2
3
4
5
车载音乐市场规模
2.8
3.9
7.3
12.0
17.0
1.94
33.82
1.7
1.6
26.84
进口
出口
32
18
4
6
8
12
3
7
10
0.050
0.010
0.001
3.841
6.635
10.828
进口
出口
进口
出口
64
16
10
10
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
生产能手
非生产能手
合计
35岁以下
35岁以上
合计
生产能手
非生产能手
合计
35岁以下
10
30
40
35岁以上
30
30
60
合计
40
60
100
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
0.050
0.025
0.010
0.005
0.001
3.841
5.02
6.635
7.879
10.828
患肺气肿
不患肺气肿
合计
吸烟
15
不吸烟
120
合计
200
0.100
0.050
0.025
0.010
0.001
2.706
3.841
5.024
6.635
10.828
患肺气肿
不患肺气肿
合计
吸烟
15
60
75
不吸烟
5
120
125
合计
20
180
200
高考数学专题练 专题五概率与统计 微专题33 统计与成对数据的统计分析(含答案): 这是一份高考数学专题练 专题五概率与统计 微专题33 统计与成对数据的统计分析(含答案),共28页。
高考数学专题五概率与统计 微专题33 统计与成对数据的统计分析课件PPT: 这是一份高考数学专题五概率与统计 微专题33 统计与成对数据的统计分析课件PPT,共60页。PPT课件主要包含了考点二回归分析,所以可得如下数据,考点三独立性检验,由频数分布表知μ=,∴列联表为,临界值表,方法二调整后的等内容,欢迎下载使用。
微专题18 统计与成对数据的统计分析: 这是一份微专题18 统计与成对数据的统计分析,共12页。