2023年高考数学二轮复习易错题精选13统计(Word版附解析)
展开易错点13 统计
易错点1.看不懂图,分辨不清数据的表示方法
(1)常见的统计图表有柱形图、折线图、扇形图、茎叶图、频数分布直方图、频率分布直方图等.
(2)频率分布直方图
①作频率分布直方图的步骤
(ⅰ)找出最值,计算极差:即一组数据中最大值与最小值的差;
(ⅱ)合理分组,确定区间:根据数据的多少,一般分5~9组;
(ⅲ)整理数据:
逐个检查原始数据,统计每个区间内数的个数(称为区间对应的频数),并求出频数与数据个数的比值(称为区间对应的频率),各组均为左闭右开区间,最后一组是闭区间;
(ⅳ)作出有关图示:
根据上述整理后的数据,可以作出频率分布直方图,如图所示.频率分布直图的纵坐标是,每一组数对应的矩形高度与频率成正比,而且每个矩形的面积等于这一组数对应的频率,从而可知频率分布直方图中,所有矩形的面积之和为1.
②频率分布折线图
作图的方法都是:把每个矩形上面一边的中点用线段连接起来.为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的.
不难看出,虽然作频率分布直方图过程中,原有数据被“压缩”了,从这两种图中也得不到所有原始数据.但是,由这两种图可以清楚地看出数据分布的总体态势,而且也可以得出有关数字特征的大致情况.比如,估计出平均数、中位数、百分位数、方差.当然,利用直方图估计出的这些数字特征与利用原始数据求出的数字特征一般会有差异.
易错点2.数据特征的相关概念没有理解
1.数据的数字特征
(1)最值
一组数据的最值指的是其中的最大值与最小值,最值反映的是这组数最极端的情况.
(2)平均数
①定义:如果给定的一组数是x1,x2,…,xn,则这组数的平均数为=(x1+x2+…+xn).
这一公式在数学中常简记为=xi,
②性质:一般地,利用平均数的计算公式可知,如果x1,x2,…,xn的平均数为x,且a,b为常数,则ax1+b,ax2+b,…,axn+b的平均数为a+b.
(3)中位数
有奇数个数,且按照从小到大排列后为x1,x2,…,x2n+1,则称xn+1为这组数的中位数;如果一组数有偶数个数,且按照从小到大排列后为x1,x2,…,x2n,则称为这组数的中位数.
(4)百分位数
①定义:一组数的p%(p∈(0,100))分位数指的是满足下列条件的一个数值:至少有p%的数据不大于该值,且至少有(100-p)%的数据不小于该值.
②确定方法:设一组数按照从小到大排列后为x1,x2,…,xn,计算i=np%的值,如果i不是整数,设i0为大于i的最小整数,取xi0为p%分位数;如果i是整数,取为p%分位数.
(5)众数
一组数据中,出现次数最多的数据称为这组数据的众数.
(6)极差、方差与标准差
①极差:一组数的极差指的是这组数的最大值减去最小值所得的差,描述了这组数的离散程度.
②方差
定义:如果x1,x2,…,xn的平均数为x,则方差可用求和符号表示为s2=(xi-)2=x-2.
性质:如果a,b为常数,则ax1+b,ax2+b,…,axn+b的方差为a2s2.
③标准差
定义:方差的算术平方根称为标准差.一般用s表示,即样本数据x1,x2,…,xn的标准差为s=.
性质:如果a,b为常数,则ax1+b,ax2+b,…,axn+b的标准差为|a|s.
2.用样本的数字特征估计总体的数字特征
一般情况下,如果样本容量恰当,抽样方法合理,在估计总体的数字特征时,只需直接算出样本对应的数字特征即可.
易错点3.两个统计模型理解错误
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关:如果变量x与变量y之间的关系可以近似地用一次函数来刻画,则称x与y线性相关.
2.相关系数
(1)r=
=.
(2)当r>0时,成对样本数据正相关;当r<0时,成对样本数据负相关.
(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)我们将=x+称为y关于x的回归直线方程,其中
(2)残差:观测值减去预测值,称为残差.
4.2×2列联表和χ2
如果随机事件A与B的样本数据的2×2列联表如下.
A
总计
B
a
b
a+b
c
d
c+d
总计
a+c
b+d
a+b+c+d
记n=a+b+c+d,则
χ2=.
5.独立性检验
统计学中,常用的显著性水平α以及对应的分位数k如下表所示.
α=P(χ2≥k)
0.1
0.05
0.01
0.005
0.001
K
2.706
3.841
6.635
7.879
10.828
要推断“A与B有关系”可按下面的步骤
(1)作2×2列联表.
(2)根据2×2列联表计算χ2的值.
(3)查对分位数k,作出判断.如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过α的前提下,可以认为A与B不独立(也称为A与B有关);或说有1-α的把握认为A与B有关.若χ2
1.从某中学甲、乙两班各随机抽取10名同学,测量他们的身高(单位:),所得数据用茎叶图表示如下,由此可估计甲、乙两班同学的身高情况,则下列结论正确的是( )
A.甲乙两班同学身高的极差不相等 B.甲班同学身高的平均值较大
C.甲班同学身高的中位数较大 D.甲班同学身高在175以上的人数较多
【答案】A
【详解】对于A,甲班同学身高的极差为182−157=25,乙班同学身高的极差为183−159=24,所以甲乙两班同学身高的极差不相等,故A正确;
对于B,甲班同学身高的平均值为,乙班同学身高的平均值为,所以甲班同学身高的平均值较小,故B错误;
对于C,甲班同学身高的中位数为=168,乙班同学身高的中位数为=171.5,所以甲班同学身高的中位数较小,故C错误;
对于D,甲班同学身高在175cm以上的有3人,乙班同学身高在175cm以上的有4人,所以甲班同学身高在175cm以上的人数较少,故D错误.
故选:A.
2.年某省高考体育百米测试中,成绩全部介于秒与秒之间,抽取其中个样本,将测试结果按如下方式分成六组:第一组,第二组,,第六组,得到如下频率分布直方图.则该名考生的成绩的平均数和中位数保留一位小数分别是( )
A. B. C. D.
【答案】C
【详解】名考生成绩的平均数,
因为前三组频率直方图面积和为,前四组频率直方图面积和为,
所以中位数位于第四组内,设中位数为,则,
解得:,
故选:C.
3.某地区今年夏天迎来近50年来罕见的高温极端天气,当地气象部门统计了八月份每天的最高气温和最低气温,得到如下图表:
某地区2022年8月份每天最高气温与最低气温
根据图表判断,以下结论正确的是( )
A.8月每天最高气温的平均数低于35℃
B.8月每天最高气温的中位数高于40℃
C.8月前半月每天最高气温的方差大于后半月最高气温的方差
D.8月每天最高气温的方差大于每天最低气温的方差
【答案】D
【详解】由某地区2022年8月份每天最高气温与最低气温的折线图知,
对于A,8月1日至9日的每天最高气温的平均数大于35℃,25日至28日的每天最高气温的平均数大于35℃,
29日至31日每天最高气温大于20℃小于25℃,与35℃相差总和小于45℃,而每天最高气温不低于40℃的有7天,
大于37℃小于40℃的有8天,它们与35℃相差总和超过45℃,因此8月每天最高气温的平均数不低于35℃,A不正确;
对于B,8月每天最高气温不低于40℃的数据有7个,其它都低于40℃,把31个数据由小到大排列,中位数必小于40,
因此8月每天最高气温的中位数低于40℃,B不正确;
对于C,8月前半月每天最高气温的数据极差小,波动较小,后半月每天最高气温的极差大,数据波动很大,
因此8月前半月每天最高气温的方差小于后半月最高气温的方差,C不正确;
对于D,8月每天最高气温的数据极差大,每天最低气温的数据极差较小,
每天最高气温的数据波动也比每天最低气温的数据波动大,因此8月每天最高气温的方差大于每天最低气温的方差,D正确.
故选:D
4.两个具有线性相关关系的变量的一组数据,,,下列说法错误的是( )
A.落在回归直线方程上的样本点越多,回归直线方程拟合效果越好
B.相关系数越接近,变量,相关性越强
C.相关指数越小,残差平方和越大,即模型的拟合效果越差
D.若表示女大学生的身高,表示体重,则表示女大学生的身高解释了的体重变化
【答案】A
【详解】对于A:回归直线方程拟合效果的强弱是由相关指数或相关系数判定,故不正确;
对于B:根据相关系数越接近,变量相关性越强,故正确;
对于C:相关指数越小,残差平方和越大,效果越差,故正确;
对于D:根据的实际意义可得,表示女大学生的身高解释了的体重变化,故正确;
故选:.
5.下列说法正确的序号是( )
①在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.8个单位;
②利用最小二乘法求回归直线方程,就是使得最小的原理;
③已知,是两个分类变量,若它们的随机变量的观测值越大,则“与有关系”的把握程度越小;
④在一组样本数据,,…,(,,,…,不全相等)的散点图中,若所有样本都在直线上,则这组样本数据的线性相关系数为.
A.①③ B.①② C.②④ D.③④
【答案】B
【详解】对于①,在回归直线方程 中, 当解释变量 每增加一个单位时, 预报变量平均增加 0.8个单位,故①正确;
对于②,用离差的平方和,即:作为总离差, 并使之达到最小;这样回归直线就是所有直线中取最小值的那一条。由于平方又叫二乘方, 所以这种使 “离差平方和为最小”的方法叫做最小二乘法;所以利用最小二乘法求回归直线方程,就是使得最小的原理;故②正确;
对于③,对分类变量 与 , 对它们的随机变量 的观测值 来说,越小,则“与 有 关系”的把握程度越小,故③错误;
对于④,相关系数反映的是两变量之间线性相关程度的强弱,与回归直线斜率无关,题中样本数据的线性相关系数为, 故④错误.
故选:B.
1.为研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:)的分组区间为,将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,右图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
A.8 B.12 C.16 D.18
【答案】B
【详解】志愿者的总人数为=50,
所以第三组人数为50×0.36=18,
有疗效的人数为18-6=12.
故选:B.
2.分别统计了甲、乙两位同学16周的各周课外体育运动时长(单位:h),得如下茎叶图:
则下列结论中错误的是( )
A.甲同学周课外体育运动时长的样本中位数为7.4
B.乙同学周课外体育运动时长的样本平均数大于8
C.甲同学周课外体育运动时长大于8的概率的估计值大于0.4
D.乙同学周课外体育运动时长大于8的概率的估计值大于0.6
【答案】C
【详解】对于A选项,甲同学周课外体育运动时长的样本中位数为,A选项结论正确.
对于B选项,乙同学课外体育运动时长的样本平均数为:
,
B选项结论正确.
对于C选项,甲同学周课外体育运动时长大于的概率的估计值,
C选项结论错误.
对于D选项,乙同学周课外体育运动时长大于的概率的估计值,
D选项结论正确.
故选:C
3.某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
【答案】A
【详解】对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;
对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;
对于选项C,观察折线图,各年的月接待游客量高峰期大致在7,8月份,故C正确;
对于D选项,观察折线图,各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳,故D正确.
故选:A
4.设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是
A.直线l过点
B.x和y的相关系数为直线l的斜率
C.x和y的相关系数在0到1之间
D.当n为偶数时,分布在l两侧的样本点的个数一定相同
【答案】A
【详解】试题分析:回归直线一定过这组数据的样本中心点,两个变量的相关系数不是直线的斜率,两个变量的相关系数的绝对值是小于1的,是在﹣1与1之间,所有的样本点集中在回归直线附近,没有特殊的限制.
解:回归直线一定过这组数据的样本中心点,故A正确,
两个变量的相关系数不是直线的斜率,而是需要用公式做出,故B不正确,
两个变量的相关系数可能为负,故C不正确,
所有的样本点集中在回归直线附近,不一定两侧一样多,故D不正确,
故选A.
5.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C. D.1
【答案】D
【详解】由题设知,所有样本点(xi,yi)(i=1,2,…,n)都在直线上,
∴这组样本数据完全正相关,故其相关系数为1,故选D.
根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.
一、单选题
1.2022年2月4日至2月20日春节期间,第24届冬奥会在北京市和张家口市联合举行.共有个冬奥村供运动员和代表队官员入住,其中北京冬奥村的容量约为人,延庆冬奥村的容量约人,张家口冬奥村的容量约人.为了解各冬奥村服务质量,现共准备了份调查问卷,采用分层抽样的方法,则需在延庆冬奥村投放的问卷数量是( )
A.58份 B.50份 C.32份 D.19份
【答案】C
【详解】在延庆冬奥村投放的问卷数量是份.
故选:C.
2.某校举办抗击新冠疫情科普知识演讲活动,如图是七位评委为某选手打出的分数的茎叶图,去掉一个最高分和一个最低分后,剩下数据的平均数是( )
A.87 B.86 C.85 D.84
【答案】C
【详解】去掉一个最高分93和一个最低分79后,剩下数据的平均数是
故选:C.
3.变量之间有如下对应数据:
3
4
5
6
7
13
11
10
8
7
已知变量与呈线性相关关系,且回归方程为,则的值是( )A. B. C. D.
【答案】D
【详解】由题意可知,,,
则样本点的中心,代入,即,解得.
所以的值是.
故选:D.
4.某学校举行诗歌朗诵比赛,10位评委对甲、乙两位同学的表现打分,满分为10分,将两位同学的得分制成如下茎叶图,其中茎叶图茎部分是得分的个位数,叶部分是得分的小数,则下列说法错误的是( )
A.甲同学的平均分大于乙同学的平均分
B.甲、乙两位同学得分的极差分别为2.4和1
C.甲、乙两位同学得分的中位数相同
D.甲同学得分的方差更小
【答案】D
【详解】对于甲,
对于乙,
故正确.
甲的极差,乙的极差
故正确.
甲得分的中位数,乙得分的中位数,
故正确.
对于甲,
,
对于乙,
故错误.
故选.
5.如图是一组实验数据的散点图,拟合方程,令,则关于的回归直线过点,,则当时,的取值范围是( )
A. B. C. D.
【答案】D
【详解】根据题意可得,
由关于的回归直线过点,可得:
,所以,
所以,
由可得,
所以,
所以,所以,
故选:D
6.雨滴在下落过程中,受到的阻力随速度增大而增大,当速度增大到一定程度时,阻力与重力达到平衡,雨滴开始匀速下落,此时雨滴的下落速度称为“末速度”.某学习小组通过实验,得到了雨滴的末速度v(单位:m/s)与直径d(单位:mm)的一组数据,并绘制成如图所示的散点图,则在该实验条件下,下面四个回归方程类型中最适宜作为雨滴的末速度v与直径d的回归方程类型的是( ).
A. B.
C. D.
【答案】A
【详解】由一次函数,二次函数及指数函数的性质可知,BCD不符合散点的变化趋势,
由散点图分布可知,散点图分布在一个幂函数的图像附近,
因此,最适宜作为雨滴的末速度v与直径d的回归方程类型的是.
故选:A.
7.下列命题中正确的是( )
A.数据1,2,3,3,4,5的众数大于中位数
B.对一组数据,如果将它们变为,其中,则平均数和标准差均发生改变
C.有甲、乙、丙三种个体按3:1:2的比例分层抽样调查,如果抽取的甲个体数为9,则样本容量为30
D.一般可用相关指数来比较两个模型的拟合效果,越大,模型拟合效果越好
【答案】D
【详解】对于A,数据1,2,3,3,4,5的众数是3,中位数是,众数等于中位数,故A错误;
对于B,数据,如果将它们变为,其中,则平均数增加C,标准差不变,故B错误;
对于C,有甲、乙、丙三种个体按的比例分层抽样调查,如果抽取的甲个体数为9,则样本容量为,故C错误;
对于D,由相关指数的性质可得可以通过比较相关指数的大小比较两个模型的拟合效果,且越大,模型拟合效果越好,故D正确.
故选:D.
8.在发生某公共卫生事件期间,有专业机构认为该事件在一段事件内没有发生大规模群体感染的标志是“连续日,每天新增疑似病例不超过人”.过去日,甲、乙、丙、丁四地新增疑似病例数据信息如下:
甲地:总体平均数为,中位数为;
乙地:总体平均数为,总体方差大于;
丙地:中位数为,众数为;
丁地:总体平均数为,总体方差为.
则甲、乙、丙、丁四地中,一定没有发生大规模群体感染的是( )
A.甲地 B.乙地 C.丙地 D.丁地
【答案】D
【详解】对于甲地,若连续日的数据为,则满足平均数为,中位数为,但不符合没有发生大规模群体感染的标志,A错误;
对于乙地,若连续日的数据为,则满足平均数为,方差大于,但不符合没有发生大规模群体感染的标志,B错误;
对于丙地,若连续日的数据为,则满足中位数为,众数为,但不符合没有发生大规模群体感染的标志,C错误;
对于丁地,若总体平均数为,假设有一天数据为人,则方差,不可能总体方差为,则不可能有一天数据超过人,符合没有发生大规模群体感染的标志,D正确.
故选:D.
二、多选题
9.2021年某市教育部门组织该市高中教师在暑假期间进行集中培训,培训后统一举行测试.现随机抽取100名教师的测试成绩进行统计,得到如图所示的频率分布折线图,已知这100名教师的成绩都在区间内,则下列说法正确的是( )
A.这100名教师的测试成绩的极差是20分
B.这100名教师的测试成绩的众数是87.5
C.这100名教师中测试成绩不低于90分的人数约占30%
D.这100名教师的测试成绩的中位数是85分
【答案】BC
【详解】这100名教师的测试成绩的最高分和最低分都无法确定,
则极差不确定,故错误;
由图可知,这100名教师的测试的众数为87.5分,故正确;
这100名教师中测试分数不低于90分的人数占,故正确.
设这100名教师测试成绩的中位数为,
则,
解得,故错误;
故选:.
10.已知由样本数据点集合,,2,,,求得的回归直线方程为,且,现发现两个数据点(1.3,2.1)和(4.7,7.9)误差较大,去除后重新求得的回归直线的斜率为1.2,则( )
A.变量与具有正相关关系 B.去除后的回归方程为
C.去除后的估计值增加速度变慢 D.去除后相应于样本点的残差为
【答案】AC
【详解】因为重新求得的回归方程的斜率为1.2,故变量与具有正相关关系,故选项正确;
将代入回归直线方程为,解得,
则样本中心为,去掉两个数据点和后,
由于,故 样本中心还是,
又因为去除后重新求得的回归直线的斜率为1.2,
所以,解得,
所以去除后的回归方程为,故选项不正确;
因为,所以去除后的估计值增加速度变慢,故选项正确;
因为,
所以,故选项不正确.
故选:.
三、解答题
11.某地区对高一年级学生进行体质健康测试(简称体测),现随机抽取了900名学生的体测结果等级(“良好及以下”或“优秀”)进行分析.得到如下列联表:
良好及以下
优秀
合计
男
450
200
650
女
150
100
250
合计
600
300
900
(1)计算并判断是否有99%的把握认为本次体测结果等级与性别有关系?
(2)将频率视为概率,用样本估计总体.若从该地区高一所有学生中,采取随机抽样的方法每次抽取1名学生成绩进行具体指标分析,连续抽取3次,且各次抽取的结果相互独立,记被抽取到的3名学生的体测等级为“优秀”的人数为,求的分布列和数学期望.
附表及公式:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
其中,.
【详解】(1)依题意,的观测值,
故有99%的把握认为本次体测结果等级与性别有关系.
(2)依题意,体测结果等级为“优秀”的概率为,
的取值有0,1,2,3,
则,,
,,
则的分布列为:
0
1
2
3
P
所以的数学期望.
12.某网络电视剧已开播一段时间,其每日播放量有如下统计表:
开播天数x(单位:天)
1
2
3
4
5
当天播放量y(单位:百万次)
3
3
5
9
10
(1)请用线性回归模型拟合y与x的关系,并用相关系数加以说明;
(2)假设开播后的两周内(除前5天),当天播放量y与开播天数x服从(1)中的线性关系.若每百万播放量可为制作方带来0.7万元的收益,且每开播一天需支出1万元的广告费,估计制作方在该剧开播两周内获得的利润.
参考公式: ,,.
参考数据:xiyi=110,=55,=224,≈10.5.
注:①一般地,相关系数r的绝对值在0.95以上(含0.95)认为线性相关性较强;否则,线性相关性较弱.②利润=收益-广告费.
解:由题得.
所以.
所以.
所以线性回归方程为.
相关系数,
所以每日的播放量和开播天数线性相关性较强.
(2)
解:设利润为,则
所以估计制作方在该剧开播两周内获得的利润为万元..
答:估计制作方在该剧开播两周内获得的利润为万元..
2023年高考数学二轮复习易错题精选15概率(文科)(Word版附解析): 这是一份2023年高考数学二轮复习易错题精选15概率(文科)(Word版附解析),共15页。试卷主要包含了事件、频率和概率概念理解错误,事件的运算,用频率估计概率,概率的性质等内容,欢迎下载使用。
2023年高考数学二轮复习易错题精选15概率(理科)(Word版附解析): 这是一份2023年高考数学二轮复习易错题精选15概率(理科)(Word版附解析),共15页。试卷主要包含了事件、频率和概率概念理解错误,事件的运算,用频率估计概率等内容,欢迎下载使用。
2023年高考数学二轮复习易错题精选14计数原理(Word版附解析): 这是一份2023年高考数学二轮复习易错题精选14计数原理(Word版附解析),共10页。试卷主要包含了基本计数原理错误,排列与组合分辨不清,排列数、组合数的公式及性质等内容,欢迎下载使用。