重难点33 变量间的相关关系、统计案例—2023年高考数学【热点·重点·难点】专练(全国通用)(解析版)
展开
重难点33 变量间的相关关系、统计案例
1.回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数.
③待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值k.
(3)比较k与临界值的大小关系,作统计推断.
两个变量线性相关的判断及应用,回归直线方程的求法及应用,利用2×2列联表判断两个变量的相关关系是高考考查的热点,题型为选择与填空题,或者在解答题中综合考查.
(建议用时:40分钟)
一、单选题
1.某样本点的经验回归方程为,当时,y的实际值为4.5,则当时,预测值与实际值的差值为( ).
A.0.1 B.0.2 C.0.3 D.0.4
【答案】B
【解析】当时,y的预测值,.
故选B
2.根据如下样本数据得到的回归直线方程中的,根据此方程预测当时,y的取值为( )
x | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
y | 4.0 | 2.5 | 0.5 |
A. B. C. D.
【答案】B
【解析】根据图表数据求出,,
把代入回归直线,有,解得,
所以.
当时,.
故选:B
3.为考察一种新药预防疾病的效果,某科研小组进行动物实验,收集整理数据后将所得结果填入相应的列联表中,由列联表中的数据计算得.参照附表,下列结论正确的是( )
附表:
0.050 | 0.025 | 0.010 | 0.005 | 0.001 | |
3.841 | 5.02 | 6.635 | 7.879 | 10.828 |
A.在犯错误的概率不超过0.1%的前提下,认为“药物有效”
B.在犯错误的概率不超过0.1%的前提下,认为“药物无效”
C.有99%以上的把握认为“药物有效”
D.有99%以上的把握认为“药物无效”
【答案】C
【解析】因为,即,所以有以上的把握认为“药物有效”.
故选:C.
4.以下四个命题错误的为( )
A.在一个列联表中,由计算得的值,若的值越大,则两个变量有关的把握就越大
B.以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则,
C.在回归直线方程中,变量x每增加1个单位时,y平均增加2个单位
D.若变量y和x之间的相关系数为,则变量y和x之间具有很强的线性相关,而且是负相关
【答案】C
【解析】对于A:分类变量与的随机变量越大,
说明“与有关系”的可信度越大,则两个变量有关的把握就越大,故A正确;
对于B:,
两边取对数,可得,
令,可得,
,
,,
.故B正确;
对于C:在回归直线方程中,变量每增加个单位时,平均减少个单位,故C错误;
对于D:相关系数,说明变量y和x之间具有很强的线性相关,而且是负相关,故D正确;
故选:C
5.某个国家某种病毒传播的中期,感染人数和时间(单位:天)在天里的散点图如图所示,下面四个回归方程类型中最适宜作为感染人数和时间的回归方程类型的是( )
A. B. C. D.
【答案】B
【解析】,,
A中是常数,B中是增函数,C中是减函数,D中是减函数,
散点图所有点所在曲线的切线的斜率随的增大,而增大,而四个选项中,A斜率不变,CD的斜率随的增大而减小,只有B满足.
故选:B.
6.下列关于回归分析与独立性检验的说法正确的是( )
A.回归分析和独立性检验没有什么区别
B.回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系
C.回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验
D.独立性检验可以100%确定两个变量之间是否具有某种关系
【答案】C
【解析】回归分析是对两个变量之间的相关关系的一种分析,而相关关系是一种不确定关系,通过回归分析预测和估计两个变量之间具有的相关关系;
独立性检验是对两个变量之间是否具有某种关系的分析,并且可以分析这两个变量在多大程度上具有这种关系,但不能100%肯定这种关系.
故ABD错误,C正确.
故选:C.
7.每年的毕业季都是高校毕业生求职和公司招聘最忙碌的时候,甲、乙两家公司今年分别提供了2个和3个不同的职位,一共收到了100份简历,具体数据如下:
公司 | 文史男 | 文史女 | 理工男 | 理工女 |
甲 | 10 | 10 | 20 | 10 |
乙 | 15 | 20 | 10 | 5 |
分析毕业生的选择意愿与性别的关联关系时,已知对应的的观测值;分析毕业生的选择意愿与专业关联的的观测值,则下列说法正确的是( )
A.有的把握认为毕业生的选择意愿与专业相关联
B.毕业生在选择甲、乙公司时,选择意愿与专业的关联比与性别的关联性更大一些
C.理科专业的学生更倾向于选择乙公司
D.女性毕业生更倾向于选择甲公司
【答案】B
【解析】与专业关联的的观测值,明显大于,明显小于,所以有的把握认为毕业生的选择意愿与专业相关联,所以不正确;
因为,故正确;根据题中的数据表列出专业与甲、乙公司的关联表可知,理科专业的学生更倾向于选择甲公司,列出性别与甲、乙公司的关联表可知,
女性毕业生更倾向于选择乙公司,所以C,D均不正确.
故选:B.
8.已知,是两个具有线性相关的两个变量,其取值如下表:
1 | 2 | 3 | 4 | 5 | |
4 | 9 | 11 |
其回归直线过点的一个充要条件是( )A. B.
C. D.,
【答案】C
【解析】由题设,,,又、都在回归直线上,
所以,必有,故,
故回归直线过点的一个充要条件是.
故选:C
二、填空题
9.以模型去拟合一组数据时,为了求出回归方程,设,其变换后得到线性回归方程z=0.3x+4.则c=___________.
【答案】
【解析】,即,
所以,.
故答案为:
10.下列说法中错误的有______.
(1)残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;
(2)两个模型中残差平方和越小的模型拟合的效果越好;
(3)设随机变量服从正态分布,若,则;
(4)根据下表提供的数据,线性回归方程,那么表中.
3 | 4 | 5 | 6 | |
2.4 | 3.8 | 4.6 |
【答案】(1)(4)
【解析】对于(1),残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,所以(1)错误;
对于(2),两个模型中残差平方和越小的模型拟合的效果越好,所以(2)正确;
对于(3),根据正态分布的性质可得,若,则,,,所以(3)正确;
对于(4),根据表中数据,计算,,代入线性回归方程中,得,解得,所以(4)错误.
故答案为:(1)(4).
11.某次国际会议为了搞好对外宣传工作,会务组选聘了50名记者担任对外翻译工作,在如表“性别与会外语”的列联表中,______.
| 会外语 | 不会外语 | 合计 |
男 | a | b | 20 |
女 | 6 | d |
|
合计 | 18 |
| 50 |
【答案】24
【解析】由题意得所以,,.
故答案为:24
12.针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关”作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的,若有的把握认为中学生追星与性别有关,则男生至少有__________人.
参考数据及公式如下:
0.050 | 0.010 | 0.001 | |
3.841 | 6.635 | 10.828 |
,.
【答案】30
【解析】设男生人数为,依题意可得列联表如下:
| 喜欢追星 | 不喜欢追星 | 总计 |
男生 | |||
女生 | |||
总计 |
若在犯错误的概率不超过的前提下认为是否喜欢追星和性别有关,
则,
由,解得,
由题知应为6的整数倍,
若在犯错误的概率不超过的前提下认为是否喜欢追星和性别有关,
则男生至少有30人,
故答案为:30.
三、解答题
13.每年10月是冬小麦最佳种植时间,但小麦的发芽会受到土壤、气候等多方面因素的影响.某科技小组为了解昼夜温差的大小与小麦发芽的颗数之间的关系,在不同的温差下统计了100颗小麦种子的发芽数,得到了如下数据:
温差/℃ | 8 | 10 | 11 | 12 | 13 |
发芽数/颗 | 79 | 81 | 85 | 86 | 90 |
(1)请根据统计的最后三组数据,求出关于的线性回归方程;
(2)若由(1)中的线性回归方程得到的估计值与前两组数据的实际值误差均不超过两颗,则认为该线性回归方程是可靠的,试判断(1)中得到的线性回归方程是否可靠;
(3)若100颗小麦种子的发芽数为颗,则记为%的发芽率,当发芽率为%时,平均每公顷地的收益为150n元,某农场有土地10万公顷,小麦种植期间昼夜温差大约为9℃,根据(1)中得到的线性回归方程估计该农场种植小麦所获得的收益.
【答案】(1);(2)是可靠的,理由见解析;(3)万元
【解析】(1)记,,将统计的最后三组数据进行处理得到下表,
-1 | 0 | 1 | |
-1 | 0 | 4 |
此时,,,,
所以,故;
(2)
当时,,,
当时,,,
所以(1)中得到的线性回归方程是可靠的;
(3)
当时,,此时发芽率,即.
因为该农场有土地10万公顷,所以估计该农场种植小麦的收益为(万元).
14.某企业计划新购买100台设备,并将购买的设备分配给100名年龄不同(视为技术水平不同)的技工加工一批模具,因技术水平不同而加工出的产品数量不同,故产生的经济效益也不同.若用变量x表示不同技工的年龄,变量y为相应的效益值(元),根据以往统计经验,他们的工作效益满足最小二乘法,且y关于x的线性回归方程为.
(1)试预测一名年龄为52岁的技工使用该设备所产生的经济效益;
(2)试根据r的值判断使用该批设备的技工人员所产生的效益与技工年龄的相关性强弱(,则认为y与x线性相关性很强;,则认为y与x线性相关性不强);
(3)若这批设备有A,B两道独立运行的生产工序,且两道工序出现故障的概率依次是0.02,0.03.若两道工序都没有出现故障,则生产成本不增加;若A工序出现故障,则生产成本增加2万元;若B工序出现故障,则生产成本增加3万元;若A,B两道工序都出现故障,则生产成本增加5万元.求这批设备增加的生产成本的期望.
参考数据:;
参考公式:回归直线的斜率和截距的最小二乘估计分别为,,,.
【答案】(1)元(2)很强(3)万元
【解析】(1)当时,.
所以预测一名年龄为岁的技工使用该设备所产生的经济效益为元
(2)由题得,
所以,
所以.
因为,所以与线性相关性很强.
所以使用该批设备的技工人员所产生的的效益与技工年龄的相关性强.
(3)设增加的生产成本为(万元),则的可能取值为,,,.
,
,
,
.
所以(万元),
所以这批设备增加的生产成本的期望为万元.
15.1.学习于才干信仰,犹如运动于健康体魄,持之已久、行之愈远愈受益.为了顺利实现中华民族伟大复兴,全国各行各业掀起了“学习强国”的高潮.某市教育局为了解全市教职工在“学习强国”中每天学习得分情况,从全市教职工中随机抽取名教职工,得到他们平均每天的学习得分,得分都在内,将他们的得分分为七组:,后得到频率分布直方图如图所示.
(1)从样本中得分不低于的教职工中用分层抽样的方法抽取人,然后从这人中随机抽取人进行学习体会交流,用表示参加学习体会交流且得分不低于分的人数,求的分布列和期望;
(2)某老师很喜欢“学习强国”中“挑战答题”模块,他记录了自己连续七天每天一次最多答对的题数如下表:
天数 | |||||||
一次最多答对题数 |
由表中数据可知该老师每天一次最多答对题数y与第x天之间可用线性模型拟合,请用相关系数加以说明,并求出关于的回归方程.
参考数据:
参考公式:,回归直线方程中斜率和截距的最小二乘法估计公式,
【答案】(1)
数学期望为1
(2)说明见解析;
【解析】(1)在抽取的名教职工中得分在的有(人),
得分在的有(人),
所以在得分为的人中应抽取(人),在得分为的人中应抽取(人).
由题可得的所有可能取值为,
所以的分布列为
(2)
由条件可知,
则关于的相关系数
因为与非常接近,所以关于有较强的线性相关关系;
因为,’
所以关于的回归直线方程是
16.随着新冠疫情防控进入常态化,人们的生产生活逐步步入正轨.为拉动消费,某市发行2亿元消费券.为了解该消费券使用人群的年龄结构情况,该市随机抽取了50人,对是否使用过消费券的情况进行调查,结果如下表所示,其中年龄低于45岁的人数占总人数的.
年龄(单位:岁) | ||||||
调查人数 | 5 | m | 15 | 10 | n | 5 |
使用消费券人数 | 5 | 10 | 12 | 7 | 2 | 1 |
(1)若以“年龄45岁为分界点”,由以上统计数据完成下面列联表,并判断是否有的把握认为是否使用消费券与人的年龄有关.
| 年龄低于45岁的人数 | 年龄不低于45岁的人数 | 合计 |
使用消费券人数 |
|
|
|
未使用消费券人数 |
|
|
|
合计 |
|
|
|
参考数据:
0.15 | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 | |
2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
,其中.
(2)从使用消费券且年龄在与的人中按分层抽样方法抽取6人,再从这6人中选取2名,记抽取的两人中年龄在的人数为X,求X的分布列与数学期望.
【答案】(1)列联表答案见解析,有的把握认为是否使用消费券与人的年龄有关;(2)分布列答案见解析,数学期望:.
【解析】(1)由题意得解得;
由以上统计数据填写下面列联表,如下
| 年龄低于45岁的人数 | 年龄不低于45岁的人数 | 合计 |
使用消费券人数 | 27 | 10 | 37 |
未使用消费券人数 | 3 | 10 | 13 |
合计 | 30 | 20 | 50 |
根据公式计算,
所以有的把握认为是否使用消费券与人的年龄有关:
(2)由题意知抽取的6人中年龄在的有2人,年龄在的有4人,
所以X的可能取值为.
且,
所以X的分布列为
X | 0 | 1 | 2 |
P |
.
17.疫苗是指用各种病原微生物制作的用于预防接种的生物制品,接种疫苗是预防和控制传染病最经济、有效的公共卫生干预措施.某制药厂对预防某种疾病的两种疫苗开展临床对比试验.若使用后的抗体呈阳性,则认为疫苗有效.在已经接种疫苗的群体中随机抽取的100个样本,其中有60个接种了灭活疫苗,剩余40个接种了核酸疫苗.根据样本数据绘制等高条形图(如图所示),其中两个深色条的高分别表示接种灭活疫苗和核酸疫苗样本中抗体呈阳性的频率.现从这100个样本中随机抽取1人,已知事件“该样本接种了灭活疫苗且抗体呈阳性”发生的概率为0.54.
(1)求等高条形图中a的值;
(2)请在答题卷中完成下面的列联表,并判断能否在犯错概率不超过0.10的前提下认为两种疫苗的预防效果存在差异?
| 灭活疫苗 | 核酸疫苗 | 总计 |
抗体为阳性 |
|
|
|
抗体为阴性 |
|
|
|
总计 | 60 | 40 | 100 |
参考公式:,其中
| 0.15 | 0.10 | 0.01 |
| 2.072 | 2.706 | 6.635 |
【答案】(1)
(2)列联表答案见解析,不能在犯错概率不超过0.10的前提下认为两种疫苗的预防效果存在差异
【解析】(1)依题意“1名受访者接种灭活疫苗且接种后抗体呈阳性”发生的概率为0.54,
所以;解得,所以
(2)根据题意,接种灭活疫苗抗体阳性的共有:人,
接种核酸疫苗后抗体呈阳性的共有:人,
故列联表如下:
| 灭活疫苗 | 核酸疫苗 | 总计 |
抗体为阳性 | 54 | 34 | 88 |
抗体为阴性 | 6 | 6 | 12 |
总计 | 60 | 40 | 100 |
零假设为接种两种疫苗效果无差异
根据列联表中的数据,得到
因为
所以不能在犯错概率不超过0.10的前提下认为两种疫苗的预防效果存在差异.
18.某学校共有1000名学生参加数学知识竞赛,其中男生200人.为了了解该校学生在数学知识竞赛中的情况,采取按性别分层抽样,随机抽取了100名学生进行调查,分数分布在450~950分之间.将分数不低于750分的学生称为“高分选手”.根据调查的结果绘制的学生分数频率分布直方图如图所示.
(1)求的值,并估计该校学生分数的平均数(同一组中的数据用该组区间的中点值作代表);
(2)若样本中属于“高分选手”的男生有10人,完成下列列联表,并判断是否有99.5%的把握认为该校学生属于“高分选手”与“性别”有关.
| 属于“高分选手” | 不属于“高分选手” | 合计 |
男生 |
|
|
|
女生 |
|
|
|
合计 |
|
|
|
参考公式:,其中.
0.15 | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 | |
2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
【答案】(1),670分
(2)表格见解析,有99.5%的把握认为该校学生属于“高分选手”与“性别”有关
【解析】(1),解得
平均数估计值为(分)
(2)由题意可知, 样本中男生有人,则女生有80人,属于“高分选手”的有人,其中男生10人,
则高分中女生为人,不属于“高分选手”的男生为人,不属于“高分选手”的女生为人,
因此,得到列联表如下:
| 属于“高分选手” | 不属于“高分选手” | 合计 |
男生 | 10 | 10 | 20 |
女生 | 15 | 65 | 80 |
合计 | 25 | 75 | 100 |
因此,的观测值,
所以有99.5%的把握认为该校学生属于“高分选手”与“性别”有关
重难点18 数列求和—2023年高考数学【热点·重点·难点】专练(全国通用)(解析版): 这是一份重难点18 数列求和—2023年高考数学【热点·重点·难点】专练(全国通用)(解析版),共3页。试卷主要包含了公式法,几种数列求和的常用方法,已知数列的前n项和满足,若数列的通项公式是,则,数列{an}满足的前60项和为等内容,欢迎下载使用。
重难点26 双曲线—2023年高考数学【热点·重点·难点】专练(全国通用)(解析版): 这是一份重难点26 双曲线—2023年高考数学【热点·重点·难点】专练(全国通用)(解析版),共10页。试卷主要包含了双曲线的焦点到渐近线的距离为b,焦点三角形的面积等内容,欢迎下载使用。
重难点33 变量间的相关关系、统计案例—2023年高考数学【热点·重点·难点】专练(全国通用)(学生版): 这是一份重难点33 变量间的相关关系、统计案例—2023年高考数学【热点·重点·难点】专练(全国通用)(学生版),共9页。试卷主要包含了回归分析问题的类型及解题方法,独立性检验的一般步骤,1B.0,841,02,635,879等内容,欢迎下载使用。