![考点60一元线性回归及其模型(3种核心题型 基础保分练 综合提升练 拓展冲刺练)-2025年高考数学大一轮复习核心题型讲练 易错重难点专项突破(新高考版)原卷版第1页](http://img-preview.51jiaoxi.com/3/3/16667308/1-1737874414743/0.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![考点60一元线性回归及其模型(3种核心题型 基础保分练 综合提升练 拓展冲刺练)-2025年高考数学大一轮复习核心题型讲练 易错重难点专项突破(新高考版)原卷版第2页](http://img-preview.51jiaoxi.com/3/3/16667308/1-1737874414816/1.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![考点60一元线性回归及其模型(3种核心题型 基础保分练 综合提升练 拓展冲刺练)-2025年高考数学大一轮复习核心题型讲练 易错重难点专项突破(新高考版)原卷版第3页](http://img-preview.51jiaoxi.com/3/3/16667308/1-1737874414838/2.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![考点60一元线性回归及其模型(3种核心题型 基础保分练 综合提升练 拓展冲刺练)-2025年高考数学大一轮复习核心题型讲练 易错重难点专项突破(新高考版)解析版第1页](http://img-preview.51jiaoxi.com/3/3/16667308/0-1737874404591/0.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![考点60一元线性回归及其模型(3种核心题型 基础保分练 综合提升练 拓展冲刺练)-2025年高考数学大一轮复习核心题型讲练 易错重难点专项突破(新高考版)解析版第2页](http://img-preview.51jiaoxi.com/3/3/16667308/0-1737874404705/1.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![考点60一元线性回归及其模型(3种核心题型 基础保分练 综合提升练 拓展冲刺练)-2025年高考数学大一轮复习核心题型讲练 易错重难点专项突破(新高考版)解析版第3页](http://img-preview.51jiaoxi.com/3/3/16667308/0-1737874404728/2.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
考点60一元线性回归及其模型-2025年高考数学大一轮复习核心题型讲练 易错重难点专项突破(新高考版)
展开
这是一份考点60一元线性回归及其模型-2025年高考数学大一轮复习核心题型讲练 易错重难点专项突破(新高考版),文件包含考点60一元线性回归及其模型3种核心题型基础保分练综合提升练拓展冲刺练-2025年高考数学大一轮复习核心题型讲练易错重难点专项突破新高考版原卷版docx、考点60一元线性回归及其模型3种核心题型基础保分练综合提升练拓展冲刺练-2025年高考数学大一轮复习核心题型讲练易错重难点专项突破新高考版解析版docx等2份试卷配套教学资源,其中试卷共77页, 欢迎下载使用。
1.了解样本相关系数的统计含义.2.了解最小二乘法原理,掌握一元线性回归模型参数的最小二乘估计方法.3.针对实际问题,会用一元线性回归模型进行预测.
【知识点】
1.变量的相关关系
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
3.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
4.判断回归模型的拟合效果
常用结论
1.经验回归直线过点(eq \x\t(x),eq \x\t(y)).
2.求eq \(b,\s\up6(^))时,常用公式eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n,x)iyi-n\x\t(x) \x\t(y),\i\su(i=1,n,x)\\al(2,i)-n\x\t(x)2).
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
【核心题型】
题型一 成对数据的相关性
判定两个变量相关性的方法
(1)画散点图:若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
(2)样本相关系数:当r>0时,正相关;当r0时,正相关;当b<0时,负相关
【例题1】(2024·江西南昌·三模)如图对两组数据,和,分别进行回归分析,得到散点图如图,并求得线性回归方程分别是和,并对变量,进行线性相关检验,得到相关系数,对变量,进行线性相关检验,得到相关系数,则下列判断正确的是( )
A.B.C.D.
【答案】D
【分析】由两散点图中散点的位置关系直接得答案.
【详解】由散点图可知,与负相关,与正相关,则,,故A、B错误;
且图形中点比更加集中在一条直线附近,
则,又,,得.
故C错误,D正确.
故选:D.
【变式1】(2024·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为( ).
A.B.C.D.
【答案】C
【分析】根据散点图判断两变量的线性相关性,再根据线性相关性与相关系数的关系判断即可.
【详解】由散点图可知,图一两个变量成正相关,且线性相关性较强,故,
图二、图三两个变量都成负相关,且图二的线性相关性更强,
故,,,故,所以.
故选:C.
【变式2】(2024·辽宁葫芦岛·一模)已知变量与的回归直线方程为,变量与负相关,则( )
A.与负相关,与负相关B.与正相关,与正相关
C.与负相关,与正相关D.与正相关,与负相关
【答案】D
【分析】根据已知条件,结合回归方程可判断与正相关,再由变量与负相关,即可判断与负相关.
【详解】根据回归方程可知变量与正相关,又变量与负相关,
由正相关、负相关的定义可知,与负相关.
故选:D
【变式3】(2024·四川成都·二模)对变量有观测数据,得散点图1;对变量有观测数据,得散点图2.表示变量之间的线性相关系数,表示变量之间的线性相关系数,则下列说法正确的是( )
A.变量与呈现正相关,且B.变量与呈现负相关,且
C.变量与呈现正相关,且D.变量与呈现负相关,且
【答案】C
【分析】利用散点图,结合相关系数的知识可得答案.
【详解】由题意可知,变量的散点图中,随的增大而增大,所以变量与呈现正相关;
再分别观察两个散点图,图比图点更加集中,相关性更好,所以线性相关系数.
故选:C.
题型二 回归模型
求经验回归方程的步骤
命题点1 一元线性回归模型
【例题2】(2023·河南·一模)已知变量y与x之间具有线性相关关系,根据变量x与y的相关数据,计算得则y关于x的线性回归方程为( )
附:回归方程中的斜率和截距的最小二乘法估计公式分别为
A.B.
C.D.
【答案】B
【分析】根据已知数据求,代入回归直线方程即可求解.
【详解】由题中的数据可知,
所以.
所以.
所以y关于x的线性回归方程为.
故选:B.
【变式1】(2024·江西·一模)已知变量y与x线性相关,由样本点求得的回归方程为,若点在回归直线上,且,,则 .
【答案】6
【分析】依题意,可得点在回归直线上,求得,将条件代入回归方程求出,利用平均数公式即可求得.
【详解】由题意,点在回归直线上,代入可得,,解得,
因,且样本中心点在回归直线上,将条件代入得:,
故,解得.
故答案为:6.
【变式2】(2023·四川绵阳·三模)根据统计, 某蔬菜基地西红柿亩产量的增加量 (百千克)与某种液体肥料每亩的使用量(千克)之间 的对应数据的散点图如图所示.
(1)从散点图可以看出, 可用线性回归方程拟合 与的关系, 请计算样本相关系数并判断它们的相关程度;
(2)求 关于的线性回归方程, 并预测液体肥料每亩的使用量为 12 千克时西红柿亩产量的增加量.
附: .
【答案】(1) ; 与程正线性相关, 且相关程度很强.
(2); 9.9 百千克.
【分析】(1)由图形中的数据结合相关系数公式求得相关系数,再由即可求解;
(2)求出线性回归方程,再取代入,即可求解.
【详解】(1)由题知:
所以
所以
所以 与程正线性相关, 且相关程度很强.
(2)因为 ,
所以 关于的线性回归方程为,
当 时,.
所以预测液体肥料每亩的使用量为 12 千克时西红柿亩产量的增加量为 9.9 百千克.
【变式3】(2024·陕西西安·二模)近年来我国新能源汽车行业蓬勃发展,新能源汽车不仅对环境保护具有重大的意义,而且还能够减少对不可再生资源的开发,是全球汽车发展的重要方向.“保护环境,人人有责”,在政府和有关企业的努力下,某地区近几年新能源汽车的购买情况如下表所示:
(1)计算与的相关系数(保留三位小数);
(2)求关于的线性回归方程,并预测该地区2025年新能源汽车购买数量.
参考公式,,.
参考数值:,.
【答案】(1)
(2)万辆
【分析】(1)利用所提供数据求,代入参考公式求即可;
(2)结合公式求,由此可得回归方程,再利用回归方程进行预测.
【详解】(1),
,
所以;
(2)由(1)知,,
,
所以关于的线性回归方程是,
当时,(万辆),
该地区年新能源汽车购买数量约为万辆.
命题点2 非线性回归模型
【例题3】(2024·云南曲靖·一模)已知变量关于的回归方程为,若对两边取自然对数,可以发现与线性相关.现有一组数据如下表所示:
则当时,预测的值为( )
A.B.C.D.
【答案】C
【分析】令,可得出,求出、的值,将、的值代入,求出的值,可得出变量关于的回归方程,然后令,可得出的值.
【详解】令,由可得,如下表所示:
由表格中的数据可得,,
则有,解得,故,
当时,.
故选:C.
【变式1】(2023·全国·模拟预测)为了反映城市的人口数量x与就业压力指数y之间的变量关系,研究人员选择使用非线性回归模型对所测数据进行拟合,并设,得到的数据如表所示,则 .
【答案】3
【分析】由非线性回归模型和,得回归直线方程,代入样本点中心即可求值.
【详解】,,
依题意,,
而回归直线方程过点,故,解得.
故答案为:3
【变式2】(2024·湖南邵阳·三模)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数与天数的情况,对统计得到的样本数据作了初步处理,得到下面的散点图及一些统计量的值.
表中,.
(1)依据散点图推断,与哪一个更适合作为未佩戴头盔人数与天数的回归方程类型?(给出判断即可,不必说明理由)
(2)依据(1)的结果和上表中的数据求出关于的回归方程.
(3)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
依据的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:,,,其中.
【答案】(1)更适合
(2)
(3)能
【分析】(1)根据散点图的形状,可判断更适宜作为未佩戴头盔人数与天数的回归方程类型.
(2)将两边取对数,转化为线性回归方程,利用表中的数据和线性回归方程公式求解即可.
(3)应用卡方公式求卡方值,由独立性检验的基本思想下结论即可.
【详解】(1)依据散点图可以判断,更适合作为未佩戴头盔人数与天数的回归方程类型.
(2)由,得,
依题意得,
,
所以,即.
(3)零假设:市民佩戴头盔与性别无关联.
根据列联表中的数据,经计算得到:
,
根据小概率值的独立性检验,我们推断不成立,即认为市民佩戴头盔与性别有关联,
此推断犯错误的概率不超过0.10.
【变式3】(2023·四川绵阳·二模)抗体药物的研发是生物技术制药领域的一个重要组成部分,抗体药物的摄入量与体内抗体数量的关系成为研究抗体药物的一个重要方面.某研究团队收集了10组抗体药物的摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄入量为x(单位:),体内抗体数量为y(单位:).
(1)根据经验,我们选择作为体内抗体数量y关于抗体药物摄入量x的回归方程,将两边取对数,得,可以看出与具有线性相关关系,试根据参考数据建立关于的回归方程,并预测抗体药物摄入量为时,体内抗体数量的值;
(2)经技术改造后,该抗体药物的有效率z大幅提高,经试验统计得z服从正态分布,那这种抗体药物的有效率超过0.54的概率约为多少?
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,;
②若随机变量,则有,,;
③取.
【答案】(1);
(2)
【分析】(1)用最小二乘法求解回归直线方程,再求非线性回归方程即可;
(2)根据正态分布的对称性求解给定区间的概率即可.
【详解】(1)将两边取对数,得,
设,,则回归方程变为,
由表中数据可知,,,
所以,,
所以,即,
故y关于x的回归方程为,
当时,.
(2)因为z服从正态分布,其中,,
所以,
所以,
故这种抗体药物的有效率z超过0.54的概率约为.
题型三 残差分析
检验回归模型的拟合效果的两种方法
(1)残差分析:通过残差分析发现原始数据中的可疑数据,判断所建立模型的拟合效果.
(2)R2分析:通过公式计算R2,R2越大,残差平方和越小,模型的拟合效果越好;R2越小,残差平方和越大,模型的拟合效果越差.
【例题4】(2024·湖北荆州·三模)根据变量和的成对样本数据,由一元线性回归模型得到经验回归模型,求得如图所示的残差图.模型误差( )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的的假设
C.不满足一元线性回归模型的假设
D.不满足一元线性回归模型的和的假设
【答案】D
【分析】根据一元线性回归模型的有关概念即可判断.
【详解】用一元线性回归模型得到经验回归模型,
根据对应的残差图,残差的均值不可能成立,且残差图中的点分布在一条拋物线形状的弯曲带状区域上,
说明残差与坐标轴变量有二次关系,不满足一元线性回归模型,
故选:D.
【变式1】(2023·福建宁德·二模)5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升,某手机商城统计了最近5个月手机的实际销量,如下表所示:
若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x正相关
B.线性回归方程中
C.可以预测时该商场5G手机销量约为1.72(千只)
D.时,残差为
【答案】D
【分析】对于,利用表中的数据分析即可求解;对于,利用平均数的定义及样本中心,结合样本中心在回归直线上即可求解;对于,利用预测值和残差的定义即可求解;对于,利用回归方程即可求出预测值.
【详解】对于,从数据看随的增加而增加,所以变量y与x正相关,故正确;
对于,由表中数据知,
所以样本中心点为,将样本中心点代入中得,故正确;
对于,当时该商场5G手机销量约为(千只),故正确.
对于,线性回归方程为,所以,,故错误;
故选:.
【变式2】(2024·重庆·三模)对具有线性相关关系的变量有一组观测数据,其经验回归方程,则在样本点处的残差为 .
【答案】0.5/
【分析】利用样本中心在回归直线上及残差的定义即可求解.
【详解】将代入,得,解得,
所以,
故当时,,
所以残差.
故答案为:0.5.
【变式3】(2024·全国·模拟预测)某农业大学组织部分学生进行作物栽培试验,由于土壤相对贫瘠,前期作物生长较为缓慢,为了增加作物的生长速度,达到预期标准,小明对自己培育的一株作物使用了营养液,现统计了使用营养液十天之内该作物的高度变化
(1)观察散点图可知,天数与作物高度之间具有较强的线性相关性,用最小二乘法求出作物高度关于天数的线性回归方程(其中用分数表示);
(2)小明测得使用营养液后第22天该作物的高度为,请根据(1)中的结果预测第22天该作物的高度的残差.
参考公式:.参考数据:.
【答案】(1);
(2).
【分析】(1)根据表格数据利用公式求出即可求解.
(2)将代入回归方程求得预测值,然后根据残差定义求解即可.
【详解】(1)依题意,,
,
故,
,故所求回归直线方程为.
(2)由(1)可知,当时,,
故所求残差为.
【课后强化】
【基础保分练】
一、单选题
1.(2020·甘肃·一模)网络是一种先进的高频传输技术,我国的技术发展迅速,已位居世界前列.华为公司2019年8月初推出了一款手机,现调查得到该款手机上市时间和市场占有率(单位:%)的几组相关对应数据.如图所示的折线图中,横轴1代表2019年8月,2代表2019年9月……,5代表2019年12月,根据数据得出关于的线性回归方程为.若用此方程分析并预测该款手机市场占有率的变化趋势,则最早何时该款手机市场占有率能超过0.5%(精确到月)( )
A.2020年6月B.2020年7月C.2020年8月D.2020年9月
【答案】C
【解析】根据图形,计算出,然后解不等式即可.
【详解】解:,
点在直线上
,
令
因为横轴1代表2019年8月,所以横轴13代表2020年8月,
故选:C
【点睛】考查如何确定线性回归直线中的系数以及线性回归方程的实际应用,基础题.
2.(2024·陕西西安·一模)已知变量,之间的一组相关数据如下表所示:
据此得到变量,之间的线性回归方程为,则下列说法不正确的是( )
A.变量,之间成负相关关系B.可以预测,当时,
C.D.该回归直线必过点
【答案】C
【分析】由,可判断A正确;当时,得到的预测值,可判定B正确;由表格中的数据,求得样本中心,代入求得的值,可判定C不正确;由,求得,可判定D正确.
【详解】对于A中,由,可得变量之间呈现负相关关系,所以A正确;
对于B中,当,可得,所以B正确;
对于C中,由表格中的数据,可得,
则,解得,所以C不正确;
对于D中,由,可得,所以该回归直线必经过点,所以D正确.
故选:C.
3.(2024·四川凉山·三模)调查某校高三学生的身高和体重得到如图所示散点图,其中身高和体重相关系数,则下列说法正确的是( )
A.学生身高和体重没有相关性
B.学生身高和体重呈正相关
C.学生身高和体重呈负相关
D.若从样本中抽取一部分,则这部分的相关系数一定是
【答案】B
【分析】由散点图的特点可分析相关性的问题,从而判断选项,根据相关系数的定义可判断选项.
【详解】由散点图可知,散点的分布集中在一条直线附近,
所以学生身高和体重具有相关性,不正确;
又身高和体重的相关系数为,相关系数,
所以学生身高和体重呈正相关,正确,不正确;
从样本中抽取一部分,相关性可能变强,也可能变弱,所以这部分的相关系数不一定是,不正确.
故选:.
4.(2023·广东梅州·二模)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:
由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为( )
A.B.C.D.
【答案】B
【分析】根据可得线性回归方程,再由回归方程求出2025年的预测值,代入即可得解.
【详解】因为,
所以,
即经验回归方程,
当时,,
所以,
即2025年该科技公司云计算市场规模y的估计值为,
故选:B
二、多选题
5.(2023·河北·三模)下列选项正确的是( )
A.若样本数据的方差为1,那么数据的方差为
B.经验回归方程为时,与正相关
C.若随机变量服从两点分布,那么最大值是
D.数据的分位数是5
【答案】BC
【分析】根据方差的性质可判断A;根据回归直线的含义判断B;结合基本不等式判断C;根据百分位数的算法判断D.
【详解】对于A选项:样本数据的方差为1,
则数据的方差为,所以A选项错;
B选项:经验回归方程为时,x系数为正,所以与正相关,所以B选项对;
C选项:随机变量服从两点分布,设成功概率为,
则,当且仅当时等号成立,C正确;
D选项,数据的分位数是,D错误,
故选:BC.
6.(2024·四川宜宾·一模)某社会机构统计了某市四所大学年毕业生人数及自主创业人数如下表:
根据表中的数据得到自主创业人数关于毕业生人数的经验回归方程为,则( )
A.与正相关B.
C.当时,残差为D.样本的相关系数为负数
【答案】ABC
【分析】根据回归直线的斜率可判断A选项;将样本中心点的坐标代入回归直线方程,求出的值,可判断B选项;利用残差的概念可判断C选项;利用样本的相关系数的概念可判断D选项.
【详解】对于A选项,因为回归直线的斜率为,所以,与正相关,A对;
对于B选项,由表格中的数据可得,,
所以,样本中心点为,
将样本中心点的坐标代入回归直线方程得,解得,B对;
对于C选项,当时,,
所以,当时,残差为,C对;
对于D选项,因为与正相关,所以,样本的相关系数为正数,D错.
故选:ABC.
三、填空题
7.(2022·江苏扬州·模拟预测)用模型去拟合一组数据时,为了求出线性回归方程,设,求得线性回归方程为,则的值为 .
【答案】/
【分析】根据,两边取自然对数,转化为线性关系,和线性回归方程为比较,可得答案.
【详解】由题意知,,故,
设,求得线性回归方程为,
两式相比较,,
故答案为:
8.(2023·陕西安康·模拟预测)某池塘中水生植物的覆盖水塘面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系,设,与的数据如表格所示:
得到与的线性回归方程,则 .
【答案】
【分析】根据已知求得,,进而代入回归方程可求得,从而得出.然后代入,根据指对互化,即可得出答案.
【详解】由已知可得,,,
所以,有,解得,
所以.
由,得,
所以,
所以.
故答案为:.
四、解答题
9.(2024·四川内江·模拟预测)当前,人工智能技术以前所未有的速度迅猛发展,并逐步影响生活的方方面面,人工智能被认为是推动未来社会发展和解决人类面临的全球性问题的重要手段.某公司在这个领域逐年加大投入,以下是近年来该公司对产品研发年投入额(单位:百万元)与其年销售量(单位:千件)的数据统计表.
(1)若该公司科研团队计划用方案①作为年销售量关于年投资额的回归分
析模型,请根据统计表的数据及参考公式,确定该经验回归方程;
(2)若该公司科研团队计划用方案②作为年销售量关于年投资额的回归分析模型,的残差平方和,请根据统计表的数据及参考公式,比较两种模型的拟合效果哪种更好?并选择拟合精度更高的模型,预测年投入额为6百万元时,产品的销售量约为多少?(计算结果保留到小数点后两位)
参考公式及数据:,
【答案】(1)
(2)方案②非线性回归方程拟合效果更好,9.68千件.
【分析】(1)根据所给数据,利用公式求出,可得解;
(2)计算方案①残差和与方案②比较可得出方案②更好,再由所给方程求出预测值即可.
【详解】(1)由题意,
,,
所以线性回归方程为.
(2)按(1)可得,
根据题意可得如下数据:
方案①的残差平方和为,
由于,故方案②非线性回归方程拟合效果更好.
当时,(千件),
故当年投入额为6百万元时,产品的销售量约为9.68千件.
10.(2022·四川绵阳·三模)随着科技进步,近来年,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用车的年销售量数据:
(1)根据表中数据,求出y关于x的线性回归方程;(结果保留整数)
(2)若用模型拟合y与x的关系,可得回归方程为,经计算该模型和第(1)问中模型的(为相关指数)分别为0.87和0.71,请分别利用这两个模型,求2022年我国新能源乘用车的年销售量的预测值;
(3)你认为(2)中用哪个模型得到的预测值更可靠?请说明理由.
参考数据:设,其中.
参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)当回归方程为时,2022年我国新能源乘用车的年销售量的预测值是万辆;
当回归方程为时,2022年我国新能源乘用车的年销售量的预测值是万辆.
(3)由于相关指数越接近于,两个变量之间的关系就强,相应的拟合程度也越好,
所以模型得到的预测值更可靠.
【分析】(1)根据表中数据和参考数据,得出,,,的值,
运用最小二乘法求回归直线方程即可;
(2)根据回归方程,代入的值即可求出预测值;
(3)相关指数越接近,两变量的相关性越强,预测值越可靠.
【详解】(1)由表中数据得,
,,,
,
y关于x的线性回归方程为:.
(2)由(1)知,y关于x的线性回归方程为:,
当时,2022年我国新能源乘用车的年销售量的预测值:
(万辆);
对于回归方程,
当时,2022年我国新能源乘用车的年销售量的预测值:
(万辆).
(3)依题意:模型和第(1)问中模型的(为相关指数)分别为0.87和0.71,
由于相关指数越接近于,两个变量之间的关系就强,相应的拟合程度也越好,
所以模型得到的预测值更可靠.
【综合提升练】
一、单选题
1.(2024·四川绵阳·二模)已知变量x,y之间的线性回归方程为,且变量x,y之间的一组相关数据如表所示,
则下列说法正确的是( )
A.
B.变量y与x是负相关关系
C.该回归直线必过点
D.x增加1个单位,y一定增加2个单位
【答案】C
【分析】根据给定数据及回归方程求出样本中心点,再逐项判断即可得解.
【详解】依题意,,
由,解得,A错误;
回归方程中,,则变量y与x是正相关关系,B错误;
由于样本中心点为,因此该回归直线必过点,C正确;
由回归方程知,x增加1个单位,y大约增加2个单位,D错误.
故选:C
2.(2024·山西运城·一模)对变量,有观测数据,得散点图1;对变量,有观测数据,得散点图2. 表示变量,之间的样本相关系数,表示变量,之间的样本相关系数,则( )
A.B.
C.D.
【答案】A
【分析】利用散点图,结合相关系数知识容易得出答案.
【详解】从图像中看出随增大而减少(图像下降),随增大而减少(图像下降),则与呈负相关关系, 与呈负相关关系,即,故C,D不正确;
另外对比两图,容易看出与相关性更强,故越接近,
所以得,A正确,B错误.
故选:A.
3.(2023·上海奉贤·三模)已知两组数据和,其中且时,;且时,,,我们研究这两组数据的相关性,在集合中取一个元素作为a的值,使得相关性最强,则a=( )
A.8B.11C.12D.13
【答案】B
【分析】根据相关性与线性回归方程的关系即可得到答案.
【详解】设点坐标为,且,
由题意得前9个点位于直线上,面,则要使相关性更强,应更接近10,
四个选项中11更接近10,
故选:B.
4.(2023·河北石家庄·三模)下列残差满足一元线性回归模型中对随机误差的假定的是( )
A. B.
C. D.
【答案】D
【分析】根据一元线性回归模型对随机误差的假定即可判断结果.
【详解】图A显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
图B说明残差的方差不是一个常数,随观测时间变大而变大;
图C显示残差与观测时间有线性关系,应将时间变量纳入模型;
图D的残差较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,
可见D满足一元线性回归模型对随机误差的假定.
故选:D.
5.(2024·广西贵港·模拟预测)下列说法中错误的是( )
A.独立性检验的本质是比较观测值与期望值之间的差异
B.两个变量x,y的相关系数为r,若越接近1,则x与y之间的线性相关程度越强
C.若一组样本数据()的样本点都在直线上,则这组数据的相关系数r为0.98
D.由一组样本数据()求得的回归直线方程为,设,则
【答案】C
【分析】根据独立检验和线性回归方程的相关性质进行判断,得到答案.
【详解】A,独立性检验的本质是比较观测值与期望值之间的差异,从而确定研究对象是否有关联,A正确;
B,两个变量x,y的相关系数为r,若越接近1,则x与y之间的线性相关程度越强,B正确;
C,若一组样本数据()的样本点都在直线上,则这组数据的相关系数r为1,C错误;
D,由残差分析可知,介于0与1之间,D正确.
故选:C
6.(2023·山东潍坊·模拟预测)具有线性相关关系的变量的一组数据如下:
其线性回归直线方程为,则回归直线经过( )
A.第一、二、三象限B.第二、三、四象限
C.第一、二、四象限D.第一、三、四象限
【答案】D
【分析】根据x,y呈正相关,得到,再由样本中心在第四象限判断.
【详解】解:由图表中的数据知:x,y呈正相关,
所以,
又,
则样本中心为,在第四象限,
所以回归直线经过第一、三、四象限,
故选:D
7.(2024·天津·一模)已知变量x和y满足经验回归方程,且变量x和y之间的一组相关数据如表所示,则下列说法错误的是( )
A.变量x和y呈负相关B.当时,
C.D.该经验回归直线必过点
【答案】C
【分析】对A:借助回归方程的斜率即可得;对B:将代入方程计算即可得;对C、D:借助线性回归方程必过点计算即可得.
【详解】对A:由可得,故变量x和y呈负相关,故A正确;
对B:当时,,故B正确;
对C:由表可得,,
故,解得,故C错误;
对D:由,,故D正确.
故选:C.
8.(2024·浙江宁波·二模)某校数学建模兴趣小组为研究本地区儿子身高与父亲身高之间的关系,抽样调查后得出与线性相关,且经验回归方程为.调查所得的部分样本数据如下:
则下列说法正确的是( )
A.儿子身高是关于父亲身高的函数
B.当父亲身高增加时,儿子身高增加
C.儿子身高为时,父亲身高一定为
D.父亲身高为时,儿子身高的均值为
【答案】D
【分析】根据变量的线性相关、经验回归方程特点逐项分析即可得结论.
【详解】由题意知父亲身高与儿子身高具有线性相关关系,
不是函数关系,故A不正确;
当父亲身高增加时,儿子身高约增加,故B不正确;
当儿子身高为时,代入可得,父亲身高可能为,故C不正确;
若某父亲身高为,则其儿子的身高估计为,故D正确.
故选:D.
二、多选题
9.(2024·全国·模拟预测)下列说法中,正确的是( )
A.某组数据的经验回归方程一定过点
B.若,,,则事件与事件相互独立
C.甲、乙两个模型的决定系数分别约为和,则模型甲的拟合效果更好
D.残差平方和越大,则相应模型的拟合效果越好
【答案】BC
【分析】根据回归方程、独立事件、决定系数和残差平方和的相关知识依次判断各个选项即可.
【详解】对于A,经验回归方程必过样本中心点,但未必是,A错误;
对于B,,事件与事件相互独立,B正确;
对于C,,越接近,模型拟合效果越好,模型甲的拟合效果更好,C正确;
对于D,残差平方和越小,模型的拟合效果越好,D错误.
故选:BC.
10.(2024·广东广州·模拟预测)已知变量和变量的一组成对样本数据()的散点落在一条直线附近,,,相关系数为,线性回归方程为,则( )
参考公式:,.
A.当越大时,成对样本数据的线性相关程度越强
B.当时,
C.当,时,成对样本数据()的相关系数满足
D.当,时,成对样本数据()的线性回归方程满足
【答案】BCD
【分析】根据线性相关、相关系数、线性回归方程等知识,对选项逐一分析,即可得到答案.
【详解】对于A,当越接近1时,成对样本数据的线性相关程度越强,故A错误;
对于B,当时,成对样本数据正相关,相关系数与符号相同,则,故B正确;
对于C,当,时,将这组数据添加后,不变,故相关系数的表达式中的分子和分母均不变,故C正确;
对于D,当,时,将这组数据添加后,不变,故线性回归方程中的斜率的表达式中的分子和分母均不变,所以,故D正确;
综上所述,正确的有B、C、D.
故选:BCD.
11.(2024·山东淄博·一模)下列命题为真命题的是( )
A.若样本数据的方差为2,则数据的方差为17
B.一组数据8,9,10,11,12的第80百分位数是11.5
C.用决定系数比较两个模型的拟合效果时,若越大,则相应模型的拟合效果越好
D.以模型 去拟合一组数据时,为了求出经验回归方程,设,求得线性回归方程为,则c,k的值分别是和2
【答案】BCD
【分析】根据方差的性质即可判断A;根据百分位数计算公式即可判断B;根据决定系数的概念即可判断C;根据非线性回归方程的求法并结合对数运算性质即可判断D.
【详解】对A:若样本数据的方差为2,则数据的方差为,故A错误;
对B:,则其第80百分位数是,故B正确;
对C,根据决定系数的含义知越大,则相应模型的拟合效果越好,故C正确;
对D,以模型去拟合一组数据时,为了求出经验回归方程,设,
则,由题线性回归方程为,则,故的值分别是和2,故D正确.
故选:BCD.
三、填空题
12.(2020·湖北武汉·二模)有人收集了七月份的日平均气温(摄氏度)与某次冷饮店日销售额(百元)的有关数据,为分析其关系,该店做了五次统计,所得数据如下:
由资料可知,关于的线性回归方程是,给出下列说法:
①;
②日销售额(百元)与日平均气温(摄氏度)成正相关;
③当日平均气温为摄氏度时,日销售额一定为百元.
其中正确说法的序号是 .
【答案】①②
【分析】由计算后可判断①,由统计表可判断②,由线性回归方程的概念可判断③,即可得解.
【详解】由统计表可得,,
则,故①正确;
由统计表可得日销售额(百元)与日平均气温(摄氏度)成正相关,故②正确;
由线性回归方程的概念可得当日平均气温为摄氏度时,日销售额的预计值为,故③错误.
故答案为:①②.
【点睛】本题考查了线性相关关系及回归直线方程的应用,属于基础题.
13.(2021·江西南昌·一模)2020年,全球展开了某疫苗研发竞赛,我为处于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的10000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取2500人,分成5组,各组感染人数如下:
并求得与的回归方程为,同期,在人数为10000的条件下,以拟合结果估算未注射疫苗的人群中感染人数,记为;注射疫苗后仍被感染的人数记为,则估计该疫苗的有效率为 . (疫苗的有效率为;参考数据:;结果保留3位有效数字)
【答案】
【分析】先求出线性回归方程中的值,从而可求,再根据题设中的计算方法可求疫苗的有效率.
【详解】由题设表格中的数据可得,故,
故,而,
故疫苗有效率为,
故答案为:.
14.(2021·福建漳州·三模)根据下面的数据:
求得关于的回归直线方程为,则这组数据相对于所求的回归直线方程的4个残差的方差为 .(注:残差是指实际观察值与估计值之间的差.)
【答案】3.2
【分析】把x的各个值代入回归直线方程,求出y的估计值,再计算出对应的残差,最后求出它们的方差得解.
【详解】把x=1,2,3,4依次代入回归直线方程为,所得估计值依次为:,,
对应的残差依次为:0.8,-2.4,2.4,-0.8,它们的平均数为0,
所以4个残差的方差为.
故答案为:3.2
四、解答题
15.(2023·广西·模拟预测)学习了《高中数学必修》的内容后,高二年级某学生认为:考试成绩与考试次数存在相关关系.于是他收集了自己进入高二以后的前5次考试成绩,列表如下:
经过进一步研究,他发现:考试成绩与考试的次数具有线性相关关系.
(1)求关于的线性回归方程;
(2)判断变量与之间是正相关还是负相关(只写出结论即可);
(3)按计划,高二年级两学期共有次考试,请你预测该同学高二最后一次考试的成绩(四舍五入,结果保留整数).
附:回归直线的斜率和截距的最小二乘法估计公式分别为:
,
【答案】(1)
(2)与之间是正相关
(3)分
【分析】(1)使用最小二乘法估计公式进行计算即可;
(2)由线性回归直线方程的斜率进行判断即可;
(3)由线性回归直线方程进行预测即可.
【详解】(1)根据已知可得,,
∴,
,
∴,,
∴关于的线性回归方程为.
(2)∵关于的线性回归方程为,,
∴变量与之间是正相关.
(3)由第(1)问所得关于的线性回归方程为,
当时,,
∴该同学高二最后一次考试的成绩大约为134分.
16.(2023·四川成都·模拟预测)从某居民区随机抽取10个家庭,获得第i个家庭的月收入(单位:千元)与月储蓄(单位:千元)的数据资料,计算得,,,.
(1)求家庭的月储蓄对月收入的线性回归方程;
(2)判断变量与之间是正相关还是负相关,并利用(1)中的回归方程,分析2021年该地区居民月收入与月储蓄之间的变化情况,并预测当该居民区某家庭月收入为7千元,该家庭的月储蓄额.附:线性回归方程系数公式.
中,,,其中,为样本平均值.
【答案】(1)=0.3x-0.4
(2)正相关,分析见解析,1.7(千元)
【分析】(1)由题意得到n=10,求得,进而求得,写出回归方程;.
(2)由判断变量与之间是正相关,将x=7代入回归方程求解.
【详解】(1)由题意知
n=10,.
则.
所以所求回归方程为=0.3x-0.4.
(2)因为,
故x与y之间是正相关, 2021年该地区居民月收入随月储蓄的增加而增加.
将x=7代入回归方程可以预测该家庭的月储蓄为=0.3×7-0.4=1.7(千元)
17.(2024·全国·模拟预测)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司Neuralink正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中.
(1)根据残差图,判断应选择哪个模型;(无需说明理由)
(2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据,其经验回归直线的斜率和截距的最小二乘估计分别为
【答案】(1)选择模型②
(2),10人
【分析】(1)根据残差图分析判断;
(2)令与可用线性回归来拟合,有,然后根据公式结合已知的数据求出,从而可求出关于的经验回归方程,进而可求出关于的经验回归方程,再由可求出研发人员增量.
【详解】(1)选择模型②,理由如下:
由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,
所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,所以模型②比较合适.
(2)根据模型②,令与可用线性回归来拟合,有.
则,所以
则关于的经验回归方程为,所以关于的经验回归方程为.
由题意,,解得,又为整数,所以.
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
18.(2022·吉林·模拟预测)2015年7月31日,在吉隆坡举行的国际奥委会第128次全会上,北京获得2022年冬奥会举办权.在申冬奥过程中,中国正式向国际社会作出“带动三亿人参与冰雪运动”的庄严承诺.这一承诺,既是我国为国际奥林匹克运动做出重大贡献的大国担当展现,也是根据我国经济水平和全民健身需求做出的群众性运动的战略部署.从北京冬奥会申办成功到2021年10月,全国参与冰雪运动人数累计达到3.46亿,实现了“带动三亿人参与冰雪运动”的目标,这是北京冬奥会给予全球冬季体育运动和奥林匹克运动的最为重要的遗产,可以说是2022年北京冬奥会的第一块金牌.“冬奥热”带动“冰雪热”,也带动了冰雪经济,以冰雪运动为主要内容的冰雪旅游近年来发展迅速,2016至2022六个冰雪季的旅游人次y(单位亿)的数据如下表:
(1)求y与t的相关系数(精确到0.01),并回答y与t的线性相关关系的强弱;
(2)因受疫情影响,现将2019—2020年度的异常数据剔除,用剩下的5个年度数据(年度代号不变),求y关于t的线性回归方程(系数精确到0.01),并推测没有疫情情况下,2019—2020年度冰雪旅游人次的估计值.
附注:参考数据:,,,,.参考公式:相关系数,回归直线的斜率和截距的最小二乘估计公式分别为:,
【答案】(1),线性相关性不强
(2),亿
【分析】(1)由已知数据结合相关系数公式求出相关系数,再进行判断即可,
(2)由已知数据结合回归方程公式计算y关于t的线性回归方程,再将代入回归方程可求出2019—2020年度冰雪旅游人次的估计值
【详解】(1)由参考数据计算得
所以,
因为,所以线性相关性不强.
(2)五组数据的均值分别为,
,
关于的线性回归方程为
令,则,
因此,在没有疫情情况下,2019-2020年度冰雪旅游人次的估计值为亿.
19.(2020·湖北武汉·模拟预测)消费者信心指数是反映消费者信心强弱的指标;它是预测经济走势和消费趋向的一个先行指标,是监测经济周期变化的重要依据.
消费者信心指数值介于0和200之间.指数超过100时,表明消费者信心处于强信心区;指数等于100时,表示消费者信心处于强弱临界点;指数小于100时,表示消费者信心处于弱信心区.
我国某城市从2016年到2019年各季度的消费者信心指数如下表1:
将2016年至2019年该城市各季度的消费者信心指数整理得到如下频数分布表2:
记2016年至2019年年份序号为,该城市各年消费者信心指数的年均值(四舍五入取整)为y,x与y的关系如下表3:
(1)求从2016年至2019年该城市各季度消费者信心指数中任取2个,至少有一个不小于115的概率;
(2)在表2中各区间内的消费者信心指数用其所在区间的中点值代替,设任取一个消费者信心指数X为随机变量,求X的分布列和数学期望(保留2位小数);
(3)根据表3的数据建立y关于x的线性回归方程,并根据你建立的回归方程,预报2020年该城市消费者信心指数的年平均值.
参考数据和公式:,,;;;.
【答案】(1); (2)分布列见解析,;
(3),预报2020年该城市消费者信心指数的年平均值.
【分析】(1)根据频数分布表2,得到频数共有个,其中不小于115共有5个,结合古典概型的概率计算公式,即可求解;
(2)由表2,得出,求得相应的概率,得出分布列,利用公式求得期望;
(3)由表中的数据,利用公式,求得,进而求得,求得回归直线方程,进而作出预测.
【详解】(1)根据2016年至2019年该城市各季度的消费者信心指数的频数分布表2,
可得频数共有个,其中不小于115共有5个,
所以从2016年至2019年该城市各季度消费者信心指数中任取2个,
至少有一个不小于115的概率为.
(2)由表2中各区间内的消费者信心指数用其所在区间的中点值代替,则任取一个消费者信心指数为随机变量,可得随机变量的可能取值为,
其中,
,
所以随机变量的分布列为:
可得随机变量的期望为.
(3)由题意知,,
又由
,
所以,
又由,
所以变量y关于x的线性回归方程,
当时,,
即预报2020年该城市消费者信心指数的年平均值.
【点睛】本题主要考查了古典概型及概率的计算,以及离散型随机变量的分布列与期望的求解,以及回归直线方程的求解及应用,其中解答中认真审题,结合表格中的数据,结合公式准确计算是解答的关键,着重考查运算能力,属于中档试题.
【拓展冲刺练】
一、单选题
1.(2024·全国·模拟预测)2023年第19届亚运会在杭州举行,亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月销量,如表所示:若y与x线性相关,且线性回归方程为,则下列说法不正确的是( )
A.由题中数据可知,变量y与x负相关
B.当时,残差为0.2
C.可以预测当时销量约为2.1万只
D.线性回归方程中
【答案】B
【分析】对于选项A,利用表中数据变化情况或看回归方程的正负均可求解;对于选项B,利用样本中心点求出线性回归方程,再利用回归方程即可求出预测值,进而可求出残差;对于选项C,利用回归方程即可求出预测值;对于选项D,利用回归方程一定过样本中心点即可求解.
【详解】对于选项A,从数据看,随的增大而减小,所以变量与负相关,故A正确;
对于选项B,由表中数据知,,
所以样本中心点为,将样本中心点代入中得,
所以线性回归方程为,所以,残差,故B错误;
对于选项C,当时销量约为(万只),故C正确.
对于选项D,由B选项可知,故D正确.
故选:B.
2.(2022·河南·模拟预测)雨滴在下落过程中,受到的阻力随速度增大而增大,当速度增大到一定程度时,阻力与重力达到平衡,雨滴开始匀速下落,此时雨滴的下落速度称为“末速度”.某学习小组通过实验,得到了雨滴的末速度v(单位:m/s)与直径d(单位:mm)的一组数据,并绘制成如图所示的散点图,则在该实验条件下,下面四个回归方程类型中最适宜作为雨滴的末速度v与直径d的回归方程类型的是( ).
A.B.
C.D.
【答案】A
【分析】根据散点图的分布即可选择合适的函数模型.
【详解】由一次函数,二次函数及指数函数的性质可知,BCD不符合散点的变化趋势,
由散点图分布可知,散点图分布在一个幂函数的图像附近,
因此,最适宜作为雨滴的末速度v与直径d的回归方程类型的是.
故选:A.
3.(2024·四川成都·三模)地球生命来自外星吗?一篇发布在《生物学快讯》上的文章《基因库的增长是生命起源和演化的时钟》可能给出了一种答案.该论文的作者根据生物功能性基因组里的碱基排列数的大小定义了基因库的复杂度y(单位:1),通过研究各个年代的古代生物化石里基因库的复杂度,提出了一个有趣的观点:生物基因库的复杂度近似是随时间呈指数增长的,只要知道生物基因库的复杂度就可以推测该生物体出现的年代.如图是该论文作者根据生物化石(原核生物,真核生物,蠕虫,鱼类,哺乳动物)中的基因复杂度的常用对数与时间(单位:十亿年)的散点图及回归拟合情况(其中回归方程为:,相关指数).根据题干与图中的信息,下列说法错误的是( )
A.根据信息生物基因库的复杂度近似是随时间呈指数增长的情况,不同于作者采取取常用对数的做法,我们也可采用函数模型来拟合
B.根据回归方程可以得到,每过10亿年,生物基因库的复杂度一定增加到原来的倍
C.虽然拟合相关指数为0.97,但是样本点只有5个,不能很好地阐释其统计规律,所以增加可靠的样本点可以更好地完善回归方程
D.根据物理界主流观点:地球的形成始于45亿年前,及拟合信息:地球在诞生之初时生物的复杂度大约为,可以推断地球生命可能并非诞生于地球
【答案】B
【分析】利用指数式与对数式互化判断A;利用回归方程的意义判断B;利用相关指数的意义判断C;求出地球在诞生之初时生物的复杂度,结合描述判断D.
【详解】对于A,由,得,
令,满足,A正确;
对于B,观察散点图,所给5个点不全在回归直线上,回归拟合是近似的,
不能说每过10亿年,生物基因库的复杂度一定增加到原来的倍,B错误;
对于C,数据越多,拟合的准确性越高,因此增加可靠的样本点可以更好地完善回归方程,C正确;
对于D,当时,,根据回归方程可知,
当时,,即地球在诞生之初时生物的复杂度大约为,
可以推断地球生命可能并非诞生于地球,D正确.
故选:B
4.(2020·江西·模拟预测)为检测某药品服用后的多长时间开始有药物反应,现随机抽取服用了该药品的1000人,其服用后开始有药物反应的时间(分钟)与人数的数据绘成的频率分布直方图如图所示.若将直方图中分组区间的中点值设为解释变量(分钟),这个区间上的人数为(人),易见两变量,线性相关,那么一定在其线性回归直线上的点为( )
A.B.C.D.
【答案】C
【分析】写出四个区间中点的横纵坐标,从而可求出,,进而可选出正确答案.
【详解】解:由频率分布直方图可知, 第一个区间中点坐标,,
第二个区间中点坐标,,
第三个区间中点坐标,,
第四个区间中点坐标,,
则,,
则一定在其线性回归直线上的点为.
故选:C.
【点睛】本题考查了频率分布直方图,考查了线性回归直线方程的性质.本题的关键是利用线性回归直线方程的性质,即点一定在方程上.
二、多选题
5.(2024·湖南衡阳·模拟预测)为了研发某种流感疫苗,某研究团队收集了10组抗体药物的摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄入量为x(单位:mg),体内抗体数量为y(单位:AU/mL).根据散点图,可以得到回归直线方程为:.下列说法正确的是( )
A.回归直线方程表示体内抗体数量与抗体药物摄入量之间的线性相关关系
B.回归直线方程表示体内抗体数量与抗体药物摄入量之间的函数关系
C.回归直线方程可以精确反映体内抗体数量与抗体药物摄入量的变化趋势
D.回归直线方程可以用来预测摄入抗体药物后体内抗体数量的变化
【答案】AD
【分析】根据回归方程的意义判断即可.
【详解】回归直线方程只能表示体内抗体数量与抗体药物摄入量之间的线性相关关系,不是函数关系,A正确,B错误,
回归直线方程不能精确反映体内抗体数量与抗体药物摄入量的变化趋势,但可以用来预测摄入抗体药物后体内抗体数量的变化,C错误,D正确.
故选:AD.
6.(2024·湖北武汉·模拟预测)某科技公司统计了一款App最近5个月的下载量如表所示,若与线性相关,且线性回归方程为,则( )
A.与负相关B.
C.预测第6个月的下载量是2.1万次D.残差绝对值的最大值为0.2
【答案】ACD
【分析】对于A:根据回归方程分析判断;对于B:根据线性回归方程必过样本中心点,运算求解;对于C:根据回归方程进而预测;对于D:根据题意结合残差的定义分析判断.
【详解】对于A:因为,所以变量与负相关,故正确;
对于B:,
,
,则,
解得,故错误;
对于C:当时,,
故可以预测第6个月的下载量约为2.1万次,故正确;
对于D:当时,,,
当时,,,
当时,,,
当时,,,
当时,,,
故残差绝对值的最大值为0.2,故正确.
故选:ACD.
三、填空题
7.(2024·山西吕梁·一模)某市2018年至2022年新能源汽车年销量(单位:百台)与年份代号的数据如下表:
若根据表中的数据用最小二乘法求得关于的回归直线方程为,据此计算相应于样本点的残差为 .
【答案】/
【分析】首先计算和,并代入回归直线方程求,并求的估计值,根据残差的定义,即可求解.
【详解】依题意,,,
代入回归直线,解得
所以回归直线为
当时,,因此残差为,
故答案为:
8.(2022·安徽蚌埠·模拟预测)已知变量,的关系可以用模型拟合,设,其变换后得到一组数据如下:
由上表可得线性回归方程,则 .
【答案】/
【分析】根据表格数据求,代入回归方程求参数a,结合得,由方程的形式可知,即可求c.
【详解】由表格数据知:.
由,得,则.
∴,
由,得,
∴,即.
故答案为:.
四、解答题
9.(2024·陕西安康·模拟预测)芯片作为集成电路的载体,广泛应用在手机、军工、航天等多个领域,是能够影响一个国家现代工业的重要因素. 根据市场调研与统计,某公司自2018年起的五年时间里在芯片技术上的研发投入(单位:亿元)与收益(单位:亿元)的数据统计如下:
(1)根据表格中的数据,在给出的坐标系中画出散点图,并判断与是否线性相关;
(2)若与线性相关,求出关于的回归方程,并预测2023年底该公司的收益.
参考公式:回归方程中斜率和截距的最小二乘法估计公式分别为,;
参考数据:,,,,.
【答案】(1)答案见解析
(2)亿元
【分析】(1)画出散点图,观察与具有线性相关性;
(2)由最小二乘法求解即可,代入回归方程,进行预测.
【详解】(1)
根据散点图,可判定与具有线性相关性;
(2)由题图中数据得,
所以,
,
所以y关于x的回归直线方程为,
当时,(亿元),
2023年底该公司的收益的预测值为亿元.
10.(2023·四川·模拟预测)下表是某工厂记录的一个反应器投料后,连续8天每天某种气体的生成量(L):
为了分析该气体生成量变化趋势、工厂分别用两种模型:①,②对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下:
注:残差:经计算得,,,,其中,
(1)根据残差图、比较模型①,模型②的拟合效果,应该选择哪个模型?并简要说明理由;
(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);
(3)若在第8天要根据(2)问求出的回归方程来对该气体生成量做出预测,那么估计第9天该气体生成量是多少?(精确到个位)
附:回归直线的斜率和截距的最小二乘估计公式分别为:,.
【答案】(1)选择模型①,理由见解析;
(2);
(3)157L.
【分析】(1)根据残差意义分析即可;
(2)求出,结合已知数据代入公式计算即可;
(3)将代入回归方程即可得到预测值.
【详解】(1)选择模型①,理由如下:
根据残差图可以看出:模型①的残差点分布在x轴附近,模型②的残差点距离x轴较远,
所以,模型②的残差明显比模型①大,所以模型①的拟合效果相对较好;
(2)由(1)可知y关于x的回归方程为,
令,则,
由所给的数据可得,
,
,
则,
所以y关于x的回归方程为.
(3)将代入回归方程,可得,
所以预测该气体第9天的生成量约为157L.
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
当r>0时,表明两个变量正相关;当r
相关试卷
这是一份考点61列联表与独立性检验-2025年高考数学大一轮复习核心题型讲练 易错重难点专项突破(新高考版),文件包含考点61列联表与独立性检验3种核心题型基础保分练综合提升练拓展冲刺练-2025年高考数学大一轮复习核心题型讲练易错重难点专项突破新高考版原卷版docx、考点61列联表与独立性检验3种核心题型基础保分练综合提升练拓展冲刺练-2025年高考数学大一轮复习核心题型讲练易错重难点专项突破新高考版解析版docx等2份试卷配套教学资源,其中试卷共86页, 欢迎下载使用。
这是一份考点59用样本估计总体-2025年高考数学大一轮复习核心题型讲练 易错重难点专项突破(新高考版),文件包含考点59用样本估计总体3种核心题型基础保分练综合提升练拓展冲刺练-2025年高考数学大一轮复习核心题型讲练易错重难点专项突破新高考版原卷版docx、考点59用样本估计总体3种核心题型基础保分练综合提升练拓展冲刺练-2025年高考数学大一轮复习核心题型讲练易错重难点专项突破新高考版解析版docx等2份试卷配套教学资源,其中试卷共59页, 欢迎下载使用。
这是一份考点58随机抽样、统计图表-2025年高考数学大一轮复习核心题型讲练 易错重难点专项突破(新高考版),文件包含考点58随机抽样统计图表3种核心题型基础保分练综合提升练拓展冲刺练-2025年高考数学大一轮复习核心题型讲练易错重难点专项突破新高考版原卷版docx、考点58随机抽样统计图表3种核心题型基础保分练综合提升练拓展冲刺练-2025年高考数学大一轮复习核心题型讲练易错重难点专项突破新高考版解析版docx等2份试卷配套教学资源,其中试卷共59页, 欢迎下载使用。
![文档详情页底部广告位](http://img.51jiaoxi.com/images/257d7bc79dd514896def3dc0b2e3f598.jpg)