2023年高考数学大题专练(新高考专用) 专题20 回归分析 Word版含解析
展开
这是一份2023年高考数学大题专练(新高考专用) 专题20 回归分析 Word版含解析,文件包含2023年高考数学大题专练新高考专用专题20回归分析Word版含解析docx、2023年高考数学大题专练新高考专用专题20回归分析Word版无答案docx等2份试卷配套教学资源,其中试卷共47页, 欢迎下载使用。
专题20 回归分析
1.(2022·全国·高考真题(文))某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【答案】(1);
(2)
(3)
【解析】
【分析】
(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)代入题给相关系数公式去计算即可求得样本的相关系数值;
(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.
(1)
样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)
则
(3)
设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为
2.(2022·山东聊城·三模)为迎接年北京冬奥会,践行“更快更高更强”的奥林匹克格言,落实全民健身国家战略.某校高二年级发起了“发扬奥林匹克精神,锻炼健康体魄”的年度主题活动,经过一段时间后,学生的身体素质明显提高.
(1)为了解活动效果,该年级对开展活动以来近个月体重超重的人数进行了调查,调查结果统计如上图,根据上面的散点图可以认为散点集中在曲线的附近,请根据下表中的数据求出该年级体重超重人数与月份之间的经验回归方程(系数和的最终结果精确到),并预测从开展活动以来第几个月份开始该年级体重超标的人数降至人以下?
月份
体重超标人数
(2)在某次足球训练课上,球首先由队员控制,此后足球仅在、、三名队员之间传递,假设每名队员控球时传给其他队员的概率如下表所示:
控球队员
接球队员
概率
若传球次,记队员控球次数为,求的分布列及均值.
附:经验回归方程:中,,;
参考数据:,,,.
【答案】(1),第十个月
(2)分布列见解析,
【解析】
【分析】
(1)令,求出、的值,将参考数据代入最小二乘法公式,求出、的值,即可得出关于的经验回归方程,然后解不等式,即可得解;
(2)分析可知随机变量的可能取值有、、,可得出随机变量的分布列,进而可求得.
(1)
解:由得.
由题意得,,
所以,
.
所以,即关于的经验回归方程为.
令,所以,解得.
由于,所以,
所以从第十个月开始,该年级体重超标的人数降至人以下.
(2)
解:由题意得的可能取值为、、,
,,
,
所以的分布列为
所以,.
3.(2022·辽宁·沈阳二中模拟预测)某公司为了确定下一年度投入某种产品的宣传费用,需了解年宣传费x(单位:万元)对年销量y(单位:吨)和年利润(单位:万元)的影响,对近年宜传费和年销售量的数据做了初步统计,得到如下数据:
年份
年宣传费(万元)
年销售量(吨)
经电脑模拟,发现年宣传费(万元)与年销售量(吨)之间近似满足关系式,即,对上述数据作了初步处理,得到相关的值如下表:
(1)从表中所给出的年年销售量数据中任选年做年销售量的调研,求所选数据中至多有一年年销售量低于吨的概率;
(2)根据所给数据,求关于的回归方程.
附:对于一组数据、、,其回归直线中的斜率和截距的最小二乘估计分别为,.
【答案】(1)
(2)
【解析】
【分析】
(1)列举出所有的基本事件,并确定所求事件所包含的基本事件,利用古典概型的概率公式可求得所求事件的概率;
(2)令,,则,计算出、的值,将参考数据代入最小二乘法公式,计算出、的值,即可得出关于的回归方程.
(1)
解:从表中所给出的年年销售量数据中任选年做年销售量的调研,
所有的基本事件有:、、、、、
、、、、、
、、、、,共种,
其中,事件“所选数据中至多有一年年销售量低于吨”所包含的基本事件有:
、、、、、、
、、、、、、
、,共种,
故所求概率为.
(2)
解:令,,则,
则,,,
,
所以,,,,
故关于的回归方程为.
4.(2022·全国·模拟预测)在某生态系统中,有甲、乙两个种群,两种群之间为竞争关系.设t时刻甲、乙种群的数量分别为,(起始时刻为).由数学家Lotka和Volterra提出的模型是函数,满足方程,,其中a,b,c,d均为非负实数.
(1)下图为没有乙种群时,一段时间内甲种群数量与时间的关系折线图.为预测甲种群的数量变化趋势,研究人员提出了两种可能的数学模型:①;②,其中m,n均为大于1的正数.根据折线图判断,应选用哪种模型进行预测,并说明理由.
(2)设,.
①函数的单调性;
②根据①中的结论说明:在绝大多数情况下,经过充分长的时间后,或者甲种群灭绝,或者乙种群灭绝.
注:在题设条件下,各种群数量均有上限值.
【答案】(1)应选用模型②预测甲种群数量的变化趋势;理由见解析
(2)①为常函数;②答案见解析
【解析】
【分析】
(1)根据图像特点即可判断答案
(2)第一小问可先求出,根据值的正负情况判断的单调性;第二小问由(i)知 为常数,,通过对种群初始数量和时刻数量的分类讨论来确定种群的变化趋势,从而得出结论
(1)
由折线图知,甲种群数量的增长速度随着时间的推移而加快.而增长速度大致对应种群数量对时间的导数.
如选用模型①,,是关于时间的减函数,不符合折线图;
如选用模型②,,是关于时间的增函数,符合折线图.
所以应选用模型②预测甲种群数量的变化趋势
(2)
由题设知,.
(i),.
消去条件中的得,所以.
所以为常函数.
(ii)由(i),,.
由于各种群数量均有上限值,不妨设甲乙种群数量的上限值分别为,.
①若,.
则当时,,此时可以近似认为甲种群灭绝;
②若,.
则当时,,此时可以近似认为乙种群灭绝;
③若,,甲乙种群数量之比保持恒定,可能不出现灭绝的情况.
综上所述,对所有的情况,经过充分长的时间后,或者甲种群灭绝,或者乙种群灭绝
5.(2022·山东烟台·三模)当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身心健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:
关卡
1
2
3
4
5
6
平均过关时间(单位:秒)
50
78
124
121
137
352
计算得到一些统计量的值为:,其中,.
(1)若用模型拟合与的关系,根据提供的数据,求出与的经验回归方程;
(2)制定游戏规则如下:玩家在每关的平均过关时间内通过可获得积分2分并进入下一关,否则获得分且该轮游戏结束.甲通过练习,前3关都能在平均时间内过关,后面3关能在平均时间内通过的概率均为,若甲玩一轮此款益脑游戏,求“甲获得的积分”的分布列和数学期望.
参考公式:对于一组数据(),其经验回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)
(2)分布列答案见解析,数学期望:
【解析】
【分析】
(1)对两边取对数可得,即,再根据最小二乘法求出,,即可得解;
(2)依题意的所有可能取值为5,7,9,12,求出所对应的概率,即可得到分布列,从而求出数学期望;
(1)
解:因为两边取对数可得,即,
令,所以,由,
,.
所以,
又,即,
所以,所以.
所以关于的经验回归方程为.
(2)
解:由题知,甲获得的积分的所有可能取值为5,7,9,12,
所以,,
,,
所以的分布列为
5
7
9
12
所以
6.(2022·辽宁实验中学模拟预测)学生的学习除了在课堂上认真听讲,还有一个重要环节就是课后的“自主学习”,包括预习,复习,归纳整理等等,现在人们普遍认为课后花的时间越多越好,某研究机构抽查了部分高中学生,对学生花在课后的学习时间(设为x分钟)和他们的数学平均成绩(设为y)做出了以下统计数据,请根据表格回答问题:
x
60
70
80
90
100
110
120
130
y
92
109
114
120
119
121
121
122
(1)请根据所给数据绘制散点图,并且从以下三个函数从①;②:③三个函数中选择一个作为学习时间x和平均y的回归类型,判断哪个类型更加符合,不必说明理由;
(2)根据(1)中选择的回归类型,求出y与x的回归方程;
(3)请根据此回归方程,阐述你对学习时长和成绩之间关系的看法.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为.
参考数据:
【答案】(1)散点图见解析,最合适
(2)
(3)答案见解析
【解析】
【分析】
(1)根据所给数据可得散点图,根据散点图可得函数模型;
(2)由(1)中模型可得,设,,则,利用公式可求后者,从而得到前者;
(3)根据回归方程可得相应的看法.
(1)
散点图如图所示:
由图象可知最合适.
(2)
对两边取以为底的对数可得,
设,,则,
,
,,
故即,
.
(3)此回归方程为关于时间的增函数,说明随着学习时间的增加,学习成绩是提高的,但是函数的增速先快后慢,说明如果原来成绩较低,通过增加学习时间可以有效提高成绩,但是当成绩提高到120分左右时,想要通过延长学习时间来提高学习成绩就比较困难了,需要想别的办法.
7.(2022·甘肃·高台县第一中学模拟预测(文))应对严重威胁人类生存与发展的气候变化,其关键在于“控碳”,其必由之路是先实现“碳达峰”,而后实现“碳中和”,2020年第七十五届联合田大会上,我国向世界郑重承诺:争在2030年前实现“碳达峰”,努力争取在2060年前实现“碳中和”,近年来,国家积极发展新能源汽车,某品牌的新能源汽车某区域销售在2021年11月至2022年3月这5个月的销售量(单位:百辆)的数据如下表:
月份
2021年11月
2021年12月
2022年1月
2022年2月
2022年3月
月份代码:
1
2
3
4
5
销售量(单位:百辆)
45
56
64
68
72
(1)依据表中的统计数据,请判断月份代码与该品牌的新能源汽车区域销售量(单位;百辆)是否具有较高的线性相关程度?(参考:若,则线性相关程度一般,若,则线性相关程度较高,计算时精确度为0.01.
(2)求销售量与月份代码之间的线性回归方程,并预测2022年4月份该区域的销售量(单位:百辆)
参考数据:,,,参考公式:相关系数,
线性回归方程中,,,其中,为样本平均值.
【答案】(1)月份代码与销售量(单位:百辆)具有较高的线性相关程度,可用线性回归模型拟合销售量与月份代码之间的关系.
(2),预测2022年4月该品牌的新能源汽车该区域的销售量为 百辆
【解析】
【分析】
(1)根据所给数据算出相关系数即可;(2)根据所给数据和公式算出答案即可.
(1)
由表中数据可得 ,
所以 ,又, ,
所以.
所以月份代码与销售量(单位: 百辆)具有较高的线性相关程度,可用线性回归模型拟合销售量与月份代码之间的关系.
(2)
由表中数据可得 ,
则,所以 ,
令,可得 (百辆),
故可预测2022年4月该品牌的新能源汽车该区域的销售量为百辆.
8.(2022·贵州·贵阳一中模拟预测(文))“十四五”规划纲要提出,全面推动长江经济带发展,协同推动生态环境保护和经济发展长江水资源约占全国总量的36%,长江流域河湖、水库、湿地面积约占全国的20%,珍稀濒危植物占全国的39.7%,淡水鱼类占全国的33%.长江经济带在我国生态文明建设中占据重要位置.长江流域某地区经过治理,生态系统得到很大改善,水生动物数量有所增加.为调查该地区某种水生动物的数量,将其分成面积相近的100个水域,从这些水域中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据其中和分别表示第i个样区的水草覆盖面积(单位:公顷)和这种水生动物的数量,并计算得,
(1)求该地区这种水生动物数量的估计值(这种水生动物数量的估计值等于样区这种水生动物数量的平均数乘以地块数);
(2)求样本的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间水草覆盖面积差异很大.为提高样本的代表性以获得该地区这种水生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数
【答案】(1)
(2)
(3)采用分层抽样的方法,理由见解析
【解析】
【分析】
(1)根据该地区这种水生动物数量的估计值的计算方法求解即可;
(2)根据相关系数的公式求解即可;
(3)根据(2)中的结论各样区的这种水生动物的数量与水草覆盖面积有很强的正相关性考虑即可
(1)
样区水生动物平均数为,
地块数为100,该地区这种水生动物的估计值为.
(2)
样本的相关系数为
(3)
由(2)知各样区的这种水生动物的数量与水草覆盖面积有很强的正相关性,由于各地块间水草覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,所以采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,从而可以获得该地区这种水生动物数量更准确的估计.
9.(2022·广西·南宁三中二模(文))随着科技进步,近来年,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用车的年销售量数据:
年份
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
新能源乘用车年销售y(万辆)
50
78
126
121
137
352
(1)根据表中数据,求出y关于x的线性回归方程;(结果保留整数)
(2)若用模型拟合y与x的关系,可得回归方程为,经计算该模型和第(1)问中模型的(为相关指数)分别为0.87和0.71,请分别利用这两个模型,求2022年我国新能源乘用车的年销售量的预测值;
(3)你认为(2)中用哪个模型得到的预测值更可靠?只需要判断,不用说明理由.
参考数据:设,其中.
144
4.78
841
5.70
37.71
380
528
参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1);
(2)(1)中模型预测值是312万辆,模型的预测值是380万辆;
(3)模型更可靠.
【解析】
【分析】
(1)根据表中数据得出,,,根据最小二乘法得出回归直线方程;
(2)根据回归方程代入的值即得预测值;
(3)由相关指数越接近于1,两个变量间的关系越强,相应的拟合度越好可得.
(1)
,,,
,
所以,,
所以关于的线性回归方程为;
(2)
由(1)关于的线性回归方程为,
当时,2022年我国新能源乘用车的年销售量的预测值:(万辆),
对于回归方程,
当时,2022年我国新能源乘用车的年销售量的预测值:(万辆);
(3)
依题意模型和第(1)问中模型的(为相关指数)分别为0.87和0.71,由于相关指数越接近于1,两个变量间的关系越强,相应的拟合度越好,
所以模型得到的预测值更可靠.
10.(2022·山东临沂·三模)在疫情防控常态化的背景下,山东省政府各部门在保安全,保稳定的前提下有序恢复生产,生活和工作秩序,五一期间,文旅部门在落实防控举措的同时,推出了多款套票文旅产品,得到消费者的积极回应.下面是文旅部门在某地区推出六款不同价位的旅游套票,每款的套票价格x(单位:元)与购买人数y(单位:万人)的数据如下表:
旅游类别
城市展馆科技游
乡村特色游
齐鲁红色游
登山套票
游园套票
观海套票
套票价格x(元)
39
49
58
67
77
86
购买数量y(万人)
16.7
18.7
20.6
22.5
24.1
25.6
在分析数据、描点绘图中,发现散点集中在一条直线附近,其中
(1)根据所给数据,求y关于x的回归方程;
(2)按照文旅部门的指标测定,当购买数量y与套票价格x的比在区间上时,该套票受消费者的欢迎程度更高,可以被认定为“热门套票”,现有三位同学从以上六款旅游套票中,购买不同的三款各自旅游.记三人中购买“热门套票”的人数为X,求随机变量X的分布列和期望.
附:①可能用到的数据;.
②对于一组数据,其回归直线的斜率和截距的最小二乘估计值分别为
【答案】(1)
(2)分布列见解析,
【解析】
【分析】
(1)设回归直线方程为,由最小二乘法得出变量关于的回归方程,再由得出y关于x的回归方程;
(2)由求出,得出乡村特色游,齐鲁红色游,登山套票,游园套票为“热门套票”,再结合超几何分布求出随机变量X的分布列和期望.
(1)
散点集中在一条直线附近,设回归直线方程为
由,则
变量关于的回归方程为
综上,y关于x的回归方程为
(2)
由,解得,
乡村特色游,齐鲁红色游,登山套票,游园套票为“热门套票”
则三人中购买“热门套票”的人数X服从超几何分布,的可能取值为
的分布列为:
11.(2022·湖南师大附中三模)魔方,又叫鲁比克方块,通常意义下的魔方,即指三阶魔方,为的正方体结构,由26个色块组成.魔方竞速是一项手部极限运动,常规竞速玩法是将魔方打乱,然后在最短的时间内复原.
(1)某魔方爱好者进行一段时间的魔方还原训练,每天魔方还原的平均速度y(秒)与训练天数x(天)有关,经统计得到如下数据:
x(天)
1
2
3
4
5
6
7
y(秒)
99
99
45
32
30
24
21
现用作为回归方程类型,请利用表中数据,求出该回归方程,并预测该魔方爱好者经过长期训练后最终每天魔方还原的平均速度y约为多少秒(精确到1)?
参考数据:(其中)
184.5
0.37
0.55
参考公式:
对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.
(2)现有一个复原好的三阶魔方,白面朝上,现规定只可以扭动最外层的六个表面.某人按规定将魔方随机扭动两次,每次均顺时针转动,记顶面白色色块的个数为X,求X的分布列及数学期望E(X).
【答案】(1),13秒
(2)分布列见解析,
【解析】
【分析】
(1)根据回归方程计算公式求得回归方程,进而求得预测值.
(2)结合古典概型的概率计算公式,求得分布列并求得数学期望.
(1)
由题意,根据表格中的数据,
可得,
可得,
所以,
因此y关于x的回归方程为,当时,,
所以魔方爱好者经过长期训练后最终每天还原的平均速度y约为13秒.
(2)
由题可得随机变量X的取值为3,,,9,
,
,
,
.
所以X的分布列为:
X
3
4
6
9
P
所以.
12.(2022·宁夏·石嘴山市第三中学模拟预测(文))新型冠状病毒肺炎COVID-19疫情发生以来,在世界各地逐渐蔓延.在全国人民的共同努力和各级部门的严格管控下,我国的疫情已经得到了很好的控制.然而,小王同学发现,每个国家在疫情发生的初期,由于认识不足和措施不到位,感染人数都会出现快速的增长.下表是小王同学记录的某国连续8天每日新型冠状病毒感染确诊的累计人数.
日期代码x
1
2
3
4
5
6
7
8
累计确诊人数y .
4
8
16
31
51
71
97
122
为了分析该国累计感染人数的变化趋势,小王同学分别用两杆模型:①,②对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差):经过计算得,,,,其中,.
(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由;
(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);
(3)由于时差,该国截止第9天新型冠状病毒感染确诊的累计人数尚未公布.小王同学认为,如果防疫形势没有得到明显改善,在数据公布之前可以根据他在(2)问求出的回归方程来对感染人数做出预测,那么估计该地区第9天新型冠状病毒感染确诊的累计人数是多少?
附:回归直线的斜率和截距的最小二乘估计公式分别为:,.
【答案】(1)选择模型①,理由见解析
(2)
(3)157
【解析】
【分析】
(1)选择模型①.根据残差的意义直接判断;(2)套公式求出系数,即可得到y关于x的回归方程;(3)将代入,即可求得.
(1)
选择模型①.理由如下:根据残差图可以看出,模型①的估计值和真实值相对比较接近,模型②的残差相对较大一些,所以模型①的拟合效果相对较好
(2)
由(1),知y关于x的回归方程为,令,则.
由所给数据得:,
,.
,∴y关于x的回归方程为,
(3)将代入上式,得(人),
所以预测该地区第9天新型冠状病毒感染确诊的累计人数为157人.
13.(2022·河南开封·三模(文))根据统计,某蔬菜基地西红柿亩产量的增加量(百千克)与某种液体肥料每亩使用量(千克)之间对应数据的散点图,如图所示.
(1)请从相关系数(精确到)的角度分析,能否用线性回归模型拟合与的关系(若,则线性相关程度很强,可用线性回归模型拟合);
(2)建立关于的线性回归方程,并用其估计当该种液体肥料每亩使用量为千克时,该蔬菜基地西红柿亩产量的增加量约为多少百千克?
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,相关系数,参考数据:
【答案】(1)能,理由见解析;
(2)回归方程为,该蔬菜基地西红柿亩产量的增加量约为百千克.
【解析】
【分析】
(1)计算出、的值,将样本数据代入相关系数公式,可求得的值,结合题意可判断与的线性关系的强弱,即可得出结论;
(2)将样本数据代入最小二乘法公式,求出、的值,可得出线性回归直线方程,将代入回归直线方程,可得出结论.
(1)
解:由已知数据可得,,
所以,
,
,
相关系数.
因为,所以线性相关程度很强,可用线性回归模型拟合与的关系.
(2)
解:由于,,
所以关于的线性回归方程为.
当时,,所以西红柿亩产量的增加量约为百千克.
14.(2022·广东汕头·三模)目前,新冠病毒引起的疫情仍在全球肆虐,在党中央的正确领导下,全国人民团结一心,使我国疫情得到了有效的控制.其中,各大药物企业积极投身到新药的研发中.汕头某药企为评估一款新药的药效和安全性,组织一批志愿者进行临床用药实验,结果显示临床疗效评价指标A的数量y与连续用药天数x具有相关关系.刚开始用药时,指标A的数量y变化明显,随着天数增加,y的变化趋缓.根据志愿者的临床试验情况,得到了一组数据,,2,3,4,5,…,10,表示连续用药i天,表示相应的临床疗效评价指标A的数值.该药企为了进一步研究药物的临床效果,建立了y关于x的两个回归模型:
模型①:由最小二乘公式可求得y与x的线性回归方程:;
模型②:由图中样本点的分布,可以认为样本点集中在曲线:的附近,令,则有,,,.
(1)根据所给的统计量,求模型②中y关于x的回归方程;
(2)根据下列表格中的数据,说明哪个模型的预测值精度更高、更可靠.
(3)根据(2)中精确度更高的模型,预测用药一个月后,疗效评价指标相对于用药半个月的变化情况(一个月以30天计,结果保留两位小数).
回归模型
模型①
模型②
残差平方和
102.28
36.19
附:样本(,2,…,n)的最小二乘估计公式为,;相关指数,参考数据:.
【答案】(1)
(2)回归模型②刻画的拟合效果更好
(3)17.33
【解析】
【分析】
(1)直接由参考公式及参考数据直接计算即可;
(2)直接由参考数据比较两个模型的相关指数即可;
(3)直接将15和30代入模型②,再作差计算即可.
(1)由题意,知,,可得,,又由,则,所以,模型②中y关于x的回归方程;
(2)由表格中的数据,可得,即,所以模型①的小于模型②,说明回归模型②刻画的拟合效果更好;
(3)根据模型②,当连续用药30天后,,连续用药15天后,,∵,
∴用药一个月后,疗效评价指标相对于用药半个月提高17.33.
15.(2022·四川省内江市第六中学模拟预测(文))【阅读材料】
2022年4月16日9时56分,神州十三号载人飞船返回舱在东风着陆场成功着陆,航天员翟志刚、王亚平、叶光富身体状态良好,神州十三号载人飞行任务取得圆满成功,标志着空间站关键技术验证阶段任务圆满完成,中国空间站即将进入建造阶段.某公司负责生产的A型材料是神舟十三号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:
序号
1
2
3
4
5
6
7
8
9
10
11
12
x
2
3
4
6
8
10
13
21
22
23
24
25
y
15
22
27
40
48
54
60
68.5
68
67.5
66
65
当时,建立了y与x的两个回归模型:
模型①:;模型②:;
当时,确定y与x满足的线性回归直线方程为.
根据以上阅读材料,解答以下问题:
(1)根据下列表格中的数据,比较当时模型①,②的相关指数的大小,并选择拟合效果更好的模型.
回归模型
模型①
模型②
回归方程
79.13
20.2
附:相关指数的计算公式为:,
(2)当应用改造的投入为20亿元时,以回归直线方程为预测依据,计算公司的收益约为多少.
附:①若最小二乘法求得回归直线方程为,则;
②
③当时,,.
【答案】(1)模型②拟合效果更好
(2)69.1(亿元)
【解析】
【分析】
(1)计算相关指数比较判断;
(2)先求得回归方程,再将x=20代入求解.
(1)解:对于模型①,
因为,故对应的,
故对应的相关指数,
对于模型②,同理对应的相关指数,
故模型②拟合效果更好.
(2)当时,
后五组的,
由最小二乘法可得,
所以当时,确定y与x满足的线性回归直线方程为
故当投入20亿元时,预测公司的收益约为:(亿元).
16.(2022·全国·模拟预测)数字经济的发展需要、云计算、大数据及物联网等新型基础设施的支撑,作为新基建之首,对我国数字经济的发展有着重要的意义.技术在我国已经进入高速发展阶段,宽带业务办理量也逐渐上升.某营业厅统计了2021年7月至2022年1月宽带业务办理量(单位:单),如表所示:
时间
2021年7月
2021年8月
2021年9月
2021年10月
2021年11月
2021年12月
2022年1月
月份编号
1
2
3
4
5
6
7
宽带业务办理量/单
290
330
360
440
480
520
590
(1)由表中数据可知,可用线性回归模型拟合与之间的关系,请用相关系数加以说明(结果精确到0.01);
(2)求出关于的线性回归方程,并估计该营业厅2022年4月的宽带业务办理量.
参考数据:,,.
参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)答案见解析;
(2),730单.
【解析】
【分析】
(1)求出相关系数,即得解;
(2)利用最小二乘法求出关于的线性回归方程,将代入线性回归方程即得解.
(1)
解:由题意知,
,
∴相关系数.
∵与的相关系数近似为0.99,∴与之间的线性相关程度相当高,
从而可以用线性回归模型拟合与之间的关系.
(2)
解:,∴,
∴关于的线性回归方程为,
2022年4月对应的编号为10,将代入线性回归方程,得,
∴估计该营业厅在2022年4月的宽带业务办理量为730单.
17.(2022·安徽·巢湖市第一中学模拟预测(理))新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第天的口罩的销售量(百件),得到的数据如下:,.
(1)若用线性回归模型拟合y与x之间的关系,求该回归直线的方程;
(2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到与之间的关系,且模型2的相关系数,试通过计算说明模型1,2中,哪一个模型的拟合效果更好.
参考公式:相关系数;对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计分别为
【答案】(1)
(2)模型2的拟合性更好
【解析】
【分析】
(1)根据公式可求线性回归方程.
(2)根据相关系数的大小可判断拟合效果.
(1)
由题意得,,
,
故所求回归直线的方程为;
(2)
模型1的相关系数
故模型2的拟合性更好.
18.(2022·江西·二模(文))某电器企业统计了近10年的年利润额y(千万元)与投入的年广告费用x(十万元)的相关数据,散点图如图.
选取函数作为年广告费用x和年利润额y的回归类型.令,则,则对数据作出如下处理:令,得到相关数据如表所示:
30.5
15
15
46.5
(1)求出y与x的回归方程;
(2)预计要使年利润额突破2亿,下一年应至少投入多少广告费用?(结果保留到万元)参考数据:.
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:.
【答案】(1)
(2)下一年应至少投入3983万元广告费用
【解析】
【分析】
(1)依题意,利用所给公式及相关数据求出,,即可求出,从而求出回归方程;
(2)由(1)中的回归方程令,求出的取值范围,即可得解;
(1)
解:∵,则,
所以,,
由表中数据得,,
所以,所以,
所以年广告费用和年利润额的回归方程为;
(2)由(1)可知,令,得,
所以(十万),
故下一年应至少投入万元广告费用.
19.(2022·四川·绵阳中学实验学校模拟预测(文))公众号“山城学术圈”根据统计局统计公报提供的数据,对我国2015—2021年的国内生产总值GDP进行统计研究,做出如下2015—2021年GDP和GDP实际增长率的统计图表.通过统计数据可以发现,GDP呈现逐年递增趋势.2020年,GDP增长率出现较明显降幅,但GDP却首次突破100万亿.现统计人员选择线性回归模型,对年份代码x和年度实际GDP增长率进行回归分析.
年份
2015年
2016年
2017年
2018年
2019年
2020年
2021年
年度GDP(亿元)
688858.2
746395.1
832035.9
919281.1
986515.2
1015986.2
1143669.7
年份代码x
1
2
3
4
5
6
7
GDP实际增长率
7.0
6.8
6.9
6.7
6.0
2.3
8.1
(1)用第1到第7年的数据得到年度实际GDP增长率关于年份代码x的回归方程近似为:,对该回归方程进行残差分析,得到下表,视残差的绝对值超过1.5的数据为异常数据.
年份代码x
1
2
3
4
5
6
7
GDP实际增长率
7.0
6.8
6.9
6.7
6.0
2.3
8.1
GDP增长率估计值
6.98
6.50
6.26
6.02
5.54
残差
0.02
0.40
0.74
-0.02
2.56
将以上表格补充完整,指出GDP增长率出现异常数据的年份及异常现象,并根据所学统计学知识,结合生活实际,推测GDP增长率出现异常的可能原因;
(2)剔除(1)中的异常数据,用最小二乘法求出回归方程:,并据此预测数据异常年份的GDP增长率.
附:,
【答案】(1)详见解析;
(2)详见解析
【解析】
【分析】
(1)根据实际GDP增长率关于年份代码x的回归方程近似为:和残差的定义求解;
(2)先求得,进而得到,写出回归直线方程求解.
(1)
解:
年份代码x
1
2
3
4
5
6
7
GDP实际增长率
7.0
6.8
6.9
6.7
6.0
2.3
8.1
GDP增长率估计值
6.98
6.74
6.50
6.26
6.02
5.78
5.54
残差
0.02
0.06
0.40
0.74
-0.02
-3.48
2.56
由视残差的绝对值超过1.5的数据为异常数据,则2020年份估计值远远大于实际值,2021年份估计值远远小于实际值,由于2020年疫情经济受到很大的影响,实际增长下滑,2021年份,国家采取措施,刺激经济增长;
(2)因为,
,,
所以,,
所以回归直线方程为,
当时,,当时,.
20.(2022·宁夏·平罗中学模拟预测(理))数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.
年份代码x
1
2
3
4
5
市场规模y
3.98
4.56
5.04
5.86
6.36
(1)由上表数据可知,可用函数模型拟合y与x的关系,请建立y关于x的回归方程(,的值精确到0.01);
(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X,若,求X的分布列与期望.
参考数据:,,,其中.
参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.
【答案】(1)
(2)分布列见解析;期望为
【解析】
【分析】
(1)根据题意,进而结合已知数据和公式计算即可得;
(2)由题意知,再根据二项分布概率公式,结合得,再根据二项分布概率公式求解分布列与期望.
(1)
解:设,则,
因为,,,
所以.
把代入,得.
即关于的回归方程为.
(2)
解:由题意知,
,,
由得
所以,的取值依次为0,1,2,3,4,
,,
,,
,所以X的分布列为
X
0
1
2
3
4
P
相关试卷
这是一份专题20 回归分析-备战2024年高考数学复习大题全题型专练,文件包含专题20回归分析解析版docx、专题20回归分析原卷版docx等2份试卷配套教学资源,其中试卷共44页, 欢迎下载使用。
这是一份2023年高考数学大题专练(新高考专用) 专题22 条件概率与正态分布 Word版含解析,文件包含2023年高考数学大题专练新高考专用专题22条件概率与正态分布Word版含解析docx、2023年高考数学大题专练新高考专用专题22条件概率与正态分布Word版无答案docx等2份试卷配套教学资源,其中试卷共39页, 欢迎下载使用。
这是一份2023年高考数学大题专练(新高考专用) 专题17 圆锥曲线的轨迹问题 Word版含解析,文件包含2023年高考数学大题专练新高考专用专题17圆锥曲线的轨迹问题Word版含解析docx、2023年高考数学大题专练新高考专用专题17圆锥曲线的轨迹问题Word版无答案docx等2份试卷配套教学资源,其中试卷共35页, 欢迎下载使用。