所属成套资源:备战2024年高考数学二轮复习
备战2024年高考数学二轮复习专题07回归分析(原卷版+解析)
展开
这是一份备战2024年高考数学二轮复习专题07回归分析(原卷版+解析),共44页。试卷主要包含了线性回归,非线性回归等内容,欢迎下载使用。
常见考点
考点一 线性回归
典例1.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
(1)求年推销金额y关于工作年限x的线性回归方程;
(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.
附:回归直线的斜率和截距的最小二乘法估计公式分别为.
变式1-1.某科技公司研发了一项新产品,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价(千元)和销售量(千件)之间的一组数据如下表所示:
(1)试根据1至5月份的数据,建立关于的回归直线方程;
(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?
参考公式:回归直线方程,其中.
参考数据:,.
变式1-2.如图是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.
注:年份代码1~7分别对应年份2014~2020.
(1)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)建立关于的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量.
附注:
参考数据:,,,.
参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,.
变式1-3.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
根据最小二乘法公式求得经验回归方程为.
(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
考点二 非线性回归
典例2.新冠肺炎疫情发生以来,我国某科研机构开展应急科研攻关,研制了一种新型冠状病毒疫苗,并已进入二期临床试验.根据普遍规律,志愿者接种疫苗后体内会产生抗体,人体中检测到抗体,说明有抵御病毒的能力.通过检测,用表示注射疫苗后的天数,表示人体中抗体含量水平(单位:,即:百万国际单位/毫升),现测得某志愿者的相关数据如下表所示.根据以上数据,绘制了散点图.
(1)根据散点图判断,与(a,b,c,d均为大于0的实数)哪一个更适宜作为描述y与x关系的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果求出y关于x的回归方程,并预测该志愿者在注射疫苗后的第10天的抗体含量水平值;
(3)从这位志愿者的前6天的检测数据中随机抽取4天的数据作进一步的分析,求其中的y值大于50的天数为1的概率.
参考数据:其中.
参考公式:用最小二乘法求经过点,,,,的线性回归方程的系数公式,;.
变式2-1.区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术区块链作为构造信任的机器,将可能彻底改变整个人类社会价值传递的方式,2015年至2019年五年期间,中国的区块链企业数量逐年增长,居世界前列现收集我国近5年区块链企业总数量相关数据,如表
注:参考数据,,,(其中).
附:样本的最小二乘法估计公式为,
(1)根据表中数据判断,与(其中,为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由)
(2)根据(1)的结果,求y关于x的回归方程;
(3)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司就获得此次信息化比赛的“优胜公司”,已知在每场比赛中,甲胜乙的概率为,甲胜丙的概率为,乙胜丙的概率为,若首场由甲乙比赛,则求甲公司获得“优胜公司”的概率.
变式2-2.年月日,第四届中国国际进口博览会在上海开幕,共计多家参展商参展,多项新产品,新技术,新服务在本届进博会上亮相.某投资公司现从中选出种新产品进行投资.为给下一年度投资提供决策依据,需了解年研发经费对年销售额的影响,该公司甲、乙两部门分别从这种新产品中随机地选取种产品,每种产品被甲、乙两部门是否选中相互独立.
(1)求种新产品中产品被甲部门或乙部门选中的概率;
(2)甲部门对选取的种产品的年研发经费(单位:万元)和年销售额(单位:十万元)数据作了初步处理,得到下面的散点图及一些统计量的值.根据散点图现拟定关于的回归方程为.求、的值(结果精确到);
(3)甲、乙两部门同时选中了新产品,现用掷骰子的方式确定投资金额.若每次掷骰子点数大于,则甲部门增加投资万元,乙部门不增加投资;若点数小于,则乙部门增加投资万元,甲部门不增加投资,求两部门投资资金总和恰好为万元的概率.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,,,.
变式2-3.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本(元)与生产该产品的数量(千件)有关,经统计得到如下数据:
根据以上数据绘制了散点图观察散点图,两个变量间关系考虑用反比例函数模型和指数函数模型分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为,与x的相关系数.
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.001),并用其估计产量为10千件时每件产品的非原料成本;
(3)根据企业长期研究表明,非原料成本y服从正态分布,用样本平均数作为的估计值,用样本标准差s作为的估计值,若非原料成本y在之外,说明该成本异常,并称落在之外的成本为异样成本,此时需寻找出现异样成本的原因.利用估计值判断上述非原料成本数据是否需要寻找出现异样成本的原因?
参考数据(其中):
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:,,相关系数.
巩固练习
练习一 线性回归
1.为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体西红柿亩产量的增加量(千克)与某种液体肥料每亩使用量(千克)之间的对应数据如下.
(1)由上表数据可知,可用线性回归模型拟合与的关系,请计算相关系数并加以说明(若,则线性相关程度很高,可用线性回归模型拟合);
(2)求关于的回归方程,并预测当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为多少千克?
附:相关系数公式,参考数据:.
回归方程中斜率和截距的最小二乘估计公式分别为,.
2.下表是某公司从2014年至2020年某种产品的宣传费用的近似值(单位:千元)
以x为解释变量,y为预报变量,若以为回归方程,则相关指数;若以为回归方程,则相关指数.
(1)判断与,哪一个更适合作为该种产品的宣传费用的近似值y关于年份代号x的回归方程,并说明理由;
(2)根据(1)的判断结果及表中数据,求出y关于年份代号x的回归方程(系数精确到0.1).
参考数据:.参考公式:.
3.某服装企业采用服装个性化设计为客户提供服务,即由客户提供身材的基本数据用于个人服装设计.该企业为了设计所用的数据更精准,随机地抽取了10位男子的身高和臂长的数据,数据如下表所示:
(1)根据表中的数据,求男子的身高预报臂长的线性回归方程,并预报身高为170cm的男子的臂长(男子臂长计算结果精确到0.01);
(2)统计学认为,两个变量、的相关系数r的大小可表明两变量间的相关性强弱.一般地,如果|r|[0.75,1],那么相关性很强;如果|r|[0.30,0.75),那么相关性一般;如果|r|[0,0.30),那么没有相关性.求出r的值,并判断变量x、y的相关性强弱(结果精确到0.01).
附:线性回归方程其中,,,,,,,
4.某汽车公司拟对“东方红”款高端汽车发动机进行科技改造,根据市场调研与模拟,得到科技改造投入x(亿元)与科技改造直接收益y(亿元)的数据统计如下:
当时,建立了y与x的两个回归模型:模型①:;模型②:;当时,确定y与x满足的经验回归方程为:.
(1)根据下列表格中的数据,比较当时模型①、②的相关指数,并选择拟合精度更高、更可靠的模型,预测对“东方红”款汽车发动机科技改造的投入为16亿元时的直接收益.
(附:刻画回归效果的相关指数)
(2)为鼓励科技创新,当科技改造的投入不少于20亿元时,国家给予公司补贴收益10亿元,以回归方程为预测依据,比较科技改造投入16亿元与20亿元时公司实际收益的大小.
(附:用最小二乘法求经验回归方程的系数公式)
练习二 非线性回归
5.如图是某市2011年至2020年当年在售二手房均价(单位:千元/平方米)的散点图(图中年份代码1~10分别对应2011年~2020年).现根据散点图选择用和两个模型对年份代码和房价的关系进行拟合,经过数据处理得到两个模型对应回归方程的相关指数和一些统计量的值,如下表:
表中,.
(1)请利用相关指数判断:哪个模型的拟合效果更好;并求出该模型对应的回归方程(参数估计值精确到0.01);
(2)根据(1)得到的方程预计;到哪一年,该市的当年在售二手房均价能超过10.5千元/平方米.
参考公式:对于一组数据,,…,,其回归线的斜率和截距的最小二乘估计分别为:,.参考数据:,.
6.某投资公司2012年至2021年每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图如图:该投资公司为了预测2022年投资金额为20万元时的年利润增量,建立了关于的两个回归模型;模型①:由最小二乘公式可求得与的线性回归方程:;模型②:由图中样本点的分布,可以认为样本点集中在由线:的附近,对投资金额做换元,令,则,且有,
(1)根据所给的统计量,求模型②中关于的回归方程;
(2)分别利用这两个回归模型,预测投资金额为20万元时的年利润增量(结果保留两位小数);
附:样本的最小乘估计公式为;参考数据:.
7.近年来,由于耕地面积的紧张,化肥的施用量呈增加趋势.一方面,化肥的施用对粮食增产增收起到了关键作用,另一方面,也成为环境污染、空气污染、土壤污染的重要来源之一如何合理地施用化肥,使其最大程度地促进粮食增产,减少对周围环境的污染成为需要解决的重要问题研究粮食产量与化肥施用量的关系,成为解决上述问题的前提某研究团队收集了10组化肥施用量和粮食亩产量的数据并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值化肥施用量为(单位:公斤),粮食亩产量为(单位:百公斤).
参考数据:
表中.
(1)根据散点图判断,与,哪一个适宜作为粮食亩产量关于化肥施用量的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)根据(2)的回归方程,并预测化肥施用量为27公斤时,粮食亩产量的值;
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为;②取.
8.某保险公司根据官方公布的历年营业收入,制成表格如下:
表1
由表1,得到下面的散点图:
根据已有的函数知识,某同学选用二次函数模型(b和a是待定参数)来拟合y和x的关系.这时,可以对年份序号做变换,即令,得,由表1可得变换后的数据见表2.
表2
(1)根据表中数据,建立y关于t的回归方程(系数精确到个位数);
(2)根据(1)中得到的回归方程估计2021年的营业收入,以及营业收入首次超过4000亿元的年份.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
参考数据:
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
月份
1
2
3
4
5
6
销售单价
销售量
月份
1
2
3
4
5
6
7
8
物流成本x
83
83.5
80
86.5
89
84.5
79
86.5
利润y
114
116
106
122
132
114
m
132
残差
0.2
0.6
1.8
-3
-1
-4.6
-1
天数
1
2
3
4
5
6
抗体含量水平
5
10
26
50
96
195
3.50
63.67
3.49
17.50
9.49
12.95
519.01
4023.87
年份
2015
2016
2017
2018
2019
编号x
1
2
3
4
5
企业总数量y(单位:千个)
2.156
3.727
8.305
24.279
36.224
x
1
2
3
4
5
6
7
8
y
56.5
31
22.75
17.8
15.95
14.5
13
12.5
0.34
0.115
1.53
184
5777.555
93.06
30.705
13.9
(千克)
2
4
5
6
8
(千克)
300
400
400
400
500
年份
2014
2015
2016
2017
2018
2019
2020
年份代号x
1
2
3
4
5
6
7
该种产品的宣传费用y
59.3
64.1
68.8
74.0
82.1
90.0
99.1
身高
164
165
168
172
173
176
178
181
182
191
臂长
160
164
161
170
175
181
170
182
180
187
x
2
3
4
6
8
10
13
21
22
23
24
25
y
12
22
31
42
50
56
58
68.5
68
67.5
66
68
回归模型
模型①
模型②
回归方程
182.4
79.2
模型
相关指数
0.8821
0.9046
6.81
1.89
82.5
44.55
6.6
650
91.5
52.5
1478.6
30.5
15
15
46.5
年份
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
年份序号x
1
2
3
4
5
6
7
8
9
10
营业收入y(亿元)
0.52
9.36
33.6
132
352
571
912
1207
1682
2135
T
1
4
9
16
25
36
49
64
81
100
Y
0.52
9.36
33.6
132
352
571
912
1207
1682
2135
第四篇 概率与统计
专题07 回归分析
常见考点
考点一 线性回归
典例1.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:
(1)求年推销金额y关于工作年限x的线性回归方程;
(2)若第6名推销员的工作年限为11年,试估计他的年推销金额.
附:回归直线的斜率和截距的最小二乘法估计公式分别为.
【答案】(1);(2)5.9万元.
【解析】
【分析】
(1)根据表中的数据求出,,再利用公式可求出,,从而可求出推销金额y关于工作年限x的线性回归方程;
(2)将化入回归方程中求解即可
【详解】
解(1)设所求的线性回归方程为,
,,
所以,
.
所以年推销金额y关于工作年限x的线性回归方程为.
(2)当时,(万元).
所以可以估计第6名推销员的年推销金额为5.9万元
变式1-1.某科技公司研发了一项新产品,经过市场调研,对公司1月份至6月份销售量及销售单价进行统计,销售单价(千元)和销售量(千件)之间的一组数据如下表所示:
(1)试根据1至5月份的数据,建立关于的回归直线方程;
(2)若由回归直线方程得到的估计数据与剩下的检验数据的误差不超过千件,则认为所得到的回归直线方程是理想的,试问(1)中所得到的回归直线方程是否理想?
参考公式:回归直线方程,其中.
参考数据:,.
【答案】(1);(2)是.
【解析】
【分析】
(1)先由表中的数据求出,再利用已知的数据和公式求出,从而可求出关于的回归直线方程;
(2)当时,求出的值,再与15比较即可得结论
【详解】
(1)因为,,
所以,
得,
于是关于的回归直线方程为;
(2)当时,,
则,
故可以认为所得到的回归直线方程是理想的.
变式1-2.如图是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.
注:年份代码1~7分别对应年份2014~2020.
(1)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)建立关于的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量.
附注:
参考数据:,,,.
参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,.
【答案】(1)存在较强的正相关关系,理由见解析
(2),1.82万吨
【解析】
【分析】
(1)、结合参考数据及参考公式求出相关系数,进而可以得出结论;
(2)、根据参考公式求出回归直线方程,进而可以根据回归直线方程进行数据统计.
(1)
由折线图看出,与之间存在较强的正相关关系,理由如下:
,,,,
.
,故与之间存在较强的正相关关系.
(2)
由(1)结合题中数据可得,
,
关于的回归方程,2022年对应的值为9,故,
预测2022年该地生活垃圾无害化处理量为1.82万吨.
变式1-3.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本(单位:万元)和企业利润的数据(单位:万元)如下表所示:
根据最小二乘法公式求得经验回归方程为.
(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值;
(2)请先求出线性回归模型的决定系数(精确到0.0001),若根据非线性模型求得解释变量(物流成本)对于响应变量(利润)的决定系数,请说明以上两种模型哪种模型拟合效果更好.
参考公式及数据:,,.
【答案】(1),;
(2),拟合程度更好.
【解析】
【分析】
(1)根据线性回归方程横过定点()可求m,由求得;
(2)根据的计算公式计算的值,再与比较大小即可得解.
(1)
∵,,
∴.
则,解得;
8月份对应的残差值.
(2)
,
则,
∴线性回归模型拟合程度更好.
考点二 非线性回归
典例2.新冠肺炎疫情发生以来,我国某科研机构开展应急科研攻关,研制了一种新型冠状病毒疫苗,并已进入二期临床试验.根据普遍规律,志愿者接种疫苗后体内会产生抗体,人体中检测到抗体,说明有抵御病毒的能力.通过检测,用表示注射疫苗后的天数,表示人体中抗体含量水平(单位:,即:百万国际单位/毫升),现测得某志愿者的相关数据如下表所示.根据以上数据,绘制了散点图.
(1)根据散点图判断,与(a,b,c,d均为大于0的实数)哪一个更适宜作为描述y与x关系的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果求出y关于x的回归方程,并预测该志愿者在注射疫苗后的第10天的抗体含量水平值;
(3)从这位志愿者的前6天的检测数据中随机抽取4天的数据作进一步的分析,求其中的y值大于50的天数为1的概率.
参考数据:其中.
参考公式:用最小二乘法求经过点,,,,的线性回归方程的系数公式,;.
【答案】(1)更适合
(2),4023.87miu/mL
(3)
【解析】
【分析】
(1)根据散点图这些点的分布情况结合所学函数图象特点即可求解;
(2)由(1)知该问题为变量之间的关系为非线性,先将非线性转化为线性关系,结合题目给出数据求出回归直线的相关系数,进而求出回归直线方程,在代入换
为y关于x的回归方程,将代入方程中即可求出预报值.
(3)根据古典概型的计算公式即可求解.
(1)
根据散点图可知这些点分布在一条曲线的附近,所以更适合作为描述y与x关系的回归方程类型.
(2)
设,变换后可得,设,建立关于x的回归方程,
,所以
所以ω关于x的回归方程为,所以,
当时,,
即该志愿者在注射疫苗后的第10天的抗体含量水平值约为4023.87miu/mL.
(3)
由表格数据可知,第5,6天的y值大于50,天数为1的概率
变式2-1.区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术区块链作为构造信任的机器,将可能彻底改变整个人类社会价值传递的方式,2015年至2019年五年期间,中国的区块链企业数量逐年增长,居世界前列现收集我国近5年区块链企业总数量相关数据,如表
注:参考数据,,,(其中).
附:样本的最小二乘法估计公式为,
(1)根据表中数据判断,与(其中,为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由)
(2)根据(1)的结果,求y关于x的回归方程;
(3)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛比赛规则如下:①每场比赛有两个公司参加,并决出胜负;②每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;③在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司就获得此次信息化比赛的“优胜公司”,已知在每场比赛中,甲胜乙的概率为,甲胜丙的概率为,乙胜丙的概率为,若首场由甲乙比赛,则求甲公司获得“优胜公司”的概率.
【答案】(1)
(2)
(3)
【解析】
【分析】
(1)根据表中数据判断y关于x的回归方程为非线性方程;
(2)令,将y关于x的非线性关系,转化为z关于x的线性关系,利用最小二乘法求解;
(3)利用相互独立事件的概率相乘求求解;
(1)
根据表中数据适宜预测未来几年我国区块链企业总数量.
(2)
,,
令,则,
,
由公式计算可知
,即
,即
所以y关于x的回归方程为
(3)
设甲公司获得“优胜公司”为事件.
则
所以甲公司获得“优胜公司”的概率为.
变式2-2.年月日,第四届中国国际进口博览会在上海开幕,共计多家参展商参展,多项新产品,新技术,新服务在本届进博会上亮相.某投资公司现从中选出种新产品进行投资.为给下一年度投资提供决策依据,需了解年研发经费对年销售额的影响,该公司甲、乙两部门分别从这种新产品中随机地选取种产品,每种产品被甲、乙两部门是否选中相互独立.
(1)求种新产品中产品被甲部门或乙部门选中的概率;
(2)甲部门对选取的种产品的年研发经费(单位:万元)和年销售额(单位:十万元)数据作了初步处理,得到下面的散点图及一些统计量的值.根据散点图现拟定关于的回归方程为.求、的值(结果精确到);
(3)甲、乙两部门同时选中了新产品,现用掷骰子的方式确定投资金额.若每次掷骰子点数大于,则甲部门增加投资万元,乙部门不增加投资;若点数小于,则乙部门增加投资万元,甲部门不增加投资,求两部门投资资金总和恰好为万元的概率.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,,,.
【答案】(1);
(2),;
(3).
【解析】
【分析】
(1)利用组合计数原理、古典概型的概率公式以及对立事件的概率公式可求得所求事件的概率;
(2)令,计算出、的值,利用最小二乘法公式结合表格中的数据可求得、的值;
(3)设投资资金总和恰好为万元的概率为,则投资资金总和恰好为万元的概率为,推导出数列是首项为,公比为的等比数列,利用累加法可求得的值.,
(1)
解:种新产品中产品没有被甲部门和乙部门同时选中的概率,
所以产品被甲部门或乙部门选中的概率为.
(2)
解:令,由题中数据得,,
,,
,.
(3)
解:由题意知,掷骰子时甲部门增加投资万元发生的概率为,乙部门增加投资万元发生的概率为.
设投资资金总和恰好为万元的概率为,则投资资金总和恰好为万元的概率为.
所以,
因为,,,
所以数列是首项为,公比为的等比数列,所以,
所以
,
所以投资资金总和恰好为万元的概率是.
变式2-3.某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本(元)与生产该产品的数量(千件)有关,经统计得到如下数据:
根据以上数据绘制了散点图观察散点图,两个变量间关系考虑用反比例函数模型和指数函数模型分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为,与x的相关系数.
(1)用反比例函数模型求y关于x的回归方程;
(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.001),并用其估计产量为10千件时每件产品的非原料成本;
(3)根据企业长期研究表明,非原料成本y服从正态分布,用样本平均数作为的估计值,用样本标准差s作为的估计值,若非原料成本y在之外,说明该成本异常,并称落在之外的成本为异样成本,此时需寻找出现异样成本的原因.利用估计值判断上述非原料成本数据是否需要寻找出现异样成本的原因?
参考数据(其中):
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:,,相关系数.
【答案】(1)
(2)反比例函数模型拟合效果更好,产量为10千件时每件产品的非原料成本约为11元,
(3)见解析
【解析】
【分析】
(1)令,则可转化为,求出样本中心,回归方程的斜率,转化求回归方程即可,
(2)求出与的相关系数,通过比较,可得用反比例函数模型拟合效果更好,然后将代入回归方程中可求结果
(3)利用已知数据求出样本标准差s,从而可得非原料成本y服从正态分布,再计算,然后各个数据是否在此范围内,从而可得结论
(1)
令,则可转化为,
因为,
所以,
所以,所以,
所以y关于x的回归方程为
(2)
与的相关系数为
因为,所以用反比例函数模型拟合效果更好,
把代入回归方程得(元),
所以产量为10千件时每件产品的非原料成本约为11元
(3)
因为,所以,
因为样本标准差为,
所以,
所以非原料成本y服从正态分布,
所以
因为在之外,所以需要此非原料成本数据寻找出现异样成本的原因
巩固练习
练习一 线性回归
1.为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体西红柿亩产量的增加量(千克)与某种液体肥料每亩使用量(千克)之间的对应数据如下.
(1)由上表数据可知,可用线性回归模型拟合与的关系,请计算相关系数并加以说明(若,则线性相关程度很高,可用线性回归模型拟合);
(2)求关于的回归方程,并预测当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为多少千克?
附:相关系数公式,参考数据:.
回归方程中斜率和截距的最小二乘估计公式分别为,.
【答案】(1)0.95,答案见解析;(2)700千克.
【解析】
【分析】
(1)根据表中的数据先求出,再求,,,然后利用公式求出相关系,再作判断即可,
(2)根据线性回归方程公式求出回归方程,然后将代入回归方程中可求得西红柿亩产量的增加量
【详解】
解:(1)由已知数据可得,
,
所以,
,
,
所以相关系数.
因为,所以可用线性回归模型拟合与的关系.
(2),,
所以回归方程为.
当时,,
即当液体肥料每亩使用量为15千克时,西红柿由产量的增加量约为700千克.
2.下表是某公司从2014年至2020年某种产品的宣传费用的近似值(单位:千元)
以x为解释变量,y为预报变量,若以为回归方程,则相关指数;若以为回归方程,则相关指数.
(1)判断与,哪一个更适合作为该种产品的宣传费用的近似值y关于年份代号x的回归方程,并说明理由;
(2)根据(1)的判断结果及表中数据,求出y关于年份代号x的回归方程(系数精确到0.1).
参考数据:.参考公式:.
【答案】(1)更适合,理由见解析;(2).
【解析】
【分析】
(1)根据相关系数的绝对值越接近,拟合效果越好即可得出答案.
(2)利用最小二乘法即可求解.
【详解】
(1)更适合作为该种产品的宣传费用的近似值
y关于年份代号x的回归方程.
因为越大,说明模型的拟合效果越好.
(2)由表格中数据有,
,
则.
3.某服装企业采用服装个性化设计为客户提供服务,即由客户提供身材的基本数据用于个人服装设计.该企业为了设计所用的数据更精准,随机地抽取了10位男子的身高和臂长的数据,数据如下表所示:
(1)根据表中的数据,求男子的身高预报臂长的线性回归方程,并预报身高为170cm的男子的臂长(男子臂长计算结果精确到0.01);
(2)统计学认为,两个变量、的相关系数r的大小可表明两变量间的相关性强弱.一般地,如果|r|[0.75,1],那么相关性很强;如果|r|[0.30,0.75),那么相关性一般;如果|r|[0,0.30),那么没有相关性.求出r的值,并判断变量x、y的相关性强弱(结果精确到0.01).
附:线性回归方程其中,,,,,,,
【答案】(1);;(2);变量间的相关性很强.
【解析】
【分析】
(1)根据表中的数据求出,从而利用可求出,进而可得回归方程,然后当时,代入回归方程可求出身高为170cm的男子的臂长;
(2)直接利用公式和已知的数据求解相关系数,再根据所给数据判断强弱
【详解】
(1)解:,
由,得
所以所求线性回归方程为
当时,
所以身高为170cm的男性臂长约为
(2),
因为r[0.75,1],所以变量间的相关性很强.
4.某汽车公司拟对“东方红”款高端汽车发动机进行科技改造,根据市场调研与模拟,得到科技改造投入x(亿元)与科技改造直接收益y(亿元)的数据统计如下:
当时,建立了y与x的两个回归模型:模型①:;模型②:;当时,确定y与x满足的经验回归方程为:.
(1)根据下列表格中的数据,比较当时模型①、②的相关指数,并选择拟合精度更高、更可靠的模型,预测对“东方红”款汽车发动机科技改造的投入为16亿元时的直接收益.
(附:刻画回归效果的相关指数)
(2)为鼓励科技创新,当科技改造的投入不少于20亿元时,国家给予公司补贴收益10亿元,以回归方程为预测依据,比较科技改造投入16亿元与20亿元时公司实际收益的大小.
(附:用最小二乘法求经验回归方程的系数公式)
【答案】(1)回归模型②刻画的拟合效果更好,70.8(亿元);(2)科技改造投入20亿元时,公司的实际收益更大.
【解析】
【分析】
(1)根据表中数据比较和可判断拟合效果,进而求出预测值;
(2)求出,进而求出,得出回归方程,然后比较投入16亿元和20亿元时的收益即可求出结果.
【详解】
由表格中的数据,有,
即,
可见模型①的相关指数小于模型②的相关指数.
说明回归模型②刻画的拟合效果更好.
所以当亿元时,科技改造直接收益的预测值为:
(亿元).
由已知可得:,
,
当亿元时,y与x满足的经验回归方程为:
,
当亿元时,科技改造直接收益的预测值,
当亿元时,实际收益的预测值为亿元亿元,
科技改造投入20亿元时,公司的实际收益更大.
练习二 非线性回归
5.如图是某市2011年至2020年当年在售二手房均价(单位:千元/平方米)的散点图(图中年份代码1~10分别对应2011年~2020年).现根据散点图选择用和两个模型对年份代码和房价的关系进行拟合,经过数据处理得到两个模型对应回归方程的相关指数和一些统计量的值,如下表:
表中,.
(1)请利用相关指数判断:哪个模型的拟合效果更好;并求出该模型对应的回归方程(参数估计值精确到0.01);
(2)根据(1)得到的方程预计;到哪一年,该市的当年在售二手房均价能超过10.5千元/平方米.
参考公式:对于一组数据,,…,,其回归线的斜率和截距的最小二乘估计分别为:,.参考数据:,.
【答案】(1)模型的拟合效果更好,
(2)到2022年,该市的当年在售二手房均价能超过10.5千元/平方米
【解析】
【分析】
(1)根据相关指数的数值可知模型的拟合效果更好,从而可得,利用最小二乘法即可求解.
(2)由(1)将代入即可求解.
(1)
由相关指数:,知模型的拟合效果更好.
∵,∴,令,
可知与满足线性模型回归方程,
,
则,
,
所以回归方程为,即.
(2)
将代入,可得,
将代入,可得,
所以,根据方程预计:到2022年,该市的当年在售二手房均价能超过10.5千元/平方米.
6.某投资公司2012年至2021年每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图如图:该投资公司为了预测2022年投资金额为20万元时的年利润增量,建立了关于的两个回归模型;模型①:由最小二乘公式可求得与的线性回归方程:;模型②:由图中样本点的分布,可以认为样本点集中在由线:的附近,对投资金额做换元,令,则,且有,
(1)根据所给的统计量,求模型②中关于的回归方程;
(2)分别利用这两个回归模型,预测投资金额为20万元时的年利润增量(结果保留两位小数);
附:样本的最小乘估计公式为;参考数据:.
【答案】(1)
(2)模型①的年利润增量的预测值为(万元),模型②的年利润增量的预测值为(万元)
【解析】
【分析】
(1)结合已知数据和公式求出这两个系数即可得回归方程;
(2)把代入模型①、②的回归方程,算出即可.
(1)
由题意,知,可得,
又由,
则
所以,模型②中关于的回归方程.
(2)
当时,模型①的年利润增量的预测值为(万元),
当时,模型②的年利润增量的预测值为
万元
7.近年来,由于耕地面积的紧张,化肥的施用量呈增加趋势.一方面,化肥的施用对粮食增产增收起到了关键作用,另一方面,也成为环境污染、空气污染、土壤污染的重要来源之一如何合理地施用化肥,使其最大程度地促进粮食增产,减少对周围环境的污染成为需要解决的重要问题研究粮食产量与化肥施用量的关系,成为解决上述问题的前提某研究团队收集了10组化肥施用量和粮食亩产量的数据并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值化肥施用量为(单位:公斤),粮食亩产量为(单位:百公斤).
参考数据:
表中.
(1)根据散点图判断,与,哪一个适宜作为粮食亩产量关于化肥施用量的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)根据(2)的回归方程,并预测化肥施用量为27公斤时,粮食亩产量的值;
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为;②取.
【答案】(1)更适合作为关于的回归方程类型;
(2);
(3)810公斤.
【解析】
【分析】
(1)根据散点图即可判断,更适合作为关于的回归方程类型;
(2)对两边取对数,得,即,根据表中数据求出,再根据最小二乘法求出和的值,从而得出关于的回归方程;
(3)由(2)得,当时,即可预测粮食亩产量的值.
(1)
解:根据散点图可判断,更适合作为关于的回归方程类型.
(2)
解:对两边取对数,得,即,
由表中数据得:,,
,
,所以,
所以关于的回归方程为.
(3)
解:由(2)得,
当时,,
所以当化肥施用量为27公斤时,粮食亩产量约为810公斤.
8.某保险公司根据官方公布的历年营业收入,制成表格如下:
表1
由表1,得到下面的散点图:
根据已有的函数知识,某同学选用二次函数模型(b和a是待定参数)来拟合y和x的关系.这时,可以对年份序号做变换,即令,得,由表1可得变换后的数据见表2.
表2
(1)根据表中数据,建立y关于t的回归方程(系数精确到个位数);
(2)根据(1)中得到的回归方程估计2021年的营业收入,以及营业收入首次超过4000亿元的年份.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
参考数据:.
【答案】(1);(2)估计2021年的营业收入约为2518亿元,估计营业收入首次超过4000亿元的年份为2024年.
【解析】
【分析】
(1)根据的公式,将题干中的数据代入,即得解;
(2)代入,可估计2021年的营业收入;令,可求解的范围,继而得到的范围,即得解
【详解】
(1),
,
故回归方程为.
(2)2021年对应的t的值为121,营业收入,
所以估计2021年的营业收入约为2518亿元.
依题意有,解得,故.
因为,
所以估计营业收入首次超过4000亿元的年份序号为14,即2024年.
推销员编号
1
2
3
4
5
工作年限x/年
3
5
6
7
9
推销金额y/万元
2
3
3
4
5
月份
1
2
3
4
5
6
销售单价
销售量
月份
1
2
3
4
5
6
7
8
物流成本x
83
83.5
80
86.5
89
84.5
79
86.5
利润y
114
116
106
122
132
114
m
132
残差
0.2
0.6
1.8
-3
-1
-4.6
-1
天数
1
2
3
4
5
6
抗体含量水平
5
10
26
50
96
195
3.50
63.67
3.49
17.50
9.49
12.95
519.01
4023.87
年份
2015
2016
2017
2018
2019
编号x
1
2
3
4
5
企业总数量y(单位:千个)
2.156
3.727
8.305
24.279
36.224
x
1
2
3
4
5
6
7
8
y
56.5
31
22.75
17.8
15.95
14.5
13
12.5
0.34
0.115
1.53
184
5777.555
93.06
30.705
13.9
(千克)
2
4
5
6
8
(千克)
300
400
400
400
500
年份
2014
2015
2016
2017
2018
2019
2020
年份代号x
1
2
3
4
5
6
7
该种产品的宣传费用y
59.3
64.1
68.8
74.0
82.1
90.0
99.1
身高
164
165
168
172
173
176
178
181
182
191
臂长
160
164
161
170
175
181
170
182
180
187
x
2
3
4
6
8
10
13
21
22
23
24
25
y
12
22
31
42
50
56
58
68.5
68
67.5
66
68
回归模型
模型①
模型②
回归方程
182.4
79.2
模型
相关指数
0.8821
0.9046
6.81
1.89
82.5
44.55
6.6
650
91.5
52.5
1478.6
30.5
15
15
46.5
年份
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
年份序号x
1
2
3
4
5
6
7
8
9
10
营业收入y(亿元)
0.52
9.36
33.6
132
352
571
912
1207
1682
2135
T
1
4
9
16
25
36
49
64
81
100
Y
0.52
9.36
33.6
132
352
571
912
1207
1682
2135
相关试卷
这是一份备战2024年高考数学二轮复习专题07解三角形与三角函数结合(原卷版+解析),共26页。试卷主要包含了结合三角函数等内容,欢迎下载使用。
这是一份新高考数学二轮复习创新题型专题07 数列专题(数学文化)(2份打包,原卷版+解析版),文件包含新高考数学二轮复习创新题型专题07数列专题数学文化原卷版doc、新高考数学二轮复习创新题型专题07数列专题数学文化解析版doc等2份试卷配套教学资源,其中试卷共58页, 欢迎下载使用。
这是一份高三数学高考高分突破之概率统计专题05 回归分析(原卷版)66,共11页。试卷主要包含了下列命题等内容,欢迎下载使用。