资料中包含下列文件,点击文件名可预览资料内容
还剩19页未读,
继续阅读
成套系列资料,整套一键下载
(全国通用)高考数学二轮热点题型归纳与变式演练 专题10-1 统计大题:线性和非线性回归与残差(原卷+解析)学案
展开
专题10-1统计:线性和非线性回归与残差
目录
一、热点题型归纳 1
【题型一】 线性回归 1
【题型二】 残差 5
【题型三】 剔除数据重新计算 7
【题型四】 非线性回归1:指数型 11
【题型五】 非线性回归2:反比例型 15
【题型六】 非线性回归3:对数型 20
【题型七】 非线性回归4:其他类型 23
二、最新模考题组练 27
【题型一】 线性回归
【典例分析】
如图是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.
注:年份代码1~7分别对应年份2014~2020.
(1)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)建立关于的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量.
附注:
参考数据:,,,.
参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,.
【答案】(1)存在较强的正相关关系,理由见解析
(2),1.82万吨
【分析】
(1)、结合参考数据及参考公式求出相关系数,进而可以得出结论;
(2)、根据参考公式求出回归直线方程,进而可以根据回归直线方程进行数据统计.
(1)
由折线图看出,与之间存在较强的正相关关系,理由如下:
,,,,
.
,故与之间存在较强的正相关关系.
(2)由(1)结合题中数据可得,
,
关于的回归方程,2022年对应的值为9,故,
预测2022年该地生活垃圾无害化处理量为1.82万吨.
【提分秘籍】
基本规律
1.直线型回归常规;2.相关系数应用。
【变式演练】
1.2020年全面建成小康社会取得伟大历史成就,决战脱贫攻坚取得决定性胜利.某市积极探索区域特色经济,引导商家利用多媒体的优势,对本地特产进行广告宣传,取得了社会效益和经济效益的双丰收,某商家统计了7个月的月广告投入(单位:万元)与月销量(单位:万件)的数据如表所示:
月广告投入/万元
1
2
3
4
5
6
7
月销量/万件
28
32
35
45
49
52
60
(1)已知可用线性回归模型拟合与的关系,请用相关系数加以说明,并求关于的线性回归方程;
(2)根据(1)的结论,预计月广告投入大于多少万元时,月销量能突破70万件.
参考数据:,,.
参考公式:相关系数;
回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)相关系数,线性回归模型能够很好地拟合与的关系;;(2)9.04万元.
【分析】
(1)现根据题中数据求得相关系数,从而说明线性回归模型能够很好地拟合与的关系,再根据题中数据求得和,进而求得回归方程;
(2)解不等式即可求出结果.
【详解】
(1)由题意,知,
∴
.
结合,可得,
相关系数,
显然与的线性相关程度相当高,从而线性回归模型能够很好地拟合与的关系.
易知,
,
∴.
∴关于的线性回归方程为.
(2)若月销量突破70万件,则,
解得.
故当月广告投入大于9.04万元时,月销量能突破70万件.
2.根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村200名居民(未接种)5天内每天新接种疫苗的情况,得如下统计表:
第天
1
2
3
4
5
新接种人数
10
15
19
23
28
(1)建立关于的线性回归方程;
(2)预测该村居民接种新冠疫苗需要几天?
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为: ,.
【答案】(1);(2).
【分析】
(1)本题首先可以求出、,然后求出、,即可求出关于的线性回归方程;
(2)本题可设,数列的前项和为,然后根据等差数列求和公式得出,最后求出、,即可得出结果.
(1),,
则,,
故关于的线性回归方程.
(2),
设,数列的前项和为,易知数列是等差数列,
则,
因为,,
所以预测该村居民接种新冠疫苗需要天.
【题型二】 残差
【典例分析】
2018年9月17日,世界公众科学素质促进大会在北京召开,国家主席习近平向大会致贺信中指出,科学技术是第一生产力,创新是引领发展的第一动力某企业积极响应国家“科技创新”的号召,大力研发新产品,为了对新研发的一批产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组销售数据{xi,yi)(i=1,2,3,4,5,6),如表
试销单价x(百元)
1
2
3
4
5
6
产品销量y(件)
91
86
p
78
73
70
(1)求出p的值;
(2)已知变量x,y具有线性相关关系,求产品销量y(件)关于试销单价:x(百元)的线性国归方程(计算结果精确到整数位);
(3)用表示用正确的线性回归方程得到的与x对应的产品销的估计值当销售数据(xi,yi)的残差的绝对值|yi﹣y|<1时,则将销售数据称为一个“有效数据”现从这6组销售数中任取2组,求抽取的2组销售数据都是“有效数据”的概率.
参考公式及数据yi=80,1606,91,,.
【答案】(1)p=82;(2);(3)
【分析】
(1)由题意可列方程,解方程即可得解;
(2)把数据代入公式,求得,后即可得解;
(3)由题意找出有效数据,把所有的情况列举出来后,找到符合要求的个数即可得解.
(1)由yi=80,得,求得p=82;
(2),.
∴所求的线性回归方程为;
(3)当x1=1时,y1=90;当x2=2时,y2=86;当x3=3时,y3=82;当x4=4时,y4=78;当x5=5时,y5=74;当x6=6时,y6=70.
与销售数据对比可知满足|yi﹣y|<1(i=1,2,…,6)的共有4个“有效数据”:(2,86)、(3,82)、(8,78)、(6,70).
给6组销售数据编号,则从6组销售数中任取2组有:(1,2)、(1,3)、(1,4)、
(1,5)、(1,6)、(2,3)、(2,4)、(2,5)、(2,6)、(3,4)、(3,5)、(3,6)、
(4,5)、(4,6)、(5,6)共15种情况,其中两组都是有效数据的情况有6种.
∴抽取的2组销售数据都是“有效数据”的概率为.
【提分秘籍】
基本规律
残差计算:
【变式演练】
1.“大众创业,万众创新”是李克强总理在本届政府工作报告中向全国人民发出的口号.某生产企业积极响应号召,大力研发新产品.为了对新研发的一批产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组销售数据,如下表所示:
已知.
(1)求出的值;
(2)已知变量,具有线性相关关系,求产品销量(件)关于试销单价(元)的线性回归方程;
(3)用表示用正确的线性回归方程得到的与对应的产品销量的估计值.当销售数据的残差的绝对值时,则将销售数据称为一个“好数据”.现从6个销售数据中任取2个,求抽取的2个销售数据中至少有1个是“好数据”的概率.
【答案】(I);(II);(III).
试题分析:(1)借助题设条件直接求解;(2)运用相关系数公式求解;(3)依据题设条件及新定义的概念和概率公式求解:
试题解析:
解:(Ⅰ),可求得.
(Ⅱ),
,
所以所求的线性回归方程为.
(Ⅲ)当时,;当时,;当时,;当时,;当时,;当时,.
与销售数据对比可知满足(1,2,…,6)的共有3个“好数据”:、、.
从6个销售数据中任意抽取2个的所有可能结果有种,
其中2个数据中至少有一个是“好数据”的结果有种,
于是从抽得2个数据中至少有一个销售数据中的产品销量不超过80的概率为.
2..医学中判断男生的体重是否超标有一种简易方法,就是用一个人身高的厘米数减去105所得差值即为该人的标准体重.比如身高175cm的人,其标准体重为175-105=70公斤,一个人实际体重超过了标准体重,我们就说该人体重超标了.已知某班共有30名男生,从这30名男生中随机选取6名,其身高和体重的数据如表所示:
编号
1
2
3
4
5
6
身高(cm)
165
171
160
173
178
167
体重(kg)
60
63
62
70
71
58
(1)从这6人中任选2人,求恰有1人体重超标的概率;
(2)依据上述表格信息,用最小二乘法求出了体重y对身高x的线性回归方程:,但在用回归方程预报其他同学的体重时,预报值与实际值吻合不好,需要对上述数据进行残差分析.按经验,对残差在区间之外的同学要重新采集数据.问上述随机抽取的编号为3,4,5,6的四人中,有哪几位同学要重新采集数据?
参考公式:残差.
【答案】(1);(2)3号和6号需要重新采集数据.
【分析】
(1)求出6人中体重超标的人数,再由古典概型概率计算公式即可求解;
(2)先根据回归直线方程必过样本中心求出,进而求出残差,即可判断出哪些同学需要重新采集数据.
(1)由表可知:
1号同学的标准体重为;
2号同学的标准体重为;
3号同学的标准体重为;
4号同学的标准体重为;
5号同学的标准体重为;
6号同学的标准体重为;
故3号、4号同学体重超标,所以恰有1人体重超标的概率;
(2)因为,
,
回归直线方程必过样本中心,得,即,
所以回归直线方程为,
残差分析:
,
,
,
,
故3号和6号同学需要重新采集数据.
【题型三】 剔除数据重新计算
【典例分析】
习近平总书记在党的十九大报告中指出,要在“幼有所育、学有所教、劳有所得、病有所医、老有所养、住有所居、弱有所扶”上不断取得新进展,保证全体人民在共建共享发展中有更多获得感.现S市政府针对全市10所由市财政投资建设的敬老院进行了满意度测评,得到数据如下表:
敬老院
A
B
C
D
E
F
G
H
I
K
满意度x(%)
20
34
25
19
26
20
19
24
19
13
投资原y(万元)
80
89
89
78
75
71
65
62
60
52
(1)求投资额关于满意度的相关系数;
(2)我们约定:投资额关于满意度的相关系数的绝对值在0.75以上(含0.75)是线性相关性较强,否则,线性相关性较弱.如果没有达到较强线性相关,则采取“末位淘汰”制(即满意度最低的敬老院市财政不再继续投资,改为区财政投资).求在剔除“末位淘汰”的敬老院后投资额关于满意度的线性回归方程(系数精确到0.1)
参考数据:,,,,.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:.线性相关系数.
【答案】(1)0.72;(2)
【分析】
(1)由题意,根据相关系数的公式,可得的值,即可求解;
(2)由(1)可知,得投资额关于满意度没有达到较强线性相关,利用公式求得的值,即可得出回归直线的方程.
(1)由题意,根据相关系数的公式,可得.
(2)由(1)可知,因为,所以投资额关于满意度没有达到较强线性相关,
所以要“末位淘汰”掉K敬老院.
重新计算得,,
,
,
所以,
.
所以所求线性回归方程为.
【提分秘籍】
基本规律
剔除数据时,要注意平均值和公式数据的相关计算,参考典例分析
【变式演练】
1.BMI指数是用体重公斤数除以身高米数的平方得出的数值,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.对于高中男体育特长生而言,当BMI数值大于或等于20.5时,我们说体重较重,当BMI数值小于20.5时,我们说体重较轻,身高大于或等于170cm时,我们说身高较高,身高小于170cm时,我们说身高较矮.某中小学生成长与发展机构从某市的320名高中男体育特长生中随机选取8名,其身高和体重的数据如表所示:
编号
1
2
3
4
5
6
7
8
身高(cm)
166
167
160
173
178
169
158
173
体重(kg)
57
58
53
61
66
57
50
66
(1)根据最小二乘法的思想与公式求得线性回归方程.利用已经求得的线性回归方程,请完善下列残差表,并求解释变量(身高)对于预报变量(体重)变化的贡献值(保留两位有效数字);
编号
1
2
3
4
5
6
7
8
身高(cm)
166
167
160
173
178
169
158
173
体重(kg)
57
58
53
61
66
57
50
66
残差
0.1
0.3
0.9
﹣1.5
﹣0.5
(2)通过残差分析,对于残差的最大(绝对值)的那组数据,需要确认在样本点的采集中是否有人为的错误.已知通过重新采集发现,该组数据的体重应该为58(kg).请重新根据最小二乘法的思想与公式,求出男体育特长生的身高与体重的线性回归方程.
参考公式: ,..
参考数据:,,,,.
【答案】(1)填表见解析;;(2).
(1)由表中的数据可求出线性回归方程为,进而可完善所给表格,求出所有残差值.由即可求出贡献值.
(2)计算修订后以及,代入到,进而可求出线性回归方程.
解:(1)由题意知线性回归方程为,计算,,.完善下列残差表如下,
编号
1
2
3
4
5
6
7
8
身高(cm)xi
166
167
160
173
178
169
158
173
体重(kg)yi
57
58
53
61
66
57
50
66
残差
0.1
0.3
0.9
﹣1.5
﹣0.5
﹣2.3
﹣0.5
3.5
计算 ,
所以解释变量(身高)对于预报变量(体重)变化的贡献值.
(2)通过残差分析知,残差的最大(绝对值)的那组数据为第8组,且
由,计算修订后
又,,修订后.
所以,
.
所以关于的线性回归方程是.
2.某手机公司生产某款手机,如果年返修率不超过千分之一,则生产部门当年考核优秀,现获得该公司2010-2018年的相关数据如下表所示:
年份
2010
2011
2012
2013
2014
2015
2016
2017
2018
年生产量(万台)
3
4
5
6
7
7
9
10
12
产品年利润(千万元)
3.6
4.1
4.4
5.2
6.2
7.8
7.5
7.9
9.1
年返修量(台)
47
42
48
50
92
83
72
87
90
(1)(理)从该公司2010-2018年的相关数据中任意选取3年的数据,以表示3年中生产部门获得考核优秀的次数,求的分布列和数学期望;
(2)根据散点图发现2015年数据偏差较大,如果去掉该年的数据,试用剩下的数据求出年利润(千万元)关于年生产量(万台)的线性回归方程(精确到0.01).部分计算结果:,,.
附:;线性回归方程中,,.
【答案】(1)见解析(2)
【分析】
(1)由题可得有五个年份考核优秀,即可求出可能的取值以及对应的概率,得出的分布列及其数学期望.
(2)计算出去掉2015年数据之后的,,将数据代入计算,再由计算出,即可得到线性回归方程.
解:(1)由数据可知,2012,2013,2016,2017,2018五个年份考核优秀,
所以的所有可能取值为0,1,2,3,
,,
,,
故的分布列为:
0
1
2
3
∴
(2)因为,,
所以去掉2015年的数据后不影响的值,
所以,去掉2015年数据后,,,
所以,故回归方程为:.
【题型四】 非线性回归1:指数型
【典例分析】
从集市上买回来的蔬菜仍存有残留农药,食用时需要清洗数次,统计表中的表示清洗的次数,表示清洗次后千克该蔬菜残留的农药量(单位:微克).
x
1
2
3
4
5
y
4.5
2.2
1.4
1.3
0.6
(1)在如图的坐标系中,描出散点图,并根据散点图判断,与哪一个适宜作为清洗次后千克该蔬菜残留的农药量的回归方程类型;(给出判断即可,不必说明理由)
(2)根据判断及下面表格中的数据,建立关于的回归方程;
表中,.
3
2
0.12
10
0.09
-8.7
0.9
(3)对所求的回归方程进行残差分析.
附:①线性回归方程中系数计算公式分别为,;
②,说明模拟效果非常好;
③,,,,.
【答案】(1)见解析;(2);(3)拟合效果非常好.
【分析】
(1)先根据数据作出散点图,结合散点图给出判断;
(2)根据,,及相关公式可求关于的回归方程;
(3)先求解估计值与真实数据间的差,根据公式求出,然后进行判断.
(1)散点图如图,
根据散点图可知用作为清洗次后千克该蔬菜残留的农药量的回归方程类型.
(2)由题知,,
故所求的回归方程为.
(3)列表如下:
0
0
0.1
0.3
-0.3
2.5
0.2
-0.6
-0.7
-1.4
所以,,,
所以回归模拟的拟合效果非常好.
【提分秘籍】
基本规律
1.直接设指数求解;
2.取对数化简,再设对数求解
【变式演练】
1.为了研究一种昆虫的产卵数y和温度x是否有关,现收集了7组观测数据列于下表中,并做出了散点图,
发现样本点并没有分布在某个带状区域内,两个变量并不呈现线性相关关系,现分别用模型①与模型;②作为产卵数y和温度x的回归方程来建立两个变量之间的关系.
温度x/℃
20
22
24
26
28
30
32
产卵数y/个
6
10
21
24
64
113
322
400
484
576
676
784
900
1024
1.79
2.30
3.04
3.18
4.16
4.73
5.77
26
692
80
3.57
1157.54
0.43
0.32
0.00012
其中,,,.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
(1)根据表中数据,模型①、②的相关指数计算分别为,,请根据相关指数判断哪个模型的拟合效果更好.
(2)根据(1)中的判断,在拟合效果更好的模型下求y关于x的回归方程;并估计温度为30℃时的产卵数.(,,,与估计值均精确到小数点后两位)
(参考数据:,,)
【答案】(1)模型②的拟合效果更好;(2),当时,估计产卵数为.
【分析】
(1)根据相关指数的大小,即可比较模型拟合效果的优劣,相关指数越大,拟合效果越好;
(2)由(1)可知选模型②,两边取对数得,再令,则,所以先利用最小二乘法求的回归系数,再代换回去即可.
解:(1)因为,所以模型②的拟合效果更好.
(2)由(1)知模型②的拟合效果更好,
对于模型②:设,则,
其中,
.
所以y关于x的回归方程为,
当时,估计产卵数为.
2.近年来,由于耕地面积的紧张,化肥的施用量呈增加趋势.一方面,化肥的施用对粮食增产增收起到了关键作用,另一方面,也成为环境污染、空气污染、土壤污染的重要来源之一如何合理地施用化肥,使其最大程度地促进粮食增产,减少对周围环境的污染成为需要解决的重要问题研究粮食产量与化肥施用量的关系,成为解决上述问题的前提某研究团队收集了10组化肥施用量和粮食亩产量的数据并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值化肥施用量为(单位:公斤),粮食亩产量为(单位:百公斤).
参考数据:
650
91.5
52.5
1478.6
30.5
15
15
46.5
表中.
(1)根据散点图判断,与,哪一个适宜作为粮食亩产量关于化肥施用量的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)根据(2)的回归方程,并预测化肥施用量为27公斤时,粮食亩产量的值;
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为;②取.
【答案】(1)更适合作为关于的回归方程类型;(2);(3)810公斤.
【分析】
(1)根据散点图即可判断,更适合作为关于的回归方程类型;
(2)对两边取对数,得,即,根据表中数据求出,再根据最小二乘法求出和的值,从而得出关于的回归方程;
(3)由(2)得,当时,即可预测粮食亩产量的值.
(1)
解:根据散点图可判断,更适合作为关于的回归方程类型.
(2)
解:对两边取对数,得,即,
由表中数据得:,,
,
,所以,
所以关于的回归方程为.
(3)
解:由(2)得,
当时,,
所以当化肥施用量为27公斤时,粮食亩产量约为810公斤.
【题型五】 非线性回归2:反比例型
【典例分析】
为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:)与样本对原点的距离(单位:)的数据,并作了初步处理,得到了下面的一些统计量的值.(表中,).
6
97.90
0.21
60
0.14
14.12
26.13
﹣1.40
(1)利用样本相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型?
(2)根据(1)的结果回答下列问题:
(i)建立关于的回归方程;
(ii)样本对原点的距离时,金属含量的预报值是多少?
(iii)已知该金属在距离原点时的平均开采成本(单位:元)与,关系为,根据(2)的结果回答,为何值时,开采成本最大?
附:对于一组数据,其线性相关系数,
其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)更适宜;(2)(i);(ii);(iii)为10时,开采成本最大.
【分析】
(1)计算出的线性相关系数和的线性相关系数可得答案;
(2)(i)计算出和,可得关于的回归方程;
(ii)代入可得答案;
(iii)求出,令,判断的单调性可得答案.
(1)的线性相关系数,
的线性相关系数,
∵,
∴更适宜作为平均金属含量关于样本对原点的距离的回归方程类型.
(2)(i),,
∴,
∴关于的回归方程为.
(ii)当时,金属含量的预报值为.
(iii),
令,则,
当时,,单调递增;当时,,单调递减,
∴在处取得极大值,也是最大值,此时取得最大值,
故为10时,开采成本最大.
【提分秘籍】
基本规律
反比例型,一般可直接设
【变式演练】
1.近年来,政府相关部门引导乡村发展旅游的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲,乙两同学一起收集6家农户的数据,进行回归分析,得到两个回归摸型:模型①:,模型②: ,对以上两个回归方程进行残差分析,得到下表:
种植面积(亩)
2
3
4
5
7
9
每亩种植管理成本(百元)
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
17.02
13.72
残差
-0.27
0.38
-0.97
-1.02
0.28
模型②
26.84
20.17
18.83
17.31
16.46
-1.84
0.83
3.17
-1.31
-2.46
(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;
(2)视残差的绝对值超过1.5的数据视为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求回归方程.
附:, ;
【答案】(1)表格答案见解析,模型①拟合效果比较好.(2)
【分析】
(1)令时,求得,,令时,求得,,填入表格即可.根据残差平方和公式,分别求得模型①的残差平方和,模型②的残差平方和,再比较下结论.
(2)根据视残差的绝对值超过1.5的数据视为异常数据,应剔除第四组数据,分别求得,,利用公式进而求得,,写出回归方程.
(1)当时,,,
当时,,,
完成表格如下:
种植面积(亩)
2
3
4
5
7
9
每亩种植管理成本(百元)
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
20.32
17.02
13.72
残差
-0.27
0.38
-0.97
1.68
-1.02
0.28
模型②
26.84
22.39
20.17
18.83
17.31
16.46
-1.84
1.61
0.83
3.17
-1.31
-2.46
模型①的残差平方和为,
模型②的残差平方和为,
所以模型①的残差平方和比模型②的残差平方和小,
所以模型①拟合效果比较好.
(2)由题意知,应剔除第四组数据,
,,
,
,
∴所求回归方程为.
2.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①;②,若对于任意一点,过点作与轴垂直的直线,交函数的图象于点,交函数的图象于点,定义:,,若则用函数来拟合与之间的关系更合适,否则用函数来拟合与之间的关系.
(1)给定一组变量,对于函数与函数,试利用定义求,的值,并判断哪一个更适合作为点中的与之间的拟合函数;
(2)若一组变量的散点图符合图象,试利用下表中的有关数据与公式求与的回归方程,并预测当时,的值为多少.
表中的,
附:对于一组数据,,,其回归直线方程的斜率和截距的最小二乘估计分别为,
【答案】(1);;函数更适合;(2);.
【分析】
(1)由分别取时对应的函数值,再根据变量,分别求得,比较下结论;
(2)在中,令,得到,然后利用最小二乘法求得,写出关于的线性回归方程,进而得到关于的回归方程即可.
(1)对于函数,当分别取时对应的函数值为,
此时
对于函数,当分别取时对应的函数值为,
此时
从而有,
因此由定义得选用函数更适合作为点中的与之间的拟合函数.
(2)在中,令,所以有,
于是可建立关于的线性回归方程为,
所以,
,
所以关于的线性回归方程为,
因此关于的回归方程为,
当时,,即可预测当时,的值为.
【题型六】 非线性回归3:对数型
【典例分析】
某投资公司2012年至2021年每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图如图:该投资公司为了预测2022年投资金额为20万元时的年利润增量,建立了关于的两个回归模型;模型①:由最小二乘公式可求得与的线性回归方程:;模型②:由图中样本点的分布,可以认为样本点集中在由线:的附近,对投资金额做换元,令,则,且有,
(1)根据所给的统计量,求模型②中关于的回归方程;
(2)分别利用这两个回归模型,预测投资金额为20万元时的年利润增量(结果保留两位小数);
附:样本的最小乘估计公式为;参考数据:.
【答案】(1)
(2)模型①的年利润增量的预测值为(万元),模型②的年利润增量的预测值为(万元)
【分析】
(1)结合已知数据和公式求出这两个系数即可得回归方程;
(2)把代入模型①、②的回归方程,算出即可.
(1)由题意,知,可得,
又由,
则
所以,模型②中关于的回归方程.
(2)当时,模型①的年利润增量的预测值为(万元),
当时,模型②的年利润增量的预测值为
万元
【提分秘籍】
基本规律
1,对指数型取对数;2.直接设对数。
【变式演练】
1.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:
年份
2013
2014
2015
2016
2017
2018
2019
2020
年份代码
1
2
3
4
5
6
7
8
运营里程万公里
1.3
1.6
1.9
2.2
2.5
2.9
3.5
3.9
根据以上数据,回答下面问题.
(1)甲同学用曲线y=bx+a来拟合,并算得相关系数r1=0.97,乙同学用曲线y=cedx来拟合,并算得转化为线性回归方程所对应的相关系数r2=0.99,试问哪一个更适合作为y关于x的回归方程类型,并说明理由;
(2)根据(1)的判断结果及表中数据,求y关于x的回归方程(系数精确到0.01).
参考公式:用最小二乘法求线性回归方程的系数公式:;参考数据:令
【答案】(1)答案见解析;(2).
【分析】
(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出,结合回归方程变形为,求出和,从而可求出回归方程.
解:(1)∵,∴更适合作为y关于x的回归方程类型.
(2),由得,
即,则,
,所以.
2.某电器企业统计了近年的年利润额(千万元)与投入的年广告费用(十万元)的相关数据,散点图如图,对数据作出如下处理:令,,得到相关数据如表所示:
15
15
(1)从①;②;③三个函数中选择一个作为年广告费用和年利润额的回归类型,判断哪个类型符合,不必说明理由;
(2)根据(1)中选择的回归类型,求出与的回归方程;
(3)预计要使年利润额突破亿,下一年应至少投入多少广告费用?结果保留到万元
参考数据:
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为
湖北省荆州中学2021-2022学年高三上学期期末数学试题
【答案】(1)选择回归类型更好;(2);(3)下一年应至少投入万元广告费用.
【分析】
(1)根据散点图形状可确定回归类型;
(2)对两边取对数,利用最小二乘法可求得,由此可得回归方程;
(3)令可解出的范围,进而确定结果.
(1)由散点图知,年广告费用和年利润额的回归类型并不是直线型的,而是曲线型的,
所以选择回归类型更好.
(1)对两边取对数,得:,即,
由表中数据得:,,,
年广告费用和年利润额的回归方程为.
(3)由(2)知:,
令得:,解得:,
,(十万元),十万元万元
下一年应至少投入万元广告费用.
【题型七】 非线性回归4:其他函数型
【典例分析】
光伏发电是利用太阳能电池及相关设备将太阳光能直接转化为电能.近几年在国内出台的光伏发电补贴政策的引导下,某地光伏发电装机量急剧上涨,如下表:
年份
2011年
2012年
2013年
2014年
2015年
2016年
2017年
2018年
年份代码
1
2
3
4
5
6
7
8
新增光伏装机量兆瓦
0.4
0.8
1.6
3.1
5.1
7.1
9.7
12.2
某位同学分别用两种模型:①,②进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差等于):
经过计算得,,,,其中,.
(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由.
(2)根据(1)的判断结果及表中数据建立关于的回归方程,并预测该地区2020年新增光伏装机量是多少.(在计算回归系数时精确到0.01)
附:回归直线的斜率和截距的最小二乘估计公式分别为:,.
【答案】(1)模型①的拟合效果相对较好;详见解析(2)回归方程为;预测该地区2020年新增光伏装机量为(兆瓦)
【分析】
(1)根据残差图的带状区域越窄,其模型的拟合效果越好即可判断;
(2)利用换元的思想,令,把非线性的回归方程转化为线性的回归方程,结合题中的数据和公式求出,再由回归直线经过样本中心点,求出即可求出回归方程;把代入回归方程求出即为所求的预测值.
(1)选择模型①.
理由如下:根据残差图可以看出,模型①的估计值和真实值相对比较接近,模型②的残差相对较大一些,所以模型①的拟合效果相对较好.
(2)由(1),知关于的回归方程为,令,则.
由所给数据可得,
,
所以,
由线性回归方程经过样本中心点可得,
.
所以关于的回归方程为.
预测该地区2020年新增光伏装机量为(兆瓦).
【提分秘籍】
基本规律
幂函数型等其他类型,可类比前几种
【变式演练】
1.年月日,第四届中国国际进口博览会在上海开幕,共计多家参展商参展,多项新产品,新技术,新服务在本届进博会上亮相.某投资公司现从中选出种新产品进行投资.为给下一年度投资提供决策依据,需了解年研发经费对年销售额的影响,该公司甲、乙两部门分别从这种新产品中随机地选取种产品,每种产品被甲、乙两部门是否选中相互独立.
(1)求种新产品中产品被甲部门或乙部门选中的概率;
(2)甲部门对选取的种产品的年研发经费(单位:万元)和年销售额(单位:十万元)数据作了初步处理,得到下面的散点图及一些统计量的值.根据散点图现拟定关于的回归方程为.求、的值(结果精确到);
(3)甲、乙两部门同时选中了新产品,现用掷骰子的方式确定投资金额.若每次掷骰子点数大于,则甲部门增加投资万元,乙部门不增加投资;若点数小于,则乙部门增加投资万元,甲部门不增加投资,求两部门投资资金总和恰好为万元的概率.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,,,.
【答案】(1);(2),;(3).
【分析】
(1)利用组合计数原理、古典概型的概率公式以及对立事件的概率公式可求得所求事件的概率;
(2)令,计算出、的值,利用最小二乘法公式结合表格中的数据可求得、的值;
(3)设投资资金总和恰好为万元的概率为,则投资资金总和恰好为万元的概率为,推导出数列是首项为,公比为的等比数列,利用累加法可求得的值.,
(1)解:种新产品中产品没有被甲部门和乙部门同时选中的概率,
所以产品被甲部门或乙部门选中的概率为.
(2)解:令,由题中数据得,,
,,
,.
(3)解:由题意知,掷骰子时甲部门增加投资万元发生的概率为,乙部门增加投资万元发生的概率为.
设投资资金总和恰好为万元的概率为,则投资资金总和恰好为万元的概率为.
所以,
因为,,,
所以数列是首项为,公比为的等比数列,所以,
所以
,
所以投资资金总和恰好为万元的概率是.
2.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:吨)的影响,对近年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
289.8
1.6
1469
108.8
表中:,
(1)根据散点图判断,与,哪一个适宜作为年销售量关于年宣传费的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)根据(2)中的回归方程,求当年宣传费千元时,年销售预报值是多少?
附:对于一组数据,,…,,其回归线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)由散点图可判断适宜作为年销售量关于年宣传费的回归方程类型;(2);(3)吨.
【分析】
(1)由散点图可以知,关系是非线性的即可判断;
(2)令,则,利用根据题中数据可计算,的值,即可得关于的线性回归方程,再将代入即可求解;
(3)将代入关于的回归方程即可求解.
(1)由散点图可以判断:适宜作为年销售量关于年宣传费的回归方程类型;
(2)令,先建立关于的线性回归方程,
由于,
,
所以关于的线性回归方程为,
所以关于的回归方程为;
(3)由(2)知:当时,年销售量的预报值
故年宣传费千元时,年销售预报值是吨.
1.某课外活动兴趣小组为了解某种植物的生长情况,收集了该种植物月生长量与月平均气温(℃)的6组数据.
编号
1
2
3
4
5
6
14
15
17
18
20
21
3
5
6
8
10
12
(1)请根据上面的数据求关于的线性回归方程(结果保留1位小数);
(2)利用(1)中求出的线性回归方程进行残差分析.若用中的估计回归方程中的,由于随机误差,所以是的估计值,为相应点的残差.请填写下面的残差表,并绘制残差图,根据得到的残差图,分析该回归方程的拟合效果.
残差表:
编号
1
2
3
4
5
6
14
15
17
18
20
21
3
5
6
8
10
12
残差图:
参考数据:,,,.参考公式:线性回归方程中,,.
【答案】(1);(2)残差表答案见解析,残差图答案见解析,拟合效果较好.
(1)直接代入数据进行计算即可求解;(2)根据公式计算残差,通过残差图判断拟合效果情况.
(1)由表中数据可得,,
有,则,
所以关于的线性回归方程为.
(2)填写残差表如表所示.
编号
1
2
3
4
5
6
14
15
17
18
20
21
3
5
6
8
10
12
画出残差图如图所示
根据残差图可知残差对应的点比较均匀地落在水平的带状区域中,且带状区域的宽度较窄,该回归方程的预报精度相应会较高,说明拟合效果较好.
2.某新兴环保公司为了确定新开发的产品下一季度的营销计划,需了解月宣传费x(单位:千元)对月销售量y(单位:t)和月利润z(单位:千元)的影响,收集了2019年12月至2020年5月共6个月的月宣传费和月销售量()的数据如下表:
月份
12
1
2
3
4
5
宣传费x
1
3
5
7
9
11
月销售量y
14.21
20.31
31.8
31.18
37.83
44.67
现分别用两种模型①,②分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:(注残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.)
6
30
1284.24
286
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除,剔除异常数据后求出(1)中所选模型的回归方程;
(3)已知该产品的月利润z与x,y的关系为,根据(2)的结果回答下列问题:
(i)若月宣传费时,该模型下月销售量y的预报值为多少?
(ii)当月宣传费x为何值时,月利润z的预报值最大?
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,
【答案】(1)选择模型①,理由见解析;(2);(3)(i)53.04(千元);(ii)(千元)时, 月利润z的预报值最大.
【分析】
(1)从两个方面说明应该选择模型①;
(2)利用最小二乘法原理求回归方程;
(3)(i)把代入回归方程即得解;
(ii)求出,再利用二次函数分析得解.
(1)应该选择模型①,一是因为模型①残差点整体上更接近,二是因为残差点比较均匀地落在水平的带状区域中,说明该模型拟合精度越高,回归方程的预报精度越高.
(2)剔除异常数据,即2020年2月的数据后,
由题得;
,,
;
,
所以关于的线性回归方程为.
(3)(i)把代入回归方程得:,故预报值约为53.04(千元)
(ii)
所以当(千元)时,月利润预报值最大.
3.(衡水金卷2021-2022学年度高三一轮复习摸底测试卷数学(三))千百年来,人们一直在通过不同的方式传递信息.在古代,烽火狼烟、飞鸽传书、快马驿站等通信方式被人们广泛应用;第二次工业革命后,科技的进步带动了电讯事业的发展,电报电话的发明让通信领域发生了翻天覆地的变化;之后,计算机和互联网的出现则使得“千里眼”“顺风耳”变为现实.现在,的到来给人们的生活带来颠覆性的变革,某科技创新公司基于领先技术的支持,经济收入在短期内逐月攀升,该创新公司在第月份至6月份的经济收入(单位:百万元)关于月份的数据如表:
时间(月份)
1
2
3
4
5
6
收入(百万元)
根据以上数据绘制散点图,如图.
(1)根据散点图判断,与均为常数)哪一个适宜作为经济收入关于月份的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出关于的回归方程,并预测该公司8月份的经济收入;
(3)从前6个月的收入中抽取个﹐记月收入超过百万的个数为,求的分布列和数学期望.
参考数据:
其中设
参考公式和数据:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为:,
【答案】(1);(2),百万元;(3)分布列见解析,2.
【分析】
(1)根据散点图的分布即可得到答案;
(2)根据题意,,然后根据参考数据求出方程,进而得到y关于x的回归方程,最后将代入方程即可得到答案;
(3)根据超几何分布求概率的方法求得概率,然后列出分布列,最后根据期望公式求出期望.
(1)
根据散点图判断,适宜作为经济收入关于月份的回归方程类型.
(2)
因为,所以两边同时取常用对数﹐得,
设,所以,又因为,
所以,,
所以,即,
令,得,故预测该公司月份的经济收入为百万元.
(3)
前个月的收入中,月收入超过百万的有个,所以的取值为,
,,,
所以的分布列为
所以.
4.某保险公司根据官方公布的历年营业收入,制成表格如下:
表1
年份
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
年份序号x
1
2
3
4
5
6
7
8
9
10
营业收入y(亿元)
0.52
9.36
33.6
132
352
571
912
1207
1682
2135
由表1,得到下面的散点图:
根据已有的函数知识,某同学选用二次函数模型(b和a是待定参数)来拟合y和x的关系.这时,可以对年份序号做变换,即令,得,由表1可得变换后的数据见表2.
表2
T
1
4
9
16
25
36
49
64
81
100
Y
0.52
9.36
33.6
132
352
571
912
1207
1682
2135
(1)根据表中数据,建立y关于t的回归方程(系数精确到个位数);
(2)根据(1)中得到的回归方程估计2021年的营业收入,以及营业收入首次超过4000亿元的年份.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
参考数据:.
【答案】(1);(2)估计2021年的营业收入约为2518亿元,估计营业收入首次超过4000亿元的年份为2024年.
【分析】
(1)根据的公式,将题干中的数据代入,即得解;
(2)代入,可估计2021年的营业收入;令,可求解的范围,继而得到的范围,即得解
(1),
,
故回归方程为.
(2)2021年对应的t的值为121,营业收入,
所以估计2021年的营业收入约为2518亿元.
依题意有,解得,故.
因为,
所以估计营业收入首次超过4000亿元的年份序号为14,即2024年.
5.自从新型冠状病毒爆发以来,美国疫情持续升级,以下是美国2020年4月9日-12月14日每隔25天统计1次共计11次累计确诊人数(万).
日期(月/日)
4/09
5/04
5/29
6/23
7/18
8/13
统计时间序号
1
2
3
4
5
6
累计确认人数
43.3
118.8
179.4
238.8
377.0
536.0
日期(月/日)
9/06
10/01
10/26
11/19
12/14
统计时间序号
7
8
9
10
11
累计确认人数
646.0
744.7
888.9
1187.4
1673.7
(1)将4月9日作为第1次统计,若将统计时间序号作为变量,每次累计确诊人数作为变量,得到函数关系,对上表的数据作初步处理,得到部分数据已作近似处理的一些统计量的值,,,,,,,,,,根据相关数据,确定该函数关系式(参数,的取值精确到0.01);
(2)为了了解患新冠肺炎与年龄的关系,已知某地曾患新冠肺炎的老年、中年、青年的人数分别为45人,30人,15人,按分层抽样的方法随机抽取6人进行问卷调查,再从6人中随机抽取2人进行调查结果对比,求这2人中至少有一人是老年人的概率.
参考公式:线性回归方程中,,;
【答案】(1);(2).
【分析】
(1)由已知函数,两边到自然对数可得,再计算,,可得函数方程.
(2)先由分层抽样的方法求得老年、中年、青年分别抽取的人数,运用列举法和古典概率公式可求得答案.
(1)因为,所以,
由已知得,
,,
∴所求函数方程为.
(2)从90人中按照分层抽样的方法随机抽取6人,
老年、中年、青年分别抽取的人数为3人,2人,1人,
记3个老年人为,,,2个中年人为,,1个青年人为,
抽取的全部结果为,,,,,,,,,,,,B1,B2,B1,C1,B2,C1共15种.
至少1人是老年人的有,,,,,,,,,,,,共12种.
所以至少1人是老年人的概率为p=1215=45.
6.2020年新型冠状病毒肺炎疫情席卷金球,我国在全力保障口罩、防护服等医疗物资供给基础上,重点开展医疗救治急需的呼吸机、心电监护仪等医疗设备的组织生产和及时供应,统筹协调医用物资生产企业高速生产,支援世界各国抗击肺炎疫情.我市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1目~9月9日连续9天的呼吸机日生产量为(单位:百台,i=1,2,⋯,9),数据作了初步处理;得到如图所示的散点图.
i=19ti2
i=19tizi
2.73
19
5
285
1095
注:图中日期代码1~9分别对应9月1日~9月9日;表中zi=eyi,z=19i=19zi
(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;
(2)由散点图分析,样本点都集中在曲线y=ln(bt+a)的附近,求y关于t的方程y=ln(bt+a),并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.
参考公式:回归直线方程是v=βμ+α;β=i=1n(μi-μ)(vi-v)i=1n(μi-μ)2=i=1nμivi-nμvi=1nμi2-n(μ)2, α=v-βμ,
参考数据:e5≈148.4.
【答案】(1);(2)y=ln(4t-1);38.
【分析】
(1)由散点图读出不高于300台的点有5个,其中高于200台的点有4个,从而计算出所求概率;
(2)将对数表达式变成z=ey=bt+a,根据回归方程系数求解公式求得参数a,b,从而求得回归方程,并估算y>5对应的t值即可.
(1)由散点图知,不高于300台的点有5个,其中高于200台的点有4个,
则在2个样本点的生产量都不高于300台的条件下,
2个样本点都高于200台的概率为P=C42C52=35.
(2)y=ln(bt+a)⇔z=ey=bt+a
则由回归方程系数求解公式知,b=i=1ntizi-ntzi=1nti2-n(t)2=1095-9×5×19285-9×52=4,
a=z-bt=19-4×5=-1,
故y=ln(4t-1),
y=ln(4t-1)>5⇒4t-1>e5≈148.5⇒t>37.375
需要38天呼吸机日生产量可超过500台.
7.(四川省成都市郫都区2021-2022学年高三上学期阶段性检测(二)文科数学试题)某公司对某产品作市场调研,获得了该产品的定价x(单位:万元/吨)和一天销售量y(单位:吨)的一组数据,制作了如下的数据统计表,并作出了散点图.
z
i=110zi2
i=110ziyi
0.33
10
3
0.164
100
68
350
表中z=1x,0.2≈0.45,4.8≈2.19.
(1)根据散点图判断,与y=c+k⋅x-1哪一个更适合作为y关于x的回归方程;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果,试建立y关于x的回归方程;
(3)若生产1吨该产品的成本为0.20万元,依据(2)的回归方程,预计定价为多少时,该产品一天的利润最大,并求此时的月利润.(每月按30天计算,计算结果保留两位小数)
(参考公式:回归方程,其中b=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nxi2-nx2,a=y-bx)
【答案】(1)y=c+k⋅x-1;(2)y=-5+5x;(2)预计定价为0.45万元/吨吋,该产品一天的利润最大,此时的月利润为45.00万元.
【分析】
(1)根据散点图作出判断;
(2)根据(1)的判断结果,令z=1x,则y=c+k⋅z,计算系数即可得到方程;
(3)建立利润函数,利用均值不等式求最值即可.
解:(1)根据散点图知y=c+k⋅x-1更适合作为y关于x的回归方程.
(2)令z=1x,则y=c+k⋅z,
则k=i=110ziyi-10zyi=110zi2-10z2=350-10×10×3100-10×32=5,
c=y-k⋅z=-5,y=-5+5x,关于x的回归方程为y=-5+5x.
(3)一天利润为T=y⋅(x-0.20)=5x-5(x-0.2)=6-5x+0.2x≤6-100.2≈1.5.
(当且仅当x=0.2x即x=0.45时取等号)
每月的利润为30×1.5=45.00(万元)
预计定价为0.45万元/吨吋,该产品一天的利润最大,此时的月利润为45.00万元.
8.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据通过对比分析,建立了两个函数模型:①,②,其中α,β,λ,t均为常数,e为自然对数的底数.令ui=xi2, vi=lnyi(i=1,2,⋯,10),经计算得如下数据:
i=110xi-x2
i=110yi-y2
v
26
215
65
2
680
5.36
i=110ui-u2
i=110ui-uyi-y
i=110vi-v2
i=110xi-xvi-v
11250
130
2.6
12
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程;(系数精确到0.01)
(ii)若希望2021年盈利额y为200亿元,请预测2021年的研发资金投入额x为多少亿元?(结果精确到0.01)
附:①相关系数r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2,回归直线y=a+bx中:b=i=1nxi-xyi-yi=1nxi-x2,;②参考数据:ln2≈0.693, ln5≈1.609.
【答案】(1)模型的拟合程度更好;(2)(i)y=e0.18x+0.56;(ii)2021年的研发资金投入量约为26.32亿元.
【分析】
(1)通过换元对变量进行变换,模型①令u=x2可变为y=βu+α,②两边取自然对数可变为lny=λx+t,即,再根据参考数据可求两个方程的相关系数,再比较大小即可得哪一个模型拟合程度更好;
(2)(i)根据(1)可选择函数模型②,通过变化得,求出λ和t,可得ν关于x的线性回归方程,再将v用lny替换,即可得y关于x的回归方程;(ii)根据回归方程,令y=200,求出即可.
(1)设和的相关系数为r1,xi和的相关系数为,由题意,
r1=i=110ui-uyi-yi=110ui-u2i=110yi-y2=13011250×2=1315≈0.87,
r2=i=110xi-xvi-vi=110xi-x2i=110vi-v2=1265×2.6=1213≈0.92,
则r1
(2)(i)先建立ν关于x的线性回归方程,
由,得lny=t+λx,即lny=t+λx,
λ=i=110xi-xvi-vi=110xi-x2=1265,
t=v-λx=5.36-1265×26=0.56,
所以v关于x的线性回归方程为v=0.18x+0.56,
所以lny=0.18x+0.56,则y=e0.18x+0.56.
(ii)2021年盈利额y=200(亿元),
所以2021年的研发资金投入量约为26.32亿元.
9.
目录
一、热点题型归纳 1
【题型一】 线性回归 1
【题型二】 残差 5
【题型三】 剔除数据重新计算 7
【题型四】 非线性回归1:指数型 11
【题型五】 非线性回归2:反比例型 15
【题型六】 非线性回归3:对数型 20
【题型七】 非线性回归4:其他类型 23
二、最新模考题组练 27
【题型一】 线性回归
【典例分析】
如图是某地2014年至2020年生活垃圾无害化处理量(单位:万吨)的折线图.
注:年份代码1~7分别对应年份2014~2020.
(1)由折线图看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;
(2)建立关于的回归方程(系数精确到0.01),预测2022年某地生活垃圾无害化处理量.
附注:
参考数据:,,,.
参考公式:相关系数,回归方程中斜率和截距的最小二乘法估计公式分别为,.
【答案】(1)存在较强的正相关关系,理由见解析
(2),1.82万吨
【分析】
(1)、结合参考数据及参考公式求出相关系数,进而可以得出结论;
(2)、根据参考公式求出回归直线方程,进而可以根据回归直线方程进行数据统计.
(1)
由折线图看出,与之间存在较强的正相关关系,理由如下:
,,,,
.
,故与之间存在较强的正相关关系.
(2)由(1)结合题中数据可得,
,
关于的回归方程,2022年对应的值为9,故,
预测2022年该地生活垃圾无害化处理量为1.82万吨.
【提分秘籍】
基本规律
1.直线型回归常规;2.相关系数应用。
【变式演练】
1.2020年全面建成小康社会取得伟大历史成就,决战脱贫攻坚取得决定性胜利.某市积极探索区域特色经济,引导商家利用多媒体的优势,对本地特产进行广告宣传,取得了社会效益和经济效益的双丰收,某商家统计了7个月的月广告投入(单位:万元)与月销量(单位:万件)的数据如表所示:
月广告投入/万元
1
2
3
4
5
6
7
月销量/万件
28
32
35
45
49
52
60
(1)已知可用线性回归模型拟合与的关系,请用相关系数加以说明,并求关于的线性回归方程;
(2)根据(1)的结论,预计月广告投入大于多少万元时,月销量能突破70万件.
参考数据:,,.
参考公式:相关系数;
回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)相关系数,线性回归模型能够很好地拟合与的关系;;(2)9.04万元.
【分析】
(1)现根据题中数据求得相关系数,从而说明线性回归模型能够很好地拟合与的关系,再根据题中数据求得和,进而求得回归方程;
(2)解不等式即可求出结果.
【详解】
(1)由题意,知,
∴
.
结合,可得,
相关系数,
显然与的线性相关程度相当高,从而线性回归模型能够很好地拟合与的关系.
易知,
,
∴.
∴关于的线性回归方程为.
(2)若月销量突破70万件,则,
解得.
故当月广告投入大于9.04万元时,月销量能突破70万件.
2.根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村200名居民(未接种)5天内每天新接种疫苗的情况,得如下统计表:
第天
1
2
3
4
5
新接种人数
10
15
19
23
28
(1)建立关于的线性回归方程;
(2)预测该村居民接种新冠疫苗需要几天?
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为: ,.
【答案】(1);(2).
【分析】
(1)本题首先可以求出、,然后求出、,即可求出关于的线性回归方程;
(2)本题可设,数列的前项和为,然后根据等差数列求和公式得出,最后求出、,即可得出结果.
(1),,
则,,
故关于的线性回归方程.
(2),
设,数列的前项和为,易知数列是等差数列,
则,
因为,,
所以预测该村居民接种新冠疫苗需要天.
【题型二】 残差
【典例分析】
2018年9月17日,世界公众科学素质促进大会在北京召开,国家主席习近平向大会致贺信中指出,科学技术是第一生产力,创新是引领发展的第一动力某企业积极响应国家“科技创新”的号召,大力研发新产品,为了对新研发的一批产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组销售数据{xi,yi)(i=1,2,3,4,5,6),如表
试销单价x(百元)
1
2
3
4
5
6
产品销量y(件)
91
86
p
78
73
70
(1)求出p的值;
(2)已知变量x,y具有线性相关关系,求产品销量y(件)关于试销单价:x(百元)的线性国归方程(计算结果精确到整数位);
(3)用表示用正确的线性回归方程得到的与x对应的产品销的估计值当销售数据(xi,yi)的残差的绝对值|yi﹣y|<1时,则将销售数据称为一个“有效数据”现从这6组销售数中任取2组,求抽取的2组销售数据都是“有效数据”的概率.
参考公式及数据yi=80,1606,91,,.
【答案】(1)p=82;(2);(3)
【分析】
(1)由题意可列方程,解方程即可得解;
(2)把数据代入公式,求得,后即可得解;
(3)由题意找出有效数据,把所有的情况列举出来后,找到符合要求的个数即可得解.
(1)由yi=80,得,求得p=82;
(2),.
∴所求的线性回归方程为;
(3)当x1=1时,y1=90;当x2=2时,y2=86;当x3=3时,y3=82;当x4=4时,y4=78;当x5=5时,y5=74;当x6=6时,y6=70.
与销售数据对比可知满足|yi﹣y|<1(i=1,2,…,6)的共有4个“有效数据”:(2,86)、(3,82)、(8,78)、(6,70).
给6组销售数据编号,则从6组销售数中任取2组有:(1,2)、(1,3)、(1,4)、
(1,5)、(1,6)、(2,3)、(2,4)、(2,5)、(2,6)、(3,4)、(3,5)、(3,6)、
(4,5)、(4,6)、(5,6)共15种情况,其中两组都是有效数据的情况有6种.
∴抽取的2组销售数据都是“有效数据”的概率为.
【提分秘籍】
基本规律
残差计算:
【变式演练】
1.“大众创业,万众创新”是李克强总理在本届政府工作报告中向全国人民发出的口号.某生产企业积极响应号召,大力研发新产品.为了对新研发的一批产品进行合理定价,将该产品按事先拟定的价格进行试销,得到一组销售数据,如下表所示:
已知.
(1)求出的值;
(2)已知变量,具有线性相关关系,求产品销量(件)关于试销单价(元)的线性回归方程;
(3)用表示用正确的线性回归方程得到的与对应的产品销量的估计值.当销售数据的残差的绝对值时,则将销售数据称为一个“好数据”.现从6个销售数据中任取2个,求抽取的2个销售数据中至少有1个是“好数据”的概率.
【答案】(I);(II);(III).
试题分析:(1)借助题设条件直接求解;(2)运用相关系数公式求解;(3)依据题设条件及新定义的概念和概率公式求解:
试题解析:
解:(Ⅰ),可求得.
(Ⅱ),
,
所以所求的线性回归方程为.
(Ⅲ)当时,;当时,;当时,;当时,;当时,;当时,.
与销售数据对比可知满足(1,2,…,6)的共有3个“好数据”:、、.
从6个销售数据中任意抽取2个的所有可能结果有种,
其中2个数据中至少有一个是“好数据”的结果有种,
于是从抽得2个数据中至少有一个销售数据中的产品销量不超过80的概率为.
2..医学中判断男生的体重是否超标有一种简易方法,就是用一个人身高的厘米数减去105所得差值即为该人的标准体重.比如身高175cm的人,其标准体重为175-105=70公斤,一个人实际体重超过了标准体重,我们就说该人体重超标了.已知某班共有30名男生,从这30名男生中随机选取6名,其身高和体重的数据如表所示:
编号
1
2
3
4
5
6
身高(cm)
165
171
160
173
178
167
体重(kg)
60
63
62
70
71
58
(1)从这6人中任选2人,求恰有1人体重超标的概率;
(2)依据上述表格信息,用最小二乘法求出了体重y对身高x的线性回归方程:,但在用回归方程预报其他同学的体重时,预报值与实际值吻合不好,需要对上述数据进行残差分析.按经验,对残差在区间之外的同学要重新采集数据.问上述随机抽取的编号为3,4,5,6的四人中,有哪几位同学要重新采集数据?
参考公式:残差.
【答案】(1);(2)3号和6号需要重新采集数据.
【分析】
(1)求出6人中体重超标的人数,再由古典概型概率计算公式即可求解;
(2)先根据回归直线方程必过样本中心求出,进而求出残差,即可判断出哪些同学需要重新采集数据.
(1)由表可知:
1号同学的标准体重为;
2号同学的标准体重为;
3号同学的标准体重为;
4号同学的标准体重为;
5号同学的标准体重为;
6号同学的标准体重为;
故3号、4号同学体重超标,所以恰有1人体重超标的概率;
(2)因为,
,
回归直线方程必过样本中心,得,即,
所以回归直线方程为,
残差分析:
,
,
,
,
故3号和6号同学需要重新采集数据.
【题型三】 剔除数据重新计算
【典例分析】
习近平总书记在党的十九大报告中指出,要在“幼有所育、学有所教、劳有所得、病有所医、老有所养、住有所居、弱有所扶”上不断取得新进展,保证全体人民在共建共享发展中有更多获得感.现S市政府针对全市10所由市财政投资建设的敬老院进行了满意度测评,得到数据如下表:
敬老院
A
B
C
D
E
F
G
H
I
K
满意度x(%)
20
34
25
19
26
20
19
24
19
13
投资原y(万元)
80
89
89
78
75
71
65
62
60
52
(1)求投资额关于满意度的相关系数;
(2)我们约定:投资额关于满意度的相关系数的绝对值在0.75以上(含0.75)是线性相关性较强,否则,线性相关性较弱.如果没有达到较强线性相关,则采取“末位淘汰”制(即满意度最低的敬老院市财政不再继续投资,改为区财政投资).求在剔除“末位淘汰”的敬老院后投资额关于满意度的线性回归方程(系数精确到0.1)
参考数据:,,,,.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:.线性相关系数.
【答案】(1)0.72;(2)
【分析】
(1)由题意,根据相关系数的公式,可得的值,即可求解;
(2)由(1)可知,得投资额关于满意度没有达到较强线性相关,利用公式求得的值,即可得出回归直线的方程.
(1)由题意,根据相关系数的公式,可得.
(2)由(1)可知,因为,所以投资额关于满意度没有达到较强线性相关,
所以要“末位淘汰”掉K敬老院.
重新计算得,,
,
,
所以,
.
所以所求线性回归方程为.
【提分秘籍】
基本规律
剔除数据时,要注意平均值和公式数据的相关计算,参考典例分析
【变式演练】
1.BMI指数是用体重公斤数除以身高米数的平方得出的数值,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.对于高中男体育特长生而言,当BMI数值大于或等于20.5时,我们说体重较重,当BMI数值小于20.5时,我们说体重较轻,身高大于或等于170cm时,我们说身高较高,身高小于170cm时,我们说身高较矮.某中小学生成长与发展机构从某市的320名高中男体育特长生中随机选取8名,其身高和体重的数据如表所示:
编号
1
2
3
4
5
6
7
8
身高(cm)
166
167
160
173
178
169
158
173
体重(kg)
57
58
53
61
66
57
50
66
(1)根据最小二乘法的思想与公式求得线性回归方程.利用已经求得的线性回归方程,请完善下列残差表,并求解释变量(身高)对于预报变量(体重)变化的贡献值(保留两位有效数字);
编号
1
2
3
4
5
6
7
8
身高(cm)
166
167
160
173
178
169
158
173
体重(kg)
57
58
53
61
66
57
50
66
残差
0.1
0.3
0.9
﹣1.5
﹣0.5
(2)通过残差分析,对于残差的最大(绝对值)的那组数据,需要确认在样本点的采集中是否有人为的错误.已知通过重新采集发现,该组数据的体重应该为58(kg).请重新根据最小二乘法的思想与公式,求出男体育特长生的身高与体重的线性回归方程.
参考公式: ,..
参考数据:,,,,.
【答案】(1)填表见解析;;(2).
(1)由表中的数据可求出线性回归方程为,进而可完善所给表格,求出所有残差值.由即可求出贡献值.
(2)计算修订后以及,代入到,进而可求出线性回归方程.
解:(1)由题意知线性回归方程为,计算,,.完善下列残差表如下,
编号
1
2
3
4
5
6
7
8
身高(cm)xi
166
167
160
173
178
169
158
173
体重(kg)yi
57
58
53
61
66
57
50
66
残差
0.1
0.3
0.9
﹣1.5
﹣0.5
﹣2.3
﹣0.5
3.5
计算 ,
所以解释变量(身高)对于预报变量(体重)变化的贡献值.
(2)通过残差分析知,残差的最大(绝对值)的那组数据为第8组,且
由,计算修订后
又,,修订后.
所以,
.
所以关于的线性回归方程是.
2.某手机公司生产某款手机,如果年返修率不超过千分之一,则生产部门当年考核优秀,现获得该公司2010-2018年的相关数据如下表所示:
年份
2010
2011
2012
2013
2014
2015
2016
2017
2018
年生产量(万台)
3
4
5
6
7
7
9
10
12
产品年利润(千万元)
3.6
4.1
4.4
5.2
6.2
7.8
7.5
7.9
9.1
年返修量(台)
47
42
48
50
92
83
72
87
90
(1)(理)从该公司2010-2018年的相关数据中任意选取3年的数据,以表示3年中生产部门获得考核优秀的次数,求的分布列和数学期望;
(2)根据散点图发现2015年数据偏差较大,如果去掉该年的数据,试用剩下的数据求出年利润(千万元)关于年生产量(万台)的线性回归方程(精确到0.01).部分计算结果:,,.
附:;线性回归方程中,,.
【答案】(1)见解析(2)
【分析】
(1)由题可得有五个年份考核优秀,即可求出可能的取值以及对应的概率,得出的分布列及其数学期望.
(2)计算出去掉2015年数据之后的,,将数据代入计算,再由计算出,即可得到线性回归方程.
解:(1)由数据可知,2012,2013,2016,2017,2018五个年份考核优秀,
所以的所有可能取值为0,1,2,3,
,,
,,
故的分布列为:
0
1
2
3
∴
(2)因为,,
所以去掉2015年的数据后不影响的值,
所以,去掉2015年数据后,,,
所以,故回归方程为:.
【题型四】 非线性回归1:指数型
【典例分析】
从集市上买回来的蔬菜仍存有残留农药,食用时需要清洗数次,统计表中的表示清洗的次数,表示清洗次后千克该蔬菜残留的农药量(单位:微克).
x
1
2
3
4
5
y
4.5
2.2
1.4
1.3
0.6
(1)在如图的坐标系中,描出散点图,并根据散点图判断,与哪一个适宜作为清洗次后千克该蔬菜残留的农药量的回归方程类型;(给出判断即可,不必说明理由)
(2)根据判断及下面表格中的数据,建立关于的回归方程;
表中,.
3
2
0.12
10
0.09
-8.7
0.9
(3)对所求的回归方程进行残差分析.
附:①线性回归方程中系数计算公式分别为,;
②,说明模拟效果非常好;
③,,,,.
【答案】(1)见解析;(2);(3)拟合效果非常好.
【分析】
(1)先根据数据作出散点图,结合散点图给出判断;
(2)根据,,及相关公式可求关于的回归方程;
(3)先求解估计值与真实数据间的差,根据公式求出,然后进行判断.
(1)散点图如图,
根据散点图可知用作为清洗次后千克该蔬菜残留的农药量的回归方程类型.
(2)由题知,,
故所求的回归方程为.
(3)列表如下:
0
0
0.1
0.3
-0.3
2.5
0.2
-0.6
-0.7
-1.4
所以,,,
所以回归模拟的拟合效果非常好.
【提分秘籍】
基本规律
1.直接设指数求解;
2.取对数化简,再设对数求解
【变式演练】
1.为了研究一种昆虫的产卵数y和温度x是否有关,现收集了7组观测数据列于下表中,并做出了散点图,
发现样本点并没有分布在某个带状区域内,两个变量并不呈现线性相关关系,现分别用模型①与模型;②作为产卵数y和温度x的回归方程来建立两个变量之间的关系.
温度x/℃
20
22
24
26
28
30
32
产卵数y/个
6
10
21
24
64
113
322
400
484
576
676
784
900
1024
1.79
2.30
3.04
3.18
4.16
4.73
5.77
26
692
80
3.57
1157.54
0.43
0.32
0.00012
其中,,,.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
(1)根据表中数据,模型①、②的相关指数计算分别为,,请根据相关指数判断哪个模型的拟合效果更好.
(2)根据(1)中的判断,在拟合效果更好的模型下求y关于x的回归方程;并估计温度为30℃时的产卵数.(,,,与估计值均精确到小数点后两位)
(参考数据:,,)
【答案】(1)模型②的拟合效果更好;(2),当时,估计产卵数为.
【分析】
(1)根据相关指数的大小,即可比较模型拟合效果的优劣,相关指数越大,拟合效果越好;
(2)由(1)可知选模型②,两边取对数得,再令,则,所以先利用最小二乘法求的回归系数,再代换回去即可.
解:(1)因为,所以模型②的拟合效果更好.
(2)由(1)知模型②的拟合效果更好,
对于模型②:设,则,
其中,
.
所以y关于x的回归方程为,
当时,估计产卵数为.
2.近年来,由于耕地面积的紧张,化肥的施用量呈增加趋势.一方面,化肥的施用对粮食增产增收起到了关键作用,另一方面,也成为环境污染、空气污染、土壤污染的重要来源之一如何合理地施用化肥,使其最大程度地促进粮食增产,减少对周围环境的污染成为需要解决的重要问题研究粮食产量与化肥施用量的关系,成为解决上述问题的前提某研究团队收集了10组化肥施用量和粮食亩产量的数据并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值化肥施用量为(单位:公斤),粮食亩产量为(单位:百公斤).
参考数据:
650
91.5
52.5
1478.6
30.5
15
15
46.5
表中.
(1)根据散点图判断,与,哪一个适宜作为粮食亩产量关于化肥施用量的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)根据(2)的回归方程,并预测化肥施用量为27公斤时,粮食亩产量的值;
附:①对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为;②取.
【答案】(1)更适合作为关于的回归方程类型;(2);(3)810公斤.
【分析】
(1)根据散点图即可判断,更适合作为关于的回归方程类型;
(2)对两边取对数,得,即,根据表中数据求出,再根据最小二乘法求出和的值,从而得出关于的回归方程;
(3)由(2)得,当时,即可预测粮食亩产量的值.
(1)
解:根据散点图可判断,更适合作为关于的回归方程类型.
(2)
解:对两边取对数,得,即,
由表中数据得:,,
,
,所以,
所以关于的回归方程为.
(3)
解:由(2)得,
当时,,
所以当化肥施用量为27公斤时,粮食亩产量约为810公斤.
【题型五】 非线性回归2:反比例型
【典例分析】
为帮助乡村脱贫,某勘探队计划了解当地矿脉某金属的分布情况,测得了平均金属含量(单位:)与样本对原点的距离(单位:)的数据,并作了初步处理,得到了下面的一些统计量的值.(表中,).
6
97.90
0.21
60
0.14
14.12
26.13
﹣1.40
(1)利用样本相关系数的知识,判断与哪一个更适宜作为平均金属含量关于样本对原点的距离的回归方程类型?
(2)根据(1)的结果回答下列问题:
(i)建立关于的回归方程;
(ii)样本对原点的距离时,金属含量的预报值是多少?
(iii)已知该金属在距离原点时的平均开采成本(单位:元)与,关系为,根据(2)的结果回答,为何值时,开采成本最大?
附:对于一组数据,其线性相关系数,
其回归直线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)更适宜;(2)(i);(ii);(iii)为10时,开采成本最大.
【分析】
(1)计算出的线性相关系数和的线性相关系数可得答案;
(2)(i)计算出和,可得关于的回归方程;
(ii)代入可得答案;
(iii)求出,令,判断的单调性可得答案.
(1)的线性相关系数,
的线性相关系数,
∵,
∴更适宜作为平均金属含量关于样本对原点的距离的回归方程类型.
(2)(i),,
∴,
∴关于的回归方程为.
(ii)当时,金属含量的预报值为.
(iii),
令,则,
当时,,单调递增;当时,,单调递减,
∴在处取得极大值,也是最大值,此时取得最大值,
故为10时,开采成本最大.
【提分秘籍】
基本规律
反比例型,一般可直接设
【变式演练】
1.近年来,政府相关部门引导乡村发展旅游的同时,鼓励农户建设温室大棚种植高品质农作物.为了解某农作物的大棚种植面积对种植管理成本的影响,甲,乙两同学一起收集6家农户的数据,进行回归分析,得到两个回归摸型:模型①:,模型②: ,对以上两个回归方程进行残差分析,得到下表:
种植面积(亩)
2
3
4
5
7
9
每亩种植管理成本(百元)
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
17.02
13.72
残差
-0.27
0.38
-0.97
-1.02
0.28
模型②
26.84
20.17
18.83
17.31
16.46
-1.84
0.83
3.17
-1.31
-2.46
(1)将以上表格补充完整,并根据残差平方和判断哪个模型拟合效果更好;
(2)视残差的绝对值超过1.5的数据视为异常数据,针对(1)中拟合效果较好的模型,剔除异常数据后,重新求回归方程.
附:, ;
【答案】(1)表格答案见解析,模型①拟合效果比较好.(2)
【分析】
(1)令时,求得,,令时,求得,,填入表格即可.根据残差平方和公式,分别求得模型①的残差平方和,模型②的残差平方和,再比较下结论.
(2)根据视残差的绝对值超过1.5的数据视为异常数据,应剔除第四组数据,分别求得,,利用公式进而求得,,写出回归方程.
(1)当时,,,
当时,,,
完成表格如下:
种植面积(亩)
2
3
4
5
7
9
每亩种植管理成本(百元)
25
24
21
22
16
14
模型①
估计值
25.27
23.62
21.97
20.32
17.02
13.72
残差
-0.27
0.38
-0.97
1.68
-1.02
0.28
模型②
26.84
22.39
20.17
18.83
17.31
16.46
-1.84
1.61
0.83
3.17
-1.31
-2.46
模型①的残差平方和为,
模型②的残差平方和为,
所以模型①的残差平方和比模型②的残差平方和小,
所以模型①拟合效果比较好.
(2)由题意知,应剔除第四组数据,
,,
,
,
∴所求回归方程为.
2.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额(单位:亿元)对年盈利额(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近年年研发资金投入额和年盈利额的数据.通过对比分析,建立了两个函数模型:①;②,若对于任意一点,过点作与轴垂直的直线,交函数的图象于点,交函数的图象于点,定义:,,若则用函数来拟合与之间的关系更合适,否则用函数来拟合与之间的关系.
(1)给定一组变量,对于函数与函数,试利用定义求,的值,并判断哪一个更适合作为点中的与之间的拟合函数;
(2)若一组变量的散点图符合图象,试利用下表中的有关数据与公式求与的回归方程,并预测当时,的值为多少.
表中的,
附:对于一组数据,,,其回归直线方程的斜率和截距的最小二乘估计分别为,
【答案】(1);;函数更适合;(2);.
【分析】
(1)由分别取时对应的函数值,再根据变量,分别求得,比较下结论;
(2)在中,令,得到,然后利用最小二乘法求得,写出关于的线性回归方程,进而得到关于的回归方程即可.
(1)对于函数,当分别取时对应的函数值为,
此时
对于函数,当分别取时对应的函数值为,
此时
从而有,
因此由定义得选用函数更适合作为点中的与之间的拟合函数.
(2)在中,令,所以有,
于是可建立关于的线性回归方程为,
所以,
,
所以关于的线性回归方程为,
因此关于的回归方程为,
当时,,即可预测当时,的值为.
【题型六】 非线性回归3:对数型
【典例分析】
某投资公司2012年至2021年每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图如图:该投资公司为了预测2022年投资金额为20万元时的年利润增量,建立了关于的两个回归模型;模型①:由最小二乘公式可求得与的线性回归方程:;模型②:由图中样本点的分布,可以认为样本点集中在由线:的附近,对投资金额做换元,令,则,且有,
(1)根据所给的统计量,求模型②中关于的回归方程;
(2)分别利用这两个回归模型,预测投资金额为20万元时的年利润增量(结果保留两位小数);
附:样本的最小乘估计公式为;参考数据:.
【答案】(1)
(2)模型①的年利润增量的预测值为(万元),模型②的年利润增量的预测值为(万元)
【分析】
(1)结合已知数据和公式求出这两个系数即可得回归方程;
(2)把代入模型①、②的回归方程,算出即可.
(1)由题意,知,可得,
又由,
则
所以,模型②中关于的回归方程.
(2)当时,模型①的年利润增量的预测值为(万元),
当时,模型②的年利润增量的预测值为
万元
【提分秘籍】
基本规律
1,对指数型取对数;2.直接设对数。
【变式演练】
1.有一种速度叫中国速度,有一种骄傲叫中国高铁.中国高铁经过十几年的发展,取得了举世瞩目的成就,使我国完成了从较落后向先进铁路国的跨越式转变.中国的高铁技术不但越来越成熟,而且还走向国外,帮助不少国家修建了高铁.高铁可以说是中国一张行走的名片.截至到2020年,中国高铁运营里程已经达到3.9万公里.下表是2013年至2020年中国高铁每年的运营里程统计表,它反映了中国高铁近几年的飞速发展:
年份
2013
2014
2015
2016
2017
2018
2019
2020
年份代码
1
2
3
4
5
6
7
8
运营里程万公里
1.3
1.6
1.9
2.2
2.5
2.9
3.5
3.9
根据以上数据,回答下面问题.
(1)甲同学用曲线y=bx+a来拟合,并算得相关系数r1=0.97,乙同学用曲线y=cedx来拟合,并算得转化为线性回归方程所对应的相关系数r2=0.99,试问哪一个更适合作为y关于x的回归方程类型,并说明理由;
(2)根据(1)的判断结果及表中数据,求y关于x的回归方程(系数精确到0.01).
参考公式:用最小二乘法求线性回归方程的系数公式:;参考数据:令
【答案】(1)答案见解析;(2).
【分析】
(1)比较已知的相关系数大小关系即可得出正确答案;(2)由已知数据求出,结合回归方程变形为,求出和,从而可求出回归方程.
解:(1)∵,∴更适合作为y关于x的回归方程类型.
(2),由得,
即,则,
,所以.
2.某电器企业统计了近年的年利润额(千万元)与投入的年广告费用(十万元)的相关数据,散点图如图,对数据作出如下处理:令,,得到相关数据如表所示:
15
15
(1)从①;②;③三个函数中选择一个作为年广告费用和年利润额的回归类型,判断哪个类型符合,不必说明理由;
(2)根据(1)中选择的回归类型,求出与的回归方程;
(3)预计要使年利润额突破亿,下一年应至少投入多少广告费用?结果保留到万元
参考数据:
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为
湖北省荆州中学2021-2022学年高三上学期期末数学试题
【答案】(1)选择回归类型更好;(2);(3)下一年应至少投入万元广告费用.
【分析】
(1)根据散点图形状可确定回归类型;
(2)对两边取对数,利用最小二乘法可求得,由此可得回归方程;
(3)令可解出的范围,进而确定结果.
(1)由散点图知,年广告费用和年利润额的回归类型并不是直线型的,而是曲线型的,
所以选择回归类型更好.
(1)对两边取对数,得:,即,
由表中数据得:,,,
年广告费用和年利润额的回归方程为.
(3)由(2)知:,
令得:,解得:,
,(十万元),十万元万元
下一年应至少投入万元广告费用.
【题型七】 非线性回归4:其他函数型
【典例分析】
光伏发电是利用太阳能电池及相关设备将太阳光能直接转化为电能.近几年在国内出台的光伏发电补贴政策的引导下,某地光伏发电装机量急剧上涨,如下表:
年份
2011年
2012年
2013年
2014年
2015年
2016年
2017年
2018年
年份代码
1
2
3
4
5
6
7
8
新增光伏装机量兆瓦
0.4
0.8
1.6
3.1
5.1
7.1
9.7
12.2
某位同学分别用两种模型:①,②进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差等于):
经过计算得,,,,其中,.
(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由.
(2)根据(1)的判断结果及表中数据建立关于的回归方程,并预测该地区2020年新增光伏装机量是多少.(在计算回归系数时精确到0.01)
附:回归直线的斜率和截距的最小二乘估计公式分别为:,.
【答案】(1)模型①的拟合效果相对较好;详见解析(2)回归方程为;预测该地区2020年新增光伏装机量为(兆瓦)
【分析】
(1)根据残差图的带状区域越窄,其模型的拟合效果越好即可判断;
(2)利用换元的思想,令,把非线性的回归方程转化为线性的回归方程,结合题中的数据和公式求出,再由回归直线经过样本中心点,求出即可求出回归方程;把代入回归方程求出即为所求的预测值.
(1)选择模型①.
理由如下:根据残差图可以看出,模型①的估计值和真实值相对比较接近,模型②的残差相对较大一些,所以模型①的拟合效果相对较好.
(2)由(1),知关于的回归方程为,令,则.
由所给数据可得,
,
所以,
由线性回归方程经过样本中心点可得,
.
所以关于的回归方程为.
预测该地区2020年新增光伏装机量为(兆瓦).
【提分秘籍】
基本规律
幂函数型等其他类型,可类比前几种
【变式演练】
1.年月日,第四届中国国际进口博览会在上海开幕,共计多家参展商参展,多项新产品,新技术,新服务在本届进博会上亮相.某投资公司现从中选出种新产品进行投资.为给下一年度投资提供决策依据,需了解年研发经费对年销售额的影响,该公司甲、乙两部门分别从这种新产品中随机地选取种产品,每种产品被甲、乙两部门是否选中相互独立.
(1)求种新产品中产品被甲部门或乙部门选中的概率;
(2)甲部门对选取的种产品的年研发经费(单位:万元)和年销售额(单位:十万元)数据作了初步处理,得到下面的散点图及一些统计量的值.根据散点图现拟定关于的回归方程为.求、的值(结果精确到);
(3)甲、乙两部门同时选中了新产品,现用掷骰子的方式确定投资金额.若每次掷骰子点数大于,则甲部门增加投资万元,乙部门不增加投资;若点数小于,则乙部门增加投资万元,甲部门不增加投资,求两部门投资资金总和恰好为万元的概率.
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,,,.
【答案】(1);(2),;(3).
【分析】
(1)利用组合计数原理、古典概型的概率公式以及对立事件的概率公式可求得所求事件的概率;
(2)令,计算出、的值,利用最小二乘法公式结合表格中的数据可求得、的值;
(3)设投资资金总和恰好为万元的概率为,则投资资金总和恰好为万元的概率为,推导出数列是首项为,公比为的等比数列,利用累加法可求得的值.,
(1)解:种新产品中产品没有被甲部门和乙部门同时选中的概率,
所以产品被甲部门或乙部门选中的概率为.
(2)解:令,由题中数据得,,
,,
,.
(3)解:由题意知,掷骰子时甲部门增加投资万元发生的概率为,乙部门增加投资万元发生的概率为.
设投资资金总和恰好为万元的概率为,则投资资金总和恰好为万元的概率为.
所以,
因为,,,
所以数列是首项为,公比为的等比数列,所以,
所以
,
所以投资资金总和恰好为万元的概率是.
2.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:吨)的影响,对近年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6
563
6.8
289.8
1.6
1469
108.8
表中:,
(1)根据散点图判断,与,哪一个适宜作为年销售量关于年宣传费的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;
(3)根据(2)中的回归方程,求当年宣传费千元时,年销售预报值是多少?
附:对于一组数据,,…,,其回归线的斜率和截距的最小二乘估计分别为:,.
【答案】(1)由散点图可判断适宜作为年销售量关于年宣传费的回归方程类型;(2);(3)吨.
【分析】
(1)由散点图可以知,关系是非线性的即可判断;
(2)令,则,利用根据题中数据可计算,的值,即可得关于的线性回归方程,再将代入即可求解;
(3)将代入关于的回归方程即可求解.
(1)由散点图可以判断:适宜作为年销售量关于年宣传费的回归方程类型;
(2)令,先建立关于的线性回归方程,
由于,
,
所以关于的线性回归方程为,
所以关于的回归方程为;
(3)由(2)知:当时,年销售量的预报值
故年宣传费千元时,年销售预报值是吨.
1.某课外活动兴趣小组为了解某种植物的生长情况,收集了该种植物月生长量与月平均气温(℃)的6组数据.
编号
1
2
3
4
5
6
14
15
17
18
20
21
3
5
6
8
10
12
(1)请根据上面的数据求关于的线性回归方程(结果保留1位小数);
(2)利用(1)中求出的线性回归方程进行残差分析.若用中的估计回归方程中的,由于随机误差,所以是的估计值,为相应点的残差.请填写下面的残差表,并绘制残差图,根据得到的残差图,分析该回归方程的拟合效果.
残差表:
编号
1
2
3
4
5
6
14
15
17
18
20
21
3
5
6
8
10
12
残差图:
参考数据:,,,.参考公式:线性回归方程中,,.
【答案】(1);(2)残差表答案见解析,残差图答案见解析,拟合效果较好.
(1)直接代入数据进行计算即可求解;(2)根据公式计算残差,通过残差图判断拟合效果情况.
(1)由表中数据可得,,
有,则,
所以关于的线性回归方程为.
(2)填写残差表如表所示.
编号
1
2
3
4
5
6
14
15
17
18
20
21
3
5
6
8
10
12
画出残差图如图所示
根据残差图可知残差对应的点比较均匀地落在水平的带状区域中,且带状区域的宽度较窄,该回归方程的预报精度相应会较高,说明拟合效果较好.
2.某新兴环保公司为了确定新开发的产品下一季度的营销计划,需了解月宣传费x(单位:千元)对月销售量y(单位:t)和月利润z(单位:千元)的影响,收集了2019年12月至2020年5月共6个月的月宣传费和月销售量()的数据如下表:
月份
12
1
2
3
4
5
宣传费x
1
3
5
7
9
11
月销售量y
14.21
20.31
31.8
31.18
37.83
44.67
现分别用两种模型①,②分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:(注残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.)
6
30
1284.24
286
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除,剔除异常数据后求出(1)中所选模型的回归方程;
(3)已知该产品的月利润z与x,y的关系为,根据(2)的结果回答下列问题:
(i)若月宣传费时,该模型下月销售量y的预报值为多少?
(ii)当月宣传费x为何值时,月利润z的预报值最大?
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,
【答案】(1)选择模型①,理由见解析;(2);(3)(i)53.04(千元);(ii)(千元)时, 月利润z的预报值最大.
【分析】
(1)从两个方面说明应该选择模型①;
(2)利用最小二乘法原理求回归方程;
(3)(i)把代入回归方程即得解;
(ii)求出,再利用二次函数分析得解.
(1)应该选择模型①,一是因为模型①残差点整体上更接近,二是因为残差点比较均匀地落在水平的带状区域中,说明该模型拟合精度越高,回归方程的预报精度越高.
(2)剔除异常数据,即2020年2月的数据后,
由题得;
,,
;
,
所以关于的线性回归方程为.
(3)(i)把代入回归方程得:,故预报值约为53.04(千元)
(ii)
所以当(千元)时,月利润预报值最大.
3.(衡水金卷2021-2022学年度高三一轮复习摸底测试卷数学(三))千百年来,人们一直在通过不同的方式传递信息.在古代,烽火狼烟、飞鸽传书、快马驿站等通信方式被人们广泛应用;第二次工业革命后,科技的进步带动了电讯事业的发展,电报电话的发明让通信领域发生了翻天覆地的变化;之后,计算机和互联网的出现则使得“千里眼”“顺风耳”变为现实.现在,的到来给人们的生活带来颠覆性的变革,某科技创新公司基于领先技术的支持,经济收入在短期内逐月攀升,该创新公司在第月份至6月份的经济收入(单位:百万元)关于月份的数据如表:
时间(月份)
1
2
3
4
5
6
收入(百万元)
根据以上数据绘制散点图,如图.
(1)根据散点图判断,与均为常数)哪一个适宜作为经济收入关于月份的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的结果及表中的数据,求出关于的回归方程,并预测该公司8月份的经济收入;
(3)从前6个月的收入中抽取个﹐记月收入超过百万的个数为,求的分布列和数学期望.
参考数据:
其中设
参考公式和数据:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为:,
【答案】(1);(2),百万元;(3)分布列见解析,2.
【分析】
(1)根据散点图的分布即可得到答案;
(2)根据题意,,然后根据参考数据求出方程,进而得到y关于x的回归方程,最后将代入方程即可得到答案;
(3)根据超几何分布求概率的方法求得概率,然后列出分布列,最后根据期望公式求出期望.
(1)
根据散点图判断,适宜作为经济收入关于月份的回归方程类型.
(2)
因为,所以两边同时取常用对数﹐得,
设,所以,又因为,
所以,,
所以,即,
令,得,故预测该公司月份的经济收入为百万元.
(3)
前个月的收入中,月收入超过百万的有个,所以的取值为,
,,,
所以的分布列为
所以.
4.某保险公司根据官方公布的历年营业收入,制成表格如下:
表1
年份
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
年份序号x
1
2
3
4
5
6
7
8
9
10
营业收入y(亿元)
0.52
9.36
33.6
132
352
571
912
1207
1682
2135
由表1,得到下面的散点图:
根据已有的函数知识,某同学选用二次函数模型(b和a是待定参数)来拟合y和x的关系.这时,可以对年份序号做变换,即令,得,由表1可得变换后的数据见表2.
表2
T
1
4
9
16
25
36
49
64
81
100
Y
0.52
9.36
33.6
132
352
571
912
1207
1682
2135
(1)根据表中数据,建立y关于t的回归方程(系数精确到个位数);
(2)根据(1)中得到的回归方程估计2021年的营业收入,以及营业收入首次超过4000亿元的年份.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
参考数据:.
【答案】(1);(2)估计2021年的营业收入约为2518亿元,估计营业收入首次超过4000亿元的年份为2024年.
【分析】
(1)根据的公式,将题干中的数据代入,即得解;
(2)代入,可估计2021年的营业收入;令,可求解的范围,继而得到的范围,即得解
(1),
,
故回归方程为.
(2)2021年对应的t的值为121,营业收入,
所以估计2021年的营业收入约为2518亿元.
依题意有,解得,故.
因为,
所以估计营业收入首次超过4000亿元的年份序号为14,即2024年.
5.自从新型冠状病毒爆发以来,美国疫情持续升级,以下是美国2020年4月9日-12月14日每隔25天统计1次共计11次累计确诊人数(万).
日期(月/日)
4/09
5/04
5/29
6/23
7/18
8/13
统计时间序号
1
2
3
4
5
6
累计确认人数
43.3
118.8
179.4
238.8
377.0
536.0
日期(月/日)
9/06
10/01
10/26
11/19
12/14
统计时间序号
7
8
9
10
11
累计确认人数
646.0
744.7
888.9
1187.4
1673.7
(1)将4月9日作为第1次统计,若将统计时间序号作为变量,每次累计确诊人数作为变量,得到函数关系,对上表的数据作初步处理,得到部分数据已作近似处理的一些统计量的值,,,,,,,,,,根据相关数据,确定该函数关系式(参数,的取值精确到0.01);
(2)为了了解患新冠肺炎与年龄的关系,已知某地曾患新冠肺炎的老年、中年、青年的人数分别为45人,30人,15人,按分层抽样的方法随机抽取6人进行问卷调查,再从6人中随机抽取2人进行调查结果对比,求这2人中至少有一人是老年人的概率.
参考公式:线性回归方程中,,;
【答案】(1);(2).
【分析】
(1)由已知函数,两边到自然对数可得,再计算,,可得函数方程.
(2)先由分层抽样的方法求得老年、中年、青年分别抽取的人数,运用列举法和古典概率公式可求得答案.
(1)因为,所以,
由已知得,
,,
∴所求函数方程为.
(2)从90人中按照分层抽样的方法随机抽取6人,
老年、中年、青年分别抽取的人数为3人,2人,1人,
记3个老年人为,,,2个中年人为,,1个青年人为,
抽取的全部结果为,,,,,,,,,,,,B1,B2,B1,C1,B2,C1共15种.
至少1人是老年人的有,,,,,,,,,,,,共12种.
所以至少1人是老年人的概率为p=1215=45.
6.2020年新型冠状病毒肺炎疫情席卷金球,我国在全力保障口罩、防护服等医疗物资供给基础上,重点开展医疗救治急需的呼吸机、心电监护仪等医疗设备的组织生产和及时供应,统筹协调医用物资生产企业高速生产,支援世界各国抗击肺炎疫情.我市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1目~9月9日连续9天的呼吸机日生产量为(单位:百台,i=1,2,⋯,9),数据作了初步处理;得到如图所示的散点图.
i=19ti2
i=19tizi
2.73
19
5
285
1095
注:图中日期代码1~9分别对应9月1日~9月9日;表中zi=eyi,z=19i=19zi
(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;
(2)由散点图分析,样本点都集中在曲线y=ln(bt+a)的附近,求y关于t的方程y=ln(bt+a),并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.
参考公式:回归直线方程是v=βμ+α;β=i=1n(μi-μ)(vi-v)i=1n(μi-μ)2=i=1nμivi-nμvi=1nμi2-n(μ)2, α=v-βμ,
参考数据:e5≈148.4.
【答案】(1);(2)y=ln(4t-1);38.
【分析】
(1)由散点图读出不高于300台的点有5个,其中高于200台的点有4个,从而计算出所求概率;
(2)将对数表达式变成z=ey=bt+a,根据回归方程系数求解公式求得参数a,b,从而求得回归方程,并估算y>5对应的t值即可.
(1)由散点图知,不高于300台的点有5个,其中高于200台的点有4个,
则在2个样本点的生产量都不高于300台的条件下,
2个样本点都高于200台的概率为P=C42C52=35.
(2)y=ln(bt+a)⇔z=ey=bt+a
则由回归方程系数求解公式知,b=i=1ntizi-ntzi=1nti2-n(t)2=1095-9×5×19285-9×52=4,
a=z-bt=19-4×5=-1,
故y=ln(4t-1),
y=ln(4t-1)>5⇒4t-1>e5≈148.5⇒t>37.375
需要38天呼吸机日生产量可超过500台.
7.(四川省成都市郫都区2021-2022学年高三上学期阶段性检测(二)文科数学试题)某公司对某产品作市场调研,获得了该产品的定价x(单位:万元/吨)和一天销售量y(单位:吨)的一组数据,制作了如下的数据统计表,并作出了散点图.
z
i=110zi2
i=110ziyi
0.33
10
3
0.164
100
68
350
表中z=1x,0.2≈0.45,4.8≈2.19.
(1)根据散点图判断,与y=c+k⋅x-1哪一个更适合作为y关于x的回归方程;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果,试建立y关于x的回归方程;
(3)若生产1吨该产品的成本为0.20万元,依据(2)的回归方程,预计定价为多少时,该产品一天的利润最大,并求此时的月利润.(每月按30天计算,计算结果保留两位小数)
(参考公式:回归方程,其中b=i=1nxi-xyi-yi=1nxi-x2=i=1nxiyi-nxyi=1nxi2-nx2,a=y-bx)
【答案】(1)y=c+k⋅x-1;(2)y=-5+5x;(2)预计定价为0.45万元/吨吋,该产品一天的利润最大,此时的月利润为45.00万元.
【分析】
(1)根据散点图作出判断;
(2)根据(1)的判断结果,令z=1x,则y=c+k⋅z,计算系数即可得到方程;
(3)建立利润函数,利用均值不等式求最值即可.
解:(1)根据散点图知y=c+k⋅x-1更适合作为y关于x的回归方程.
(2)令z=1x,则y=c+k⋅z,
则k=i=110ziyi-10zyi=110zi2-10z2=350-10×10×3100-10×32=5,
c=y-k⋅z=-5,y=-5+5x,关于x的回归方程为y=-5+5x.
(3)一天利润为T=y⋅(x-0.20)=5x-5(x-0.2)=6-5x+0.2x≤6-100.2≈1.5.
(当且仅当x=0.2x即x=0.45时取等号)
每月的利润为30×1.5=45.00(万元)
预计定价为0.45万元/吨吋,该产品一天的利润最大,此时的月利润为45.00万元.
8.我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.现该企业为了了解年研发资金投入额x(单位:亿元)对年盈利额y(单位:亿元)的影响,研究了“十二五”和“十三五”规划发展期间近10年年研发资金投入额和年盈利额的数据通过对比分析,建立了两个函数模型:①,②,其中α,β,λ,t均为常数,e为自然对数的底数.令ui=xi2, vi=lnyi(i=1,2,⋯,10),经计算得如下数据:
i=110xi-x2
i=110yi-y2
v
26
215
65
2
680
5.36
i=110ui-u2
i=110ui-uyi-y
i=110vi-v2
i=110xi-xvi-v
11250
130
2.6
12
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)(i)根据(1)的选择及表中数据,建立y关于x的回归方程;(系数精确到0.01)
(ii)若希望2021年盈利额y为200亿元,请预测2021年的研发资金投入额x为多少亿元?(结果精确到0.01)
附:①相关系数r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2,回归直线y=a+bx中:b=i=1nxi-xyi-yi=1nxi-x2,;②参考数据:ln2≈0.693, ln5≈1.609.
【答案】(1)模型的拟合程度更好;(2)(i)y=e0.18x+0.56;(ii)2021年的研发资金投入量约为26.32亿元.
【分析】
(1)通过换元对变量进行变换,模型①令u=x2可变为y=βu+α,②两边取自然对数可变为lny=λx+t,即,再根据参考数据可求两个方程的相关系数,再比较大小即可得哪一个模型拟合程度更好;
(2)(i)根据(1)可选择函数模型②,通过变化得,求出λ和t,可得ν关于x的线性回归方程,再将v用lny替换,即可得y关于x的回归方程;(ii)根据回归方程,令y=200,求出即可.
(1)设和的相关系数为r1,xi和的相关系数为,由题意,
r1=i=110ui-uyi-yi=110ui-u2i=110yi-y2=13011250×2=1315≈0.87,
r2=i=110xi-xvi-vi=110xi-x2i=110vi-v2=1265×2.6=1213≈0.92,
则r1
由,得lny=t+λx,即lny=t+λx,
λ=i=110xi-xvi-vi=110xi-x2=1265,
t=v-λx=5.36-1265×26=0.56,
所以v关于x的线性回归方程为v=0.18x+0.56,
所以lny=0.18x+0.56,则y=e0.18x+0.56.
(ii)2021年盈利额y=200(亿元),
所以2021年的研发资金投入量约为26.32亿元.
9.
相关资料
更多