![3.1 回归分析的基本思想及其初步应用-2022版数学选修2-3 人教版(新课标) 同步练习 (Word含解析)01](http://m.enxinlong.com/img-preview/3/3/12630503/0/0.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![3.1 回归分析的基本思想及其初步应用-2022版数学选修2-3 人教版(新课标) 同步练习 (Word含解析)02](http://m.enxinlong.com/img-preview/3/3/12630503/0/1.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![3.1 回归分析的基本思想及其初步应用-2022版数学选修2-3 人教版(新课标) 同步练习 (Word含解析)03](http://m.enxinlong.com/img-preview/3/3/12630503/0/2.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
高中数学人教版新课标A选修2-33.1回归分析的基本思想及其初步应用同步测试题
展开基础过关练
题组一 线性回归分析
1.(2020四川宜宾高二下期末)两个变量y与x的回归分析中,有4个不同模型的相关指数R2如下,其中拟合效果最好的是( )
A.R2=0.96B.R2=0.81
C.R2=0.50D.R2=0.25
2.(2020福建厦门高二下期末)红铃虫是棉花的主要害虫之一,一只红铃虫的产卵数和温度有关.现收集了7组观测数据,用四个模型分别进行拟合.由此得到相应的回归方程并进行残差分析,进一步得到如图4幅残差图,根据残差图判断,拟合效果最好的模型是( )
A.模型一B.模型二
C.模型三D.模型四
3.(2020黑龙江大庆铁人中学高二下期末)下列说法错误的是( )
A.自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系
B.在线性回归分析中,相关系数r越大,变量间的相关性越强
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好
4.(2021安徽示范高中培优联盟高二上检测)某单位为了解用电量y(度)与气温x(℃)之间的关系,随机统计了其中4天的气温与用电量,并制作了如下对照表:
由表中数据得y与x间的回归方程为y^=b^x+a^,其中b^=-2,预测当气温为-4℃时,用电量的度数为( )
A.64B.68C.68.8D.69.6
5.(2020陕西西安交大附中高二上期末)两个线性相关变量x与y的统计数据如下表:
其回归方程是y^=b^x+40,则相对应于点(11,5)的残差为( )
A.0.1B.0.4
C.0.3D.0.2
6.(2019陕西商洛高二期末)已知变量x,y之间的一组数据如下表所示,若求得y关于x的线性回归方程为y^=0.82x+1.27,则下列说法错误的是( )
A.变量x,y之间呈正相关关系
B.可以预测当x=5时,y^=5.37
C.该回归直线必过点(1.5,2.5)
D.m的值为2.09
7.(2019河北唐山高二期末)随着智能手机的普及,各类手机娱乐软件也如雨后春笋般涌现.下表中统计的是某手机娱乐软件自2018年8月初推出后至2019年4月底的月新注册用户数,记月份代码为t(t=1对应2018年8月份,t=2对应2018年9月份,……,t=9对应2019年4月份),月新注册用户数为y(百万).
(1)请依据上表的统计数据,判断月新注册用户数y与月份t的线性相关性的强弱;
(2)求出月新注册用户数y关于月份t的线性回归方程,并估计2020年5月份的新注册用户数.
参考数据:∑i=19tiyi=318.5,∑i=19yi2=364.2,67≈8.2.
回归直线的斜率和截距公式:b^=∑i=1n(ti-t)(yi-y)∑i=1n(ti-t)2=∑i=1ntiyi-nty∑i=1nti2-nt 2,a^=y-b^t.
相关系数r=∑i=1n(ti-t)(yi-y)∑i=1n(ti-t)2∑i=1n(yi-y)2(当|r|≥0.75时,认为两变量的相关性很强).
深度解析
题组二 非线性回归分析
8.(2020内蒙古集宁一中高二下期末)2020年年初,新型冠状病毒(COVID-19)引起的肺炎疫情爆发以来,各地医疗机构采取了各种针对性的治疗方法,取得了不错的成效.某地开始使用中西医结合方法后,每周治愈的患者人数如下表所示:
由表格中数据可得y关于x的二次回归方程为y^=6x2+a^,则此回归模型第4周的残差(实际值与预报值之差)为( )
A.5B.4C.1D.0
9.(2020河北邢台高二下期末)近年来,我国电子商务快速发展,快递行业的市场规模逐渐扩大.国家邮政局数据显示,2013~2019年,中国快递量持续增长,2019年,我国快递量达到635.2亿件,比前一年增长25.3%,人均使用快递45件左右.某快递公司为预测本公司下一年的快递量,以便提前增加设备和招聘工人,对2015~2019年间本公司快递量的数据进行对比分析,并对这些数据做了初步处理,得到了如下表格及一些统计量的值,其中μi=xi2,vi=lnyi(i=1,2,3,4,5).
(1)设y与μ的相关系数为r1,v与x的相关系数为r2,请从相关系数的角度,确定y=ax2+b和y=emx+n(其中a,b,m,n均为常数,e为自然对数的底数)哪一个拟合效果更好;
(2)根据(1)的结论及表中数据,建立y关于x的回归方程(系数精确到0.01),并估计该快递公司2020年的快递量(单位:百万件,精确到0.01).
附:①相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,回归直线y=bx+a中斜率和截距的最小二乘估计分别为b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a^=y-b^x.
②参考数据:374≈19.34,120.8≈11,10≈3.2,4.4≈2.1.
能力提升练
一、选择题
1.(2019山东日照莒县第二中学高考模拟,)变量x,y的相关数据如散点图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y^=b^1x+a^1,相关系数为r1;方案二:剔除点(10,21),根据剩下的数据得到线性回归方程y^=b^2x+a^2,相关系数为r2,则( )
A.0
A.2020年6月
B.2020年7月
C.2020年8月
D.2020年9月
3.(2020四川成都高二期末,)某国企进行节能降耗技术改造,下面是该国企节能降耗技术改造后连续五年的生产利润:
预测第8年该国企的生产利润为( )
参考公式及数据:b^=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a^=y-b^x,∑i=15xiyi-5xy=1.7,∑i=15xi2-5x2=10.
千万元千万元
千万元千万元
4.(2019山西范亭中学高二月考,)将指数函数曲线y=aebx进行线性变换后得到的回归方程为u^=1-0.6x,则函数y=x2+bx+a的单调递增区间为( )
A.(0,+∞)B.310,+∞
C.12,+∞D.(1,+∞)
二、填空题
5.(2020重庆广益中学高二下6月月考,)已知x与y的相关数据如下表所示:
得到两个模型:(1)y^=6.5x+17.5,(2)y^=7x+17.通过残差分析发现第(1)个线性模型比第(2)个拟合效果好.则下列结论正确的是 .(填序号)(R2,Q分别是相关指数和残差平方和)
①R12>R22;②R12
三、解答题
6.(2020福建福州四校高二下期末联考,)2018年11月5日至10日,首届中国国际进口博览会在国家会展中心上海举行,吸引了58个“一带一路”沿线国家的超过1000多家企业参展,成为共建“一带一路”的又一个重要支撑.某企业为了参加中国国际进口博览会,提升行业竞争力,加大了科技投入.该企业连续6年来的科技投入x(百万元)与收益y(百万元)的数据统计如下:
并根据数据绘制了如图所示的散点图:
根据散点图的特点,甲认为样本点分布在指数函数曲线y=c·2bx(c>0)的周围,据此他对数据进行了一些初步处理,得到一些统计量的值如表所示:
其中zi=lg2yi,z=16∑i=16zi.
(1)(i)请根据表中数据,建立y关于x的回归方程(计算结果均保留一位小数);
(ii)根据所建立的回归方程,若该企业想在下一年收益达到2亿,则科技投入的费用至少为多少?(其中lg25≈2.3)
(2)乙认为样本点分布在二次函数曲线y=mx2+n的周围,并计算得其回归方程为y=0.92x2-12.0,相关指数R2=0.94,试比较甲、乙两人所建立的模型,并判断谁的模型拟合效果更好.
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归方程v^=α^+β^u的斜率和截距的最小二乘估计分别为β^=∑i=1n(ui-u)(vi-v)∑i=1n(ui-u)2,α^=v-β^u,相关指数R2=1-∑i=1n(vi-v^i)2∑i=1n(vi-v)2.
7.(2020河北石家庄第二中学高三下教学质量检测,)BMI指数是用体重公斤数除以身高米数的平方得出的数值,是国际上常用的衡量人体胖瘦程度以及是否健康的一个标准.在我国,BMI<18.5,认为体重过轻;18.5≤BMI<24,认为体重正常;BMI≥24,认为体重超重.某市中小学生成长与发展机构从该市的320名高一男生中随机选取8名,其身高和体重的数据如下表所示:
(1)根据最小二乘法求得的y关于x的回归方程为y^=0.8x-75.9.利用已经求得的回归方程完善下列残差表,并求解释变量(身高)对于预报变量(体重)变化的贡献值R2(保留两位有效数字);
(2)通过残差分析,对于残差最大(绝对值)的那组数据,需要确认在样本点的采集中是否有人为的错误.已知通过重新采集发现,该组数据的体重应该为58kg.请重新根据最小二乘法,求出y关于x的回归方程.
参考公式:R2=1-∑i=1n(yi-y^i)2∑i=1n(yi-y)2,b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nxy∑i=1nxi2-nx2,a^=y-b^x,e^i=yi-y^i.
参考数据:∑i=18xiyi=78880,∑i=18xi2=226112,x=168,y=58.5,∑i=18(yi-y)2=226.
第三章 统计案例
3.1 回归分析的基本思想及其初步应用
基础过关练
1.A 两个变量y与x的回归模型中,相关指数R2越大,拟合效果越好,∵0.96>0.81>0.50>0.25,∴拟合效果最好的是R2=0.96的模型,故选A.
2.D 若残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,拟合效果越好,对比4幅残差图,可知模型四的残差图对应的带状区域的宽度最窄.故选D.
3.B A,根据相关关系的定义,知自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系,此说法正确;B,线性回归分析中,相关系数r的绝对值越接近于1,两个变量的线性相关性越强,此说法错误;C,残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,此说法正确;D,回归分析中,用相关指数R2刻画回归效果时,R2的值越大,说明模型的拟合效果越好,故R2为0.98的模型比R2为0.80的模型拟合的效果好,此说法正确.故选B.
4.答案 B
信息提取 ①题表显示了4天的用电量与气温的关系,且气温越低,用电量越大;②y与x间的回归方程为y^=b^x+a^,其中b^=-2.
数学建模 用电取暖在生活中比较常见,本题以此为背景设计了一个线性回归模型.根据所给的表格求出样本点的中心(x,y),根据(x,y)在回归方程所对应的直线上,利用待定系数法求出a^的值,将x=-4代入回归方程,即可求得结果.
解析 由题表中数据得 x=18+13+10-14=10,y=24+34+38+644=40,
又(x,y)在回归方程y^=b^x+a^对应的直线上,且b^=-2,
∴40=10×(-2)+a^,解得a^=60,∴y^=-2x+60.当x=-4时,y^=-2×(-4)+60=68.
故选B.
5.D 由题意得x=9+9.5+10+10.5+115=10,y=11+10+8+6+55=8,则样本点的中心为(10,8),因为回归方程为y^=b^x+40,所以有8=10b^+40,解得b^=-3.2,所以y^=-3.2x+40,当x=11时,y^=4.8,则相对应于点(11,5)的残差为5-4.8=0.2.故选D.
6.D 对于选项A,因为线性回归方程为y^=0.82x+1.27,其中0.82>0,所以变量x,y之间呈正相关关系,故A中说法正确;对于选项B,当x=5时,y^=0.82×5+1.27=5.37,故B中说法正确;对于选项C,由题表中数据可得,x=0+1+2+34=1.5,因为回归直线必过点(x,y),所以y=0.82×1.5+1.27=2.5,故C中说法正确;对于选项D,0.8+m+3.1+4.34=2.5,解得m=1.8,故D中说法错误.故选D.
7.解析 (1)由题表中数据得t=19×(1+2+3+…+9)=5,y=19×(3.2+3.8+4.3+…+9.5)=6,
∑i=19ti2=12+22+32+…+92=285,
∑i=19(ti-t)·(yi-y)=∑i=19tiyi-9t y
=318.5-9×5×6=48.5,
∑i=19(ti-t)2∑i=19(yi-y)2=∑i=19ti2-9t2∑i=19yi2-9y2=(285-9×25)(364.2-9×36)=667≈49.2,故r=∑i=19(ti-t)(yi-y)∑i=19(ti-t)2∑i=19(yi-y)2
≈48.549.2≈0.99.
因为0.99>0.75,所以月新注册用户数y与月份t的线性相关性很强.
(2)由(1)得b^=∑i=19(ti-t)(yi-y)∑i=19(ti-t)2=∑i=19tiyi-9ty∑i=19ti2-9t 2=48.5285-9×25≈0.81,a^=y-b^t≈6-0.81×5=1.95,
所以线性回归方程为y^=0.81t+1.95,易知2020年5月份对应t=22,令t=22,得y^=19.77,即2020年5月份新注册用户数的估计值为19.77百万.
解题通法
回归分析的应用主要体现在以下两方面:(1)对两个变量关系的判断,即通过分析两个变量的变化关系,利用最小二乘法求出对应的线性回归方程;(2)对变量值的预测,即由给定的变量的值预测与其有相关关系的变量的值.
8.A 设t=x2,则t=15×(1+4+9+16+25)=11,y=15×(2+17+36+93+142)=58,易得a^=58-6×11=-8,所以y^=6x2-8.令x=4,得e^4=y4-y^4=93-6×42+8=5.故选A.
9.解析 (1)令μ=x2,则y=ax2+b可化为y=aμ+b,
r1=∑i=15(μi-μ)(yi-y)∑i=15(μi-μ)2∑i=15(yi-y)2=212374×120.8≈21219.34×11≈0.997.
令v=lny,则y=emx+n可化为lny=mx+n,即v=mx+n,因为∑i=15(xi-x)2=10,所以r2=∑i=15(xi-x)(vi-v)∑i=15(xi-x)2∑i=15(vi-v)2
≈6.510×4.4≈6.53.2×2.1≈0.967,
则r1>r2,因此从相关系数的角度来看,模型y=ax2+b的拟合效果更好.
(2)由(1)知,用模型y=ax2+b比较合适.由题表中数据得a^=∑i=15(μi-μ)(yi-y)∑i=15(μi-μ)2=212374≈0.57,易得μ=11,y=6.8,所以b^=y-a^μ≈6.8-0.57×11=0.53,所以y关于x的回归方程为y^=0.57x2+0.53.当x=6时,y^=0.57×62+0.53=21.05,故估计该快递公司2020年的快递量为21.05百万件.
能力提升练
一、选择题
1.D 由散点图可知变量x,y呈负相关,所以r1<0,r2<0,因为剔除点(10,21)后,剩下的数据更具有线性相关性,|r2|更接近于1,所以-1
信息提取 ①理解折线图中横、纵坐标代表的意义;②y关于x的线性回归方程为y^=0.042x+a^.
数学建模 5G移动通信技术已经走入了人们的视线,为人们带来了更快的网络速度的体验.本题以此为背景设计题目,合理巧妙地把月份用1,2,3,4,…来表示,根据题图,计算出x,y,然后解不等式即可.
解析 由题图中数据可得x=15×(1+2+3+4+5)=3,y=15×(0.02+0.05+0.1+0.15+0.18)=0.1,易知点(3,0.1)在直线y^=0.042x+a^上,将其代入,解得a^=-0.026,所以y^=0.042x-0.026,令y^=0.042x-0.026>0.5,解得x≥13,因为横轴1代表2019年8月,所以横轴13代表2020年8月.故选C.
3.C 由题可得x=1+2+3+4+55=3,y=0.7+0.8+1+1.1+1.45=1,
所以b^=∑i=15xiyi-5xy∑i=15xi2-5x 2=1.710=0.17,a^=y-b^x=1-0.17×3=0.49,
所以年生产利润y关于年号x的回归方程为y^=0.17x+0.49.
当x=8时,y^=0.17×8+0.49=1.85,故选C.
4.B ∵y=aebx,∴lny=ln(aebx)=lna+lnebx=lna+bx,∵将指数函数曲线y=aebx进行线性变换后得到的回归方程为u^=1-0.6x,∴u^=lny,b=-0.6,lna=1,即a=e,∴函数y=x2+bx+a=x2-0.6x+e为二次函数,其图象开口向上,对称轴为直线x=310,∴函数y=x2+bx+a的单调递增区间为310,+∞,故选B.
二、填空题
5.答案 ①③
解析 R2越大,说明残差平方和越小,模型的拟合效果越好,
因为第(1)个线性模型比第(2)个拟合效果好,所以R12>R22,Q1
三、解答题
6.解析 (1)(i)x=2+4+6+8+10+126=7,
令z=lg2y,则z=bx+lg2c,
令a=lg2c,则z=bx+a.根据最小二乘法可得b^=∑i=16(xi-x)(zi-z)∑i=16(xi-x)2≈34.770≈0.5,从而a^=z-b^x≈4.5-0.5×7=1.0,故z关于x的回归方程为z=0.5x+1.0,所以y关于x的回归方程为y=20.5x+1.0.
(ii)令20.5x+1.0≥200,即0.5x+1.0≥lg2200,解得x≥4+4lg25≈13.2,
故科技投入的费用至少为13.2百万元,该企业下一年的收益才能达到2亿.
(2)甲建立的回归模型的残差如下表:
则∑i=16(yi-y^i)2=298.5,从而相关指数R12=1-∑i=16(yi-y^i)2∑i=16(yi-yi)2≈1-298.512730.4≈0.98,
因为0.98>0.94,
所以甲建立的模型拟合效果更好.
7.解析 (1)由题知回归方程为y^=0.8x-75.9,则e^6=57-0.8×169+75.9=-2.3,e^7=50-0.8×158+75.9=-0.5,e^8=66-0.8×173+75.9=3.5.完善残差表如下:
R2=1-∑i=18(yi-y^i)2∑i=18(yi-y)2=1-1226×(0.01+0.09+0.81+2.25+0.25+5.29+0.25+12.25)≈0.91,
所以解释变量(身高)对于预报变量(体重)变化的贡献值R2≈0.91.
(2)通过残差分析知,残差最大(绝对值)的那组数据为第8组,所以y8=58,
所以修改后∑i=18xiyi=78880-173×66+173×58=77496,
y=18×(8×58.5-66+58)=57.5,
所以b^=∑i=18xiyi-8xy∑i=18xi2-8x2=77496-8×168×57.5226112-8×1682=0.675,
a^=y-b^x=57.5-0.675×168=-55.9.所以y关于x的回归方程是y^=0.675x-55.9.
气温x(℃)
18
13
10
-1
用电量y(度)
24
34
38
64
x
9
9.5
10
10.5
11
y
11
10
8
6
5
x
0
1
2
3
y
0.8
m
3.1
4.3
t
1
2
3
4
5
6
7
8
9
y
3.2
3.8
4.3
4.7
5.6
6.4
7.9
8.6
9.5
周数(x)
1
2
3
4
5
治愈人数(y)
2
17
36
93
142
编号x
1
2
3
4
5
年份
2015
2016
2017
2018
2019
快递量y(单位:百万件)
1
3
6
9
15
∑i=15(μi-μ)2
374
∑i=15(vi-v)2
4.4
∑i=15(μi-μ)(yi-y)
212
∑i=15(xi-x)(vi-v)
6.5
∑i=15(yi-y)2
120.8
年号x
1
2
3
4
5
年生产利润y
(单位:千万元)
0.7
0.8
1
1.1
1.4
x
2
4
5
6
8
y
30
40
60
50
70
科技投入x
2
4
6
8
10
12
收益y
5.6
6.5
12.0
27.5
80.0
129.2
y
z
∑i=16(xi-x)(yi-y)
∑i=16(xi-x)(zi-z)
∑i=16(yi-y)2
∑i=16(xi-x)2
43.5
4.5
854.0
34.7
12730.4
70
编号
1
2
3
4
5
6
7
8
身高x(cm)
166
167
160
173
178
169
158
173
体重y(kg)
57
58
53
61
66
57
50
66
编号
1
2
3
4
5
6
7
8
身高x(cm)
166
167
160
173
178
169
158
173
体重y(kg)
57
58
53
61
66
57
50
66
残差e^
0.1
0.3
0.9
-1.5
-0.5
1.A
2.D
3.B
4.B
5.D
6.D
8.A
1.D
2.C
3.C
4.B
yi
5.6
6.5
12.0
27.5
80.0
129.2
y^i
4
8
16
32
64
128
yi-y^i
1.6
-1.5
-4
-4.5
16
1.2
编号
1
2
3
4
5
6
7
8
身高x(cm)
166
167
160
173
178
169
158
173
体重y(kg)
57
58
53
61
66
57
50
66
残差e^
0.1
0.3
0.9
-1.5
-0.5
-2.3
-0.5
3.5
数学选修2-33.2独立性检验的基本思想及其初步课时练习: 这是一份数学选修2-33.2独立性检验的基本思想及其初步课时练习,共12页。试卷主要包含了下面是一个2×2列联表等内容,欢迎下载使用。
2020-2021学年3.1回归分析的基本思想及其初步应用课后复习题: 这是一份2020-2021学年3.1回归分析的基本思想及其初步应用课后复习题,
数学选修1-21.1回归分析的基本思想及其初步应用同步达标检测题: 这是一份数学选修1-21.1回归分析的基本思想及其初步应用同步达标检测题,