高考数学科学创新复习方案提升版第57讲成对数据的统计分析学案(Word版附解析)
展开1.相关关系
两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为eq \x(\s\up1(01))正相关和eq \x(\s\up1(02))负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现eq \x(\s\up1(03))增加的趋势.
②负相关:当一个变量的值增加时,另一个变量的相应值呈现eq \x(\s\up1(04))减少的趋势.
(2)按变量间是否有线性特征分为eq \x(\s\up1(05))线性相关或eq \x(\s\up1(06))非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在eq \x(\s\up1(07))一条直线附近,我们就称这两个变量线性相关.
②非线性相关或曲线相关:如果两个变量具有相关性,但不是eq \x(\s\up1(08))线性相关,我们就称这两个变量非线性相关或曲线相关.
3.相关关系的刻画
(1)散点图:为了直观描述成对样本数据的特征,把每对成对数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
(2)样本相关系数
①我们常用样本相关系数r来确切地反映成对样本数据(xi,yi)的相关程度,其中r=
eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\r(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2)\r(\(∑,\s\up6(n),\s\d4(i=1)) (yi-\(y,\s\up6(-)))2)).
②样本相关系数r的取值范围为eq \x(\s\up1(09))[-1,1].
当r>0时,成对样本数据eq \x(\s\up1(10))正相关;当r<0时,成对样本数据eq \x(\s\up1(11))负相关;当|r|越接近eq \x(\s\up1(12))1时,成对样本数据的线性相关程度越强;当|r|越接近eq \x(\s\up1(13))0时,成对样本数据的线性相关程度越弱.
4.一元线性回归模型
称eq \b\lc\{(\a\vs4\al\c1(Y=bx+a+e,,E(e)=0,D(e)=σ2))为Y关于x的一元线性回归模型.其中Y称为eq \x(\s\up1(14))因变量或eq \x(\s\up1(15))响应变量,x称为eq \x(\s\up1(16))自变量或eq \x(\s\up1(17))解释变量,eq \x(\s\up1(18))a称为截距参数,eq \x(\s\up1(19))b称为斜率参数;e是eq \x(\s\up1(20))Y与eq \x(\s\up1(21))bx+a之间的随机误差,如果e=eq \x(\s\up1(22))0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
5.最小二乘法
将eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的eq \(b,\s\up6(^)),eq \(a,\s\up6(^))叫做b,a的最小二乘估计,其中eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2),eq \(a,\s\up6(^))=eq \x(\s\up1(23))eq \a\vs4\al(\(y,\s\up6(-))-\(b,\s\up6(^))\(x,\s\up6(-))).
6.残差与残差分析
(1)残差
对于响应变量Y,通过观测得到的数据称为eq \x(\s\up1(24))观测值,通过经验回归方程得到的eq \(y,\s\up6(^))称为eq \x(\s\up1(25))预测值,eq \x(\s\up1(26))观测值减去eq \x(\s\up1(27))预测值称为残差.
(2)残差分析
eq \x(\s\up1(28))残差是随机误差的估计结果,通过对eq \x(\s\up1(29))残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
7.对模型刻画数据效果的分析
(1)残差图法
在残差图中,如果残差比较均匀地集中在eq \x(\s\up1(30))以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.
(2)残差平方和法
残差平方和eq \x(\s\up1(31))eq \(∑,\s\up6(n),\s\d10(i=1))__(yi-eq \(y,\s\up6(^))i)2越小,模型的拟合效果越好.
(3)决定系数R2法
可以用决定系数R2=1-eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (yi-\(y,\s\up6(^))i)2,\(∑,\s\up6(n),\s\d4(i=1)) (yi-\(y,\s\up6(-)))2)来比较两个模型的拟合效果,R2越eq \x(\s\up1(32))大,模型拟合效果越好,R2越eq \x(\s\up1(33))小,模型拟合效果越差.
8.列联表与独立性检验
(1)2×2列联表
①2×2列联表给出了成对分类变量数据的eq \x(\s\up1(34))交叉分类频数.
②定义一对分类变量X和Y,我们整理数据如下表所示:
像这种形式的数据统计表称为2×2列联表.
(2)独立性检验
①定义:利用χ2的取值推断分类变量X和Yeq \x(\s\up1(35))是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.
②χ2=eq \x(\s\up1(36))eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.
(3)独立性检验解决实际问题的主要环节
①提出零假设H0:X和Y相互独立,并给出在问题中的解释.
②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
③根据检验规则得出推断结论.
④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
1.相关关系与函数关系的异同
共同点:二者都是指两个变量间的关系;
不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.
2.经验回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))一定过点(eq \(x,\s\up6(-)),eq \(y,\s\up6(-))).
1.(人教A选择性必修第三册习题8.1 T1改编)下列四个散点图中,变量x与y之间具有负线性相关关系的是( )
答案 D
解析 观察散点图可知,只有D中的散点图表示的是变量x与y之间具有负线性相关关系.故选D.
2.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做了试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:
则哪位同学的试验结果体现的A,B两变量有更强的线性相关性( )
A.甲 B.乙
C.丙 D.丁
答案 D
解析 |r|越接近1,m越小,线性相关性越强,故选D.
3.已知相关变量x和y满足关系eq \(y,\s\up6(^))=-0.1x+1,相关变量y与z负相关,则下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
答案 D
解析 由eq \(y,\s\up6(^))=-0.1x+1可得x与y负相关.因为y与z负相关,可设eq \(z,\s\up6(^))=eq \(b,\s\up6(^))y+eq \(a,\s\up6(^)),eq \(b,\s\up6(^))<0,则eq \(z,\s\up6(^))=eq \(b,\s\up6(^))(-0.1x+1)+eq \(a,\s\up6(^))=-0.1eq \(b,\s\up6(^))x+eq \(b,\s\up6(^))+eq \(a,\s\up6(^)),故x与z正相关.
4.(多选)(人教B选择性必修第二册4.3.2例1改编)为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2×2列联表(个别数据暂用字母表示):
计算得到χ2≈12.981,参照下表:
则下列结论正确的是( )
A.根据小概率值α=0.010的独立性检验,可以认为“阅读量多少与幸福感强弱无关”
B.m=54
C.n=52
D.根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”
答案 BD
解析 ∵χ2≈12.981>7.879>6.635,∴根据小概率值α=0.010的独立性检验,可以在犯错误的概率不超过1%的前提下认为“阅读量多少与幸福感强弱有关”,根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”,∴A错误,D正确;∵m+36=90,18+n=60,∴m=54,n=42,∴B正确,C错误.
5.某产品的广告费用x与销售额y的统计数据如下表:
根据上表可得经验回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))中的eq \(b,\s\up6(^))为9.4,据此模型预测广告费用为6万元时销售额约为________万元.
答案 65.5
解析 由表可得eq \(x,\s\up6(-))=eq \f(4+2+3+5,4)=3.5,eq \(y,\s\up6(-))=eq \f(49+26+39+54,4)=42,因为点(3.5,42)在经验回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))上,且eq \(b,\s\up6(^))=9.4,所以42=9.4×3.5+eq \(a,\s\up6(^)),解得eq \(a,\s\up6(^))=9.1.故经验回归方程为eq \(y,\s\up6(^))=9.4x+9.1.令x=6,得eq \(y,\s\up6(^))=65.5.故预测广告费用为6万元时销售额约为65.5万元.
多角度探究突破
角度相关关系的判断
例1 (1)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
答案 A
解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C,D;其属于正相关关系,A正确,B错误.故选A.
(2)在以下4幅散点图中,图________中的y和x之间存在相关关系(将正确答案的序号填在横线上).
答案 ②③④
解析 图②③中的点成带状区域分布在某一直线附近,④中的点分布在某一曲线附近,故②③④存在相关关系.
角度相关系数的计算及意义
例2 (1)(多选)某同学将收集到的六对数据制作成散点图如右,得到其经验回归方程为l1:eq \(y,\s\up6(^))=0.68x+eq \(a,\s\up6(^)),计算其相关系数为r1,决定系数为Req \\al(2,1).经过分析确定点F为“离群点”,把它去掉后,再利用剩下的五对数据计算得到经验回归方程为l2:eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+0.68,相关系数为r2,决定系数为Req \\al(2,2).下列结论正确的是( )
A.r2>r1>0 B.Req \\al(2,1)>Req \\al(2,2)
C.0<eq \(b,\s\up6(^))<0.68 D.eq \(b,\s\up6(^))>0.68
答案 AC
解析 由图可知两变量呈正相关,故r1>0,r2>0,去掉“离群点”后,相关性更强,所以r1<r2,故Req \\al(2,1)<Req \\al(2,2),故A正确,B错误;根据图象,当去掉F点后,直线基本在A,B,C,D,E附近的那条直线上,直线的倾斜程度会略向x轴偏向,故斜率会变小,因此0<eq \(b,\s\up6(^))<0.68,故C正确,D错误.故选AC.
(2)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得eq \(∑,\s\up10(20),\s\d8(i=1))xi=60,eq \(∑,\s\up10(20),\s\d8(i=1))yi=1200,eq \(∑,\s\up10(20),\s\d8(i=1)) (xi-eq \(x,\s\up6(-)))2=80,eq \(∑,\s\up10(20),\s\d8(i=1)) (yi-eq \(y,\s\up6(-)))2=9000,eq \(∑,\s\up10(20),\s\d8(i=1)) (xi-eq \(x,\s\up6(-)))(yi-eq \(y,\s\up6(-)))=800.
①求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
②求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01).
附:相关系数r=eq \f(\(∑,\s\up10(n),\s\d8(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\r(\(∑,\s\up10(n),\s\d8(i=1)) (xi-\(x,\s\up6(-)))2\(∑,\s\up10(n),\s\d8(i=1)) (yi-\(y,\s\up6(-)))2)),eq \r(2)≈1.414.
解 ①每个样区野生动物数量的平均数为eq \f(1,20)eq \(∑,\s\up10(20),\s\d8(i=1))yi=eq \f(1,20)×1200=60,地块数为200,所以该地区这种野生动物数量的估计值为200×60=12000.
②样本(xi,yi)的相关系数为
r=eq \f(\(∑,\s\up6(20),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\r(\(∑,\s\up6(20),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2\(∑,\s\up6(20),\s\d4(i=1)) (yi-\(y,\s\up6(-)))2))=eq \f(800,\r(80×9000))=eq \f(2\r(2),3)≈0.94.
判定两个变量相关性的方法
1.(2024·蓟州开学考试)对两个变量x,y进行线性相关检验,得线性相关系数r1=0.8995,对两个变量u,v进行线性相关检验,得线性相关系数r2=-0.9568,则下列判断正确的是( )
A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强
B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强
C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强
D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强
答案 C
解析 因为线性相关系数r1=0.8995>0,所以x,y正相关,因为线性相关系数r2=-0.9568<0,所以u,v负相关,又因为|r1|<|r2|,所以变量u,v的线性相关性比x,y的线性相关性强,故A,B,D错误,C正确.故选C.
2.为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
经计算得eq \(x,\s\up6(-))=eq \f(1,16)eq \i\su(i=1,16,x)i=9.97,s=eq \r(\f(1,16)\i\su(i=1,16, )(xi-\(x,\s\up6(-)))2)=eq \r(\f(1,16)(\i\su(i=1,16,x)eq \\al(2,i)-16\(x,\s\up6(-))2))≈0.212, (xi-eq \(x,\s\up6(-)))(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(eq \(x,\s\up6(-))-3s,eq \(x,\s\up6(-))+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①从这一天抽检的结果看,是否需对当天的生产过程进行检查?
②在(eq \(x,\s\up6(-))-3s,eq \(x,\s\up6(-))+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差(精确到0.01).
附:样本(xi,yi)(i=1,2,…,n)的相关系数
r=eq \f(\i\su(i=1,n, )(xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\r(\i\su(i=1,n, )(xi-\(x,\s\up6(-)))2)\r(\i\su(i=1,n, )(yi-\(y,\s\up6(-)))2)).
参考数据:eq \r(0.008)≈0.09.
解 (1)由样本数据,得(xi,i)(i=1,2,…,16)的相关系数r=eq \f(\i\su(i=1,16, )(xi-\(x,\s\up6(-)))(i-8.5),\r(\i\su(i=1,16, )(xi-\(x,\s\up6(-)))2)\r(\i\su(i=1,16, )(i-8.5)2))≈eq \f(-2.78,0.212×\r(16)×18.439)≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)①由于eq \(x,\s\up6(-))=9.97,s≈0.212,因此由样本数据可以看出抽取的第13个零件的尺寸在(eq \(x,\s\up6(-))-3s,eq \(x,\s\up6(-))+3s)以外,因此需对当天的生产过程进行检查.
②剔除离群值,即第13个数据,剩下数据的平均数为eq \f(1,15)×(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
eq \i\su(i=1,16,x)eq \\al(2,i)≈16×0.2122+16×9.972≈1591.134,
剔除第13个数据,剩下数据的样本方差为eq \f(1,15)×(1591.134-9.222-15×10.022)≈0.008,
这条生产线当天生产的零件尺寸的标准差的估计值为eq \r(0.008)≈0.09.
多角度探究突破
角度线性回归模型
例3 (2024·济南开学考试)随着科技的发展,网购成了人们购物的重要选择,并对实体经济产生了一定影响.为了解实体经济的现状,某研究机构统计了一个大商场2019~2023年的线下销售额如下:
(1)由表中数据可以看出,可用线性回归模型拟合销售额y与年份编号x的关系,请用相关系数加以说明;
(2)建立y关于x的经验回归方程,并预测2024年该商场的线下销售额.
参考公式及数据:
r=eq \f(\(∑,\s\up6(n),\s\d4(i=1))xiyi-n\(x,\s\up6(-))\(y,\s\up6(-)),\r((\(∑,\s\up6(n),\s\d4(i=1))xeq \\al(2,i)-n\(x,\s\up6(-))2)(\(∑,\s\up6(n),\s\d4(i=1))yeq \\al(2,i)-n\(y,\s\up6(-))2))),
eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(n),\s\d4(i=1))xiyi-n\(x,\s\up6(-))\(y,\s\up6(-)),\(∑,\s\up6(n),\s\d4(i=1))xeq \\al(2,i)-n\(x,\s\up6(-))2),eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)),
≈1736.
解 (1)由已知数据可得,eq \(x,\s\up6(-))=3,eq \(y,\s\up6(-))=eq \f(\i\su(i=1,5,y)i,5)=eq \f(6100,5)=1220,
所以eq \i\su(i=1,5,x)iyi-5eq \(x,\s\up6(-))eq \(y,\s\up6(-))=16589-5×3×1220=-1711,
所以r=≈eq \f(-1711,1736)≈-0.9856.
因为|r|非常接近1,所以可用线性回归模型拟合销售额y与年份编号x的关系.
(2)由已知数据可得,eq \i\su(i=1,5,x)eq \\al(2,i)=12+22+32+42+52=55,
所以eq \(b,\s\up6(^))==eq \f(16589-5×3×1220,55-5×32)=-171.1,
eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-))=1220-(-171.1)×3=1733.3,
所以y关于x的经验回归方程为eq \(y,\s\up6(^))=-171.1x+1733.3.
令x=6,
则eq \(y,\s\up6(^))=-171.1×6+1733.3=706.7(万元).
所以预测2024年该商场的线下销售额为706.7万元.
角度非线性回归模型
例4 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中wi=eq \r(xi),eq \(w,\s\up6(-))=eq \f(1,8)eq \(∑,\s\up6(8),\s\d4(i=1))wi.
(1)根据散点图判断,y=a+bx与y=c+deq \r(x)哪一个适宜作为年销售量y关于年宣传费x的经验回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预测值是多少?
②年宣传费x为何值时,年利润的预测值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线eq \(v,\s\up6(^))=eq \(α,\s\up6(^))+eq \(β,\s\up6(^))u的斜率和截距的最小二乘估计分别为eq \(β,\s\up6(^))=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (ui-\(u,\s\up6(-)))(vi-\(v,\s\up6(-))),\(∑,\s\up6(n),\s\d4(i=1)) (ui-\(u,\s\up6(-)))2),eq \(α,\s\up6(^))=eq \(v,\s\up6(-))-eq \(β,\s\up6(^))eq \(u,\s\up6(-)).
解 (1)由散点图可以判断,y=c+deq \r(x)适宜作为年销售量y关于年宣传费x的经验回归方程类型.
(2)令w=eq \r(x),先建立y关于w的经验回归方程.
由于eq \(d,\s\up6(^))=eq \f(\(∑,\s\up6(8),\s\d4(i=1)) (wi-\(w,\s\up6(-)))(yi-\(y,\s\up6(-))),\(∑,\s\up6(8),\s\d4(i=1)) (wi-\(w,\s\up6(-)))2)=eq \f(108.8,1.6)=68,
eq \(c,\s\up6(^))=eq \(y,\s\up6(-))-eq \(d,\s\up6(^))eq \(w,\s\up6(-))=563-68×6.8=100.6,
所以y关于w的经验回归方程为eq \(y,\s\up6(^))=100.6+68w,
因此y关于x的经验回归方程为eq \(y,\s\up6(^))=100.6+68eq \r(x).
(3)①由(2)知,当x=49时,年销售量y的预测值为eq \(y,\s\up6(^))=100.6+68eq \r(49)=576.6千元,
年利润z的预测值为eq \(z,\s\up6(^))=576.6×0.2-49=66.32千元.
②根据(2)的结果知,年利润z的预测值
eq \(z,\s\up6(^))=0.2(100.6+68eq \r(x))-x=-x+13.6eq \r(x)+20.12.
所以当eq \r(x)=eq \f(13.6,2)=6.8,即x=46.24时,eq \(z,\s\up6(^))取得最大值.
故年宣传费为46.24千元时,年利润的预测值最大.
求经验回归方程的步骤
提醒:对非线性回归分析问题,可通过适当的换元转化为线性回归分析问题求解.
1.(2023·厦门二模)移动物联网广泛应用于生产制造、公共服务、个人消费等领域.截至2022年底,我国移动物联网连接数达18.45亿户,成为全球主要经济体中首个实现“物超人”的国家.如图是2018~2022年移动物联网连接数w与年份代码t的散点图,其中年份2018~2022对应的t分别为1~5.
(1)根据散点图推断两个变量是否线性相关.计算样本相关系数(精确到0.01),并推断它们的相关程度;
(2)①假设变量x与变量Y的n对观测数据为(x1,y1),(x2,y2),…,(xn,yn),两个变量满足一元线性回归模型eq \b\lc\{(\a\vs4\al\c1(Y=bx+e,,E(e)=0,D(e)=σ2))(随机误差ei=yi-bxi).请推导:当随机误差平方和Q=eq \i\su(i=1,n,e)eq \\al(2,i)取得最小值时,参数b的最小二乘估计;
②令变量x=t-eq \(t,\s\up6(-)),Y=w-eq \(w,\s\up6(-)),则变量x与变量Y满足一元线性回归模型eq \b\lc\{(\a\vs4\al\c1(Y=bx+e,,E(e)=0,D(e)=σ2.))利用①中结论求Y关于x的经验回归方程,并预测2024年移动物联网连接数.
附:样本相关系数r=,
==60.8,eq \r(769)≈27.7.
解 (1)由散点图可以看出样本点都集中在一条直线附近,由此推断两个变量线性相关.
因为eq \(t,\s\up6(-))=eq \f(1,5)×(1+2+3+4+5)=3,
所以eq \i\su(i=1,5, )(ti-eq \(t,\s\up6(-)))2=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,
所以r=eq \f(\i\su(i=1,5, )(ti-\(t,\s\up6(-)))(wi-\(w,\s\up6(-))),\r(\i\su(i=1,5, )(ti-\(t,\s\up6(-)))2)\r(\i\su(i=1,5, )(wi-\(w,\s\up6(-)))2))=eq \f(27.2,\r(10×76.9))=eq \f(27.2,\r(769))≈eq \f(27.2,27.7)≈0.98,
所以这两个变量正线性相关,且相关程度很强.
(2)①Q=
,
要使Q取得最小值,当且仅当eq \(b,\s\up6(^))=.
②由①知eq \(b,\s\up6(^))==eq \f(27.2,10)=2.72,
所以Y关于x的经验回归方程为eq \(y,\s\up6(^))=2.72x,
又eq \(w,\s\up6(-))=eq \f(\i\su(i=1,5,w)i,5)=eq \f(60.8,5)=12.16,所以当t=7时,
则x=7-3=4,w=eq \(y,\s\up6(^))+eq \(w,\s\up6(-))=2.72×4+12.16=23.04,
所以预测2024年移动物联网连接数为23.04亿户.
2.(2023·辽宁名校联盟期末)红铃虫是棉花的主要害虫之一,也侵害木棉、锦葵等植物.为了防治虫害,从根源上抑制害虫数量.现研究红铃虫的产卵数和温度的关系,收集到7组温度x和产卵数y的观测数据于表Ⅰ中.根据绘制的散点图决定从回归模型①y=c1ec2x与回归模型②y=c3x2+c4中选择一个来进行拟合.
表Ⅰ
(1)请借助表Ⅱ中的数据,求出回归模型①的方程(精确到0.01);
表Ⅱ(注:表中ti=ln yi)
(2)类似地,可以得到回归模型②的方程为y=0.36x2-202.54,试求两种模型下温度为20 ℃时的残差;
(3)若求得回归模型①的决定系数R2=0.95,回归模型②的决定系数R2=0.81,请结合(2)说明哪个模型的拟合效果更好.
参考数据:e-3.41≈0.03,e0.26≈1.30,e1.79≈5.99,e5.20≈181.27.
附:经验回归方程eq \(y,\s\up6(^))=eq \(β,\s\up6(^))x+eq \(α,\s\up6(^))中
eq \a\vs4\al(\(β,\s\up6(^)))=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2),eq \(α,\s\up6(^))=eq \(y,\s\up6(-))-eq \(β,\s\up6(^))eq \(x,\s\up6(-)).
解 (1)由y=c1ec2x,得ln y=ln c1+c2x,
令t=ln y,b=c2,a=ln c1,得t=bx+a,
由表Ⅱ数据可得,
eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(7),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(ti-\a\vs4\al(\(t,\s\up6(-)))),\(∑,\s\up6(7),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2)=eq \f(41.86,162)≈0.26,
eq \(a,\s\up6(^))=eq \a\vs4\al(\(t,\s\up6(-)))-eq \(b,\s\up6(^))eq \(x,\s\up6(-))≈eq \f(25.27,7)-0.26×eq \f(189,7)=-3.41,
所以eq \(t,\s\up6(^))=0.26x-3.41,
所以所求经验回归方程为eq \(y,\s\up6(^))=e0.26x-3.41(或eq \(y,\s\up6(^))=).
(2)由题意可知,模型①在x=20时残差为y1-eq \(y,\s\up6(^))1=7-e0.26×20-3.41≈1.01,
模型②在x=20时残差为y1-eq \(y,\s\up6(^))1=7-(0.36×202-202.54)=65.54.
(3)因为0.95>0.81,即模型①的决定系数大于模型②的决定系数,由决定系数公式知,模型①的残差平方和小于模型②的残差平方和,因此模型①得到的数据更接近真实数据,所以模型①的拟合效果更好.
例5 (2023·枣庄三中期末)某中学为调查本校学生“保护动物意识的强弱与性别是否有关”,采用简单随机抽样的方法,从该校分别抽取了男生和女生各50名作为样本,经统计,得到如图所示的等高堆积条形图.
(1)根据已知条件,将下面2×2列联表补充完整:
(2)根据(1)表中数据,依据小概率值α=0.005的独立性检验,分析该校学生保护动物意识的强弱与性别是否有关.
附:χ2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),n=a+b+c+d.
解 (1)由等高堆积条形图知,男生保护动物意识强的有50×0.7=35人,女生保护动物意识强的有50×0.4=20人,于是补充2×2列联表如下:
(2)零假设为H0:该校学生保护动物意识的强弱与性别无关,根据列联表中的数据,得
χ2=eq \f(100×(35×30-15×20)2,50×50×55×45)=eq \f(100,11)≈9.091>7.879=x0.005,
根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为该校学生保护动物意识的强弱与性别有关,此推断犯错误的概率不大于0.005.
1.比较几个分类变量有关联的可能性大小的方法
(1)通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.
(2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.
(3)通过计算eq \f(a,a+b)与eq \f(c,c+d)的大小判断:相差越大,两变量有关联的可能性越大.
2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))计算χ2的值.
(3)比较χ2与临界值xα的大小关系,作统计推断.
(2024·贵州黔东南州从江县高三期中检测)某学校现有1000名学生,为调查该校学生一周使用手机上网时间的情况,收集了n名学生某周使用手机上网时间的样本数据(单位:小时).将数据分为6组:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12],并整理得到如下的频率分布直方图:
(1)估计该校学生一周平均使用手机上网时间(每组数据以该组中点值为代表);
(2)将一周使用手机上网时间在(4,12]内定义为“长时间使用手机上网”;一周使用手机上网时间在(0,4]内定义为“不长时间使用手机上网”,在样本数据中,有0.25n名学生不近视.
①请补充完成该周使用手机上网时间与近视程度的列联表;
②若n为100,那么在犯错误的概率不超过0.001的前提下是否能认为该校学生一周使用手机上网时间与近视程度有关?
附:χ2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中,n=a+b+c+d.
解 (1)根据频率分布直方图可估计该校学生一周平均使用手机上网时间为eq \(x,\s\up6(-))=1×0.025×2+3×0.100×2+5×0.150×2+7×0.125×2+9×0.075×2+11×0.025×2=5.8(小时).
(2)①由频率分布直方图可得,上网时间在(0,4]内和(4,12]内的比例为0.25∶0.75=1∶3,
故可得列联表如下:
②若n为100,则χ2=eq \f(100×(65×15-10×10)2,75×25×75×25)≈21.78>10.828,故在犯错误的概率不超过0.001的前提下能认为该校学生一周使用手机上网时间与近视程度有关.
课时作业
一、单项选择题
1.根据分类变量x与y的成对样本数据,计算得到χ2=6.147.依据α=0.01的独立性检验(x0.01=6.635),结论为( )
A.变量x与y不独立
B.变量x与y不独立,这个结论犯错误的概率不超过0.01
C.变量x与y独立
D.变量x与y独立,这个结论犯错误的概率不超过0.01
答案 C
解析 依据α=0.01的独立性检验,当χ2=6.147<6.635时,可以认为变量x与y独立.故选C.
2.(2023·天津高考)调查某种群花萼长度和花瓣长度,所得数据如图所示.其中相关系数r=0.8245,下列说法正确的是( )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245
答案 C
解析 因为相关系数r=0.8245>0.75,所以花瓣长度和花萼长度的相关性较强,并且呈正相关,所以A,B错误,C正确;因为相关系数与样本的数据有关,所以当样本发生变化时,相关系数也可能会发生变化,所以D错误.故选C.
3.(2024·青岛开学考试)已知某设备的使用年限x(单位:年)与年维护费用y(单位:千元)的对应数据如下表:
由所给数据分析可知,x与y之间具有线性相关关系,且y关于x的经验回归方程为eq \(y,\s\up6(^))=1.05x+eq \(a,\s\up6(^)),则eq \(a,\s\up6(^))=( )
A.0.75 B.0.85
C.0.95 D.1.05
答案 B
解析 由已知可得,eq \(x,\s\up6(-))=eq \f(2+4+5+6+8,5)=5,eq \(y,\s\up6(-))=eq \f(3+4.5+6.5+7.5+9,5)=6.1,因为经验回归直线过样本点的中心(5,6.1),所以6.1=1.05×5+eq \(a,\s\up6(^)),解得eq \(a,\s\up6(^))=0.85.故选B.
4.用模型y=aebx+1(a>0)拟合一组数据时,令z=ln y,将其变换后得到经验回归方程z=2x+a,则eq \f(b,a)=( )
A.e B.eq \f(1,e)
C.eq \f(1,2) D.2
答案 D
解析 对y=aebx+1(a>0)两边同时取对数,则ln y=ln (aebx+1)=ln a+bx+1,令z=ln y,则z=bx+ln a+1,所以eq \b\lc\{(\a\vs4\al\c1(b=2,,a=ln a+1,))解得eq \b\lc\{(\a\vs4\al\c1(b=2,,a=1,))所以eq \f(b,a)=2.故选D.
5.下图是某地区2003年至2023年环境保护建设投资额(单位:万元)的折线图.
根据该折线图判断,下列结论正确的是( )
A.为预测该地2024年的环境保护建设投资额,应用2003年至2023年的数据建立回归模型更可靠
B.为预测该地2024年的环境保护建设投资额,应用2012年至2023年的数据建立回归模型更可靠
C.投资额与年份负相关
D.投资额与年份的相关系数r<0
答案 B
解析 因为2011年之前与2012年之后投资额变化较大,故为预测该地2024年的环境保护建设投资额,应用2012年至2023年的数据建立回归模型更可靠,所以A错误,B正确;随年份的增长,投资额总体上在增长,所以投资额与年份正相关,r>0,故C,D错误.故选B.
6.根据如下样本数据:
得到经验回归方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),则( )
A.eq \(a,\s\up6(^))>0,eq \(b,\s\up6(^))>0 B.eq \(a,\s\up6(^))>0,eq \(b,\s\up6(^))<0
C.eq \(a,\s\up6(^))<0,eq \(b,\s\up6(^))>0 D.eq \(a,\s\up6(^))<0,eq \(b,\s\up6(^))<0
答案 B
解析 根据给出的数据可发现,整体上y与x呈负相关,所以eq \(b,\s\up6(^))<0,由样本点(3,4.0)及(4,2.5)可知eq \(a,\s\up6(^))>0.
7.(2023·衡水一模)某新能源汽车生产公司,为了研究某生产环节中两个变量x,y之间的相关关系,统计样本数据得到如下表格:
由表格中的数据可以得到y与x的经验回归方程为eq \(y,\s\up6(^))=eq \f(1,4)x+eq \(a,\s\up6(^)),据此计算,下列选项中残差的绝对值最小的样本数据是( )
A.(30,4.6) B.(27,3)
C.(25,3) D.(23,2.4)
答案 C
解析 由表格数据知,eq \(x,\s\up6(-))=eq \f(20+23+25+27+30,5)=25,eq \(y,\s\up6(-))=eq \f(2+2.4+3+3+4.6,5)=3,∴eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \f(1,4)eq \(x,\s\up6(-))=3-eq \f(25,4)=-eq \f(13,4),∴经验回归方程为eq \(y,\s\up6(^))=eq \f(1,4)x-eq \f(13,4).对于A,残差的绝对值为eq \b\lc\|\rc\|(\a\vs4\al\c1(4.6-\b\lc\(\rc\)(\a\vs4\al\c1(\f(1,4)×30-\f(13,4)))))=0.35;对于B,残差的绝对值为eq \b\lc\|\rc\|(\a\vs4\al\c1(3-\b\lc\(\rc\)(\a\vs4\al\c1(\f(1,4)×27-\f(13,4)))))=0.5;对于C,残差的绝对值为eq \b\lc\|\rc\|(\a\vs4\al\c1(3-\b\lc\(\rc\)(\a\vs4\al\c1(\f(1,4)×25-\f(13,4)))))=0;对于D,残差的绝对值为eq \b\lc\|\rc\|(\a\vs4\al\c1(2.4-\b\lc\(\rc\)(\a\vs4\al\c1(\f(1,4)×23-\f(13,4)))))=0.1.∴残差的绝对值最小的样本数据是(25,3).故选C.
8.针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为5m(m∈N*),男生中喜欢短视频的人数占男生人数的eq \f(4,5),女生中喜欢短视频的人数占女生人数的eq \f(3,5).零假设为H0:喜欢短视频和性别相互独立.若依据α=0.05的独立性检验认为喜欢短视频和性别不独立,则m的最小值为( )
附:χ2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))
A.7 B.8
C.9 D.10
答案 C
解析 根据题意,建立如下2×2列联表:
由表可知,a=4m,b=m,c=3m,d=2m,
于是χ2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))
=eq \f(10m·(4m·2m-m·3m)2,5m·5m·7m·3m)=eq \f(10m,21),由于依据α=0.05的独立性检验认为喜欢短视频和性别不独立,根据表格可知eq \f(10m,21)≥3.841,解得m≥8.0661,于是m的最小值为9.故选C.
二、多项选择题
9.(2023·武汉二模)在研究某种产品的零售价x(单位:元)与销售量y(单位:万件)之间的关系时,根据所得数据得到如下所示的对应表:
利用最小二乘法计算数据,得到的经验回归方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+26.2,则下列说法中正确的是( )
A.x与y的样本相关系数r>0
B.经验回归直线必过点(16,14.2)
C.eq \(b,\s\up6(^))<0
D.若该产品的零售价定为22元,可预测销售量是9.7万件
答案 BCD
解析 由表中数据可知eq \(x,\s\up6(-))=eq \f(12+14+16+18+20,5)=16,eq \(y,\s\up6(-))=eq \f(17+16+14+13+11,5)=14.2.对于A,因为相关系数的公式r=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\r(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2\(∑,\s\up6(n),\s\d4(i=1)) (yi-\(y,\s\up6(-)))2)),故相关系数的正负取决于分子,又eq \(∑,\s\up6(5),\s\d4(i=1)) (xi-eq \(x,\s\up6(-)))·(yi-eq \(y,\s\up6(-)))=(-4)×2.8+(-2)×1.8+0×(-0.2)+2×(-1.2)+4×(-3.2)=-30<0,故A错误;对于B,由变量x与y的均值,得样本点的中心为(16,14.2),则经验回归直线必过样本点的中心(16,14.2),故B正确;对于C,将点(16,14.2)代入eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+26.2,得14.2=eq \(b,\s\up6(^))×16+26.2,解得eq \(b,\s\up6(^))=-0.75<0,故C正确;因为eq \(b,\s\up6(^))=-0.75,所以经验回归方程为eq \(y,\s\up6(^))=-0.75x+26.2,当x=22时,eq \(y,\s\up6(^))=-0.75×22+26.2=9.7,所以若该产品的零售价定为22元,则可预测销售量是9.7万件,故D正确.故选BCD.
10.(2023·长沙一模)自然环境中,大气压受到各种因素的影响,如温度、湿度、风速和海拔等方面的改变,都将导致大气压发生相应的变化,其中以海拔的影响最为显著.下图是根据一组观测数据得到的海拔6~15千米的大气压强散点图,根据一元线性回归模型得到的经验回归方程为eq \(y,\s\up6(^))1=-4.0x+68.5,决定系数为Req \\al(2,1)=0.99;根据非线性回归模型得到的经验回归方程为eq \(y,\s\up6(^))2=132.9e-0.163x,决定系数为Req \\al(2,2)=0.99,则下列说法正确的是( )
A.由散点图可知,大气压强与海拔高度负相关
B.由方程eq \(y,\s\up6(^))1=-4.0x+68.5可知,海拔每升高1千米,大气压强必定降低4.0 kPa
C.由方程eq \(y,\s\up6(^))1=-4.0x+68.5可知,样本点(11,22.6)的残差为-1.9
D.对比两个回归模型,结合实际情况,方程eq \(y,\s\up6(^))2=132.9e-0.163x的预报效果更好
答案 ACD
解析 对于A,由散点图知,海拔高度越高,大气压强越低,所以大气压强与海拔高度负相关,故A正确;对于B,回归直线得到的数据为估计值,而非精确值,故B错误;对于C,当x=11时,eq \(y,\s\up6(^))1=-4.0×11+68.5=24.5,又由散点图知观测值为22.6,所以样本点(11,22.6)的残差为22.6-24.5=-1.9,故C正确;对于D,随着海拔高度的增加,大气压强越来越小,但不可能为负数,因此方程eq \(y,\s\up6(^))2=132.9e-0.163x的预报效果更好,故D正确.故选ACD.
11.(2023·厦门模拟)为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,随机抽取了300名学生,对他们是否经常锻炼的情况进行了调查,调查发现经常锻炼的人数是不经常锻炼的人数的2倍,绘制其等高堆积条形图如图所示,则( )
附:χ2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),n=a+b+c+d.
A.参与调查的男生中经常锻炼的人数比不经常锻炼的人数多
B.从参与调查的学生中任取一人,已知该生为女生,则该生经常锻炼的概率为eq \f(5,7)
C.依据α=0.1的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.1
D.假设调查人数为600,经常锻炼的人数与不经常锻炼的人数的比例不变,统计得到的等高堆积条形图也不变,依据α=0.05的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.05
答案 ABD
解析 随机抽取了300名学生,则经常锻炼的人数为200,不经常锻炼的人数为100.对于A,由等高堆积条形图知,男生中经常锻炼的人数为200×50%=100,不经常锻炼的人数为100×60%=60,A正确;对于B,由等高堆积条形图知,女生中经常锻炼的人数为200×50%=100,不经常锻炼的人数为100×40%=40,∴从参与调查的学生中任取一人,已知该生为女生,则该生经常锻炼的概率为eq \f(100,100+40)=eq \f(5,7),B正确;对于C,∵χ2=eq \f(300×(100×60-40×100)2,140×160×200×100)≈2.679<2.706,∴依据α=0.1的独立性检验,不能认为性别因素影响学生体育锻炼的经常性,C错误;对于D,2×2列联表如下:
∴χ2=eq \f(600×(80×200-200×120)2,280×320×200×400)=eq \f(75,14)≈5.357>3.841,∴依据α=0.05的独立性检验,认为性别因素影响学生体育锻炼的经常性,该推断犯错误的概率不超过0.05,D正确.故选ABD.
三、填空题
12.高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.
从这次考试成绩看,
(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;
(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.
答案 (1)乙 (2)数学
解析 (1)由图分析,甲的语文成绩名次比其总成绩名次靠后,乙的语文成绩名次比其总成绩名次靠前,故填乙.
(2)根据丙在两个图中对应的点的纵坐标,观察易得,丙同学成绩名次更靠前的科目是数学.
13.(2023·浦东新区三模)已知一组成对数据(18,24),(13,34),(10,38),(-1,m)的经验回归方程为eq \(y,\s\up6(^))=-2x+59.5,则该组数据的相关系数r=________(精确到0.001).
答案 -0.998
解析 由已知条件可得,eq \(x,\s\up6(-))=eq \f(1,4)×(18+13+10-1)=10,eq \(y,\s\up6(-))=eq \f(1,4)×(24+34+38+m)=eq \f(1,4)×(96+m),因为点(eq \(x,\s\up6(-)),eq \(y,\s\up6(-)))一定在经验回归直线eq \(y,\s\up6(^))=-2x+59.5上,代入,解得m=62,故eq \(y,\s\up6(-))=eq \f(79,2),=7020,所以r=≈-0.998.
14.新能源汽车的核心部件是动力电池,电池占了新能源整车成本的很大一部分,而其中的原材料碳酸锂又是电池的主要成分.从2020年底开始,碳酸锂的价格不断升高,下表是2023年某企业的前5个月碳酸锂的价格与月份的统计数据:
根据表中数据,得出y关于x的经验回归方程为eq \(y,\s\up6(^))=0.28x+eq \(a,\s\up6(^)),根据数据计算出在样本点(5,1.5)处的残差为-0.06,则表中m=________.
答案 1.4
解析 由题设,得1.5-eq \(y,\s\up6(^))=1.5-(0.28×5+eq \(a,\s\up6(^)))=-0.06,
解得eq \(a,\s\up6(^))=0.16.
又eq \(x,\s\up6(-))=eq \f(1+2+3+4+5,5)=3,
eq \(y,\s\up6(-))=eq \f(0.5+0.6+1+m+1.5,5)=eq \f(3.6+m,5),
所以0.28×3+0.16=eq \f(3.6+m,5),解得m=1.4.
四、解答题
15.为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查,得到了如下的2×2列联表:
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为eq \f(2,3).请将上面的2×2列联表补充完整.
解 在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为eq \f(2,3),故喜爱打篮球的学生共有48×eq \f(2,3)=32人,因为喜爱打篮球的女生有10人,故喜爱打篮球的男生有22人,结合题意可知不喜爱打篮球的女生有48-32-6=10人.列联表补充如下:
16.(2020·新高考Ⅰ卷改编)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否推断该市一天空气中PM2.5浓度与SO2浓度有关?
附:χ2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),
解 (1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为eq \f(64,100)=0.64.
(2)根据抽查数据,可得2×2列联表如下:
(3)零假设为H0:该市一天空气中PM2.5浓度与SO2浓度无关.由列联表中的数据,得
χ2=eq \f(100×(64×10-16×10)2,80×20×74×26)≈7.484.
由于7.484>6.635=x0.01,所以依据小概率值α=0.01的独立性检验,我们推断H0不成立,
即认为该市一天空气中PM2.5浓度与SO2浓度有关.
17.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山,为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
并计算得eq \(∑,\s\up10(10),\s\d4(i=1))xeq \\al(2,i)=0.038,eq \(∑,\s\up10(10),\s\d8(i=1))yeq \\al(2,i)=1.6158,eq \(∑,\s\up10(10),\s\d8(i=1))xiyi=0.2474.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\r(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2\(∑,\s\up6(n),\s\d4(i=1)) (yi-\(y,\s\up6(-)))2)),
eq \r(1.896)≈1.377.
解 (1)设这种树木平均一棵的根部横截面积为eq \(x,\s\up6(-)),平均一棵的材积量为eq \(y,\s\up6(-)),
则eq \(x,\s\up6(-))=eq \f(0.6,10)=0.06 m2,eq \(y,\s\up6(-))=eq \f(3.9,10)=0.39 m3.
(2)r=eq \f(\(∑,\s\up10(10),\s\d8(i=1))xiyi-10\(x,\s\up6(-)) \(y,\s\up6(-)),\r((\(∑,\s\up10(10),\s\d8(i=1))xeq \\al(2,i)-10\(x,\s\up6(-))2)(\(∑,\s\up10(10),\s\d8(i=1))yeq \\al(2,i)-10\(y,\s\up6(-))2)))
=eq \f(0.2474-10×0.06×0.39,\r((0.038-10×0.062)×(1.6158-10×0.392)))
=eq \f(0.0134,\r(0.002×0.0948))=eq \f(0.0134,0.01×\r(1.896))
≈eq \f(0.0134,0.01377)≈0.97.
(3)设所有这种树木的根部横截面积总和为X,总材积量为Y,则eq \f(X,Y)=eq \f(\(x,\s\up6(-)),\(y,\s\up6(-))),故Y=eq \f(0.39,0.06)×186=1209 m3.
18.(2024·湖北武汉模拟)某乡政府为提高当地农民收入,指导农民种植药材,并在种植药材的土地附近种草放牧,发展畜牧业.牛粪、羊粪等有机肥可以促进药材的生长,发展生态循环农业.下图所示为某农户近7年种植药材的平均收入y(单位:千元)与年份代码x的折线图,并计算得到eq \(∑,\s\up6(7),\s\d4(i=1))yi=480,eq \(∑,\s\up6(7),\s\d4(i=1))xiyi=2052,eq \r(\(∑,\s\up6(7),\s\d4(i=1)) (yi-\(y,\s\up6(-)))2)≈25,eq \(∑,\s\up6(7),\s\d4(i=1)) (xi-eq \(x,\s\up6(-)))(yi-eq \(y,\s\up6(-)))=132,eq \(∑,\s\up6(7),\s\d4(i=1))wi=140,eq \(∑,\s\up6(7),\s\d4(i=1)) (wi-eq \(w,\s\up6(-)))(yi-eq \(y,\s\up6(-)))=1048,eq \r(\(∑,\s\up6(7),\s\d4(i=1)) (wi-\(w,\s\up6(-)))2)≈43.3,其中wi=xeq \\al(2,i).
(1)根据折线图判断,y=a+bx与y=c+dx2哪一个适宜作为平均收入y关于年份代码x的经验回归方程类型?并说明理由;
(2)根据(1)的判断结果及数据,建立y关于x的经验回归方程(精确到0.01),并预测2024年该农户种植药材的平均收入;
(3)结合当地的环境和气候及对种植户的调查统计分析表明:若继续种植现有的药材,农户的收入将接近“瓶颈”.要想继续提高农户的收入,则需要制定新的种植方案.在原有的土地上继续种植原有药材,质量得不到保障,且影响农户经济收入.请先分析原因,并给出建议.
附:相关系数r=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\r(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2\(∑,\s\up6(n),\s\d4(i=1)) (yi-\(y,\s\up6(-)))2)),
回归直线的斜率和截距的最小二乘估计公式eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2),eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)),eq \r(7)≈2.65.
解 (1)因为eq \(x,\s\up6(-))=eq \f(1,7)×(1+2+3+4+5+6+7)=4,
eq \(∑,\s\up6(7),\s\d4(i=1)) (xi-eq \(x,\s\up6(-)))2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28,
对于模型y=a+bx,
相关系数r=eq \f(\(∑,\s\up6(7),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\r(\(∑,\s\up6(7),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2\(∑,\s\up6(7),\s\d4(i=1)) (yi-\(y,\s\up6(-)))2))
≈eq \f(132,2\r(7)×25)≈0.996,
对于模型y=c+dx2,
相关系数r′=eq \f(\(∑,\s\up6(7),\s\d4(i=1)) (wi-\(w,\s\up6(-)))(yi-\(y,\s\up6(-))),\r(\(∑,\s\up6(7),\s\d4(i=1)) (wi-\(w,\s\up6(-)))2\(∑,\s\up6(7),\s\d4(i=1)) (yi-\(y,\s\up6(-)))2))
≈eq \f(1048,43.3×25)≈0.968,
因为0.996>0.968,
所以y=a+bx适宜作为平均收入y关于年份代码x的经验回归方程类型.
(2)由(1)可知,经验回归方程类型为y=a+bx,
由已知数据及公式可得eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(7),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\(∑,\s\up6(7),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2)=eq \f(132,28)=eq \f(33,7)≈4.71,
eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-))=eq \f(480,7)-eq \f(33,7)×4≈49.71,
所以y关于x的经验回归方程为eq \(y,\s\up6(^))=4.71x+49.71,
又年份代码1~7分别对应年份2017~2023,所以2024年对应的年份代码为8,
代入可得eq \(y,\s\up6(^))=4.71×8+49.71=87.39千元,
所以预测2024年该农户种植药材的平均收入为87.39千元.
(3)长期在固定的土地种植固定的药材,土壤的微量元素含量及比例会发生变化,影响药材的生长,产量、质量方面等出现问题;长期种植同种药材,品种较为单一,市场也会趋于饱和,影响收入.
故建议如下:
①扩大种植面积,调整种植品种,进行土壤元素分析,结合当地环境及农作物的种植,进行综合研判,进行套种或轮作;
②增加药材品种,聘请专家指导每块土地药材种植的次序及间隔时间等,采用多元化种植方式,也可根据药材的特性,因地制宜选择种植品种.
19.《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下:
根据数据特点,甲认为样本点分布在指数型曲线y=2bx+a的周围,据此他对数据进行了一些初步处理.如下表:
其中zi=lg2yi,eq \(z,\s\up6(-))=eq \f(1,7)eq \(∑,\s\up6(7),\s\d4(i=1))zi.
(1)请根据表中数据,建立y关于x的经验回归方程(系数eq \(b,\s\up6(^))精确到0.1);
(2)①乙认为样本点分布在直线y=mx+n的周围,并计算得经验回归方程为eq \(y,\s\up6(^))=8.25x+3,以及该回归模型的决定系数Req \\al(2,乙)=0.893,试比较甲、乙两人所建立的模型,谁的拟合效果更好?
②由①所得的结论,计算该企业欲使收益达到2.56亿元,科技投入的费用至少要多少百万元?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线eq \(v,\s\up6(^))=eq \(β,\s\up6(^))u+eq \(α,\s\up6(^))的斜率和截距的最小二乘估计分别为
eq \(β,\s\up6(^))=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (ui-\(u,\s\up6(-)))(vi-\(v,\s\up6(-))),\(∑,\s\up6(n),\s\d4(i=1)) (ui-\(u,\s\up6(-)))2)=eq \f(\(∑,\s\up6(n),\s\d4(i=1))uivi-n\(u,\s\up6(-))\(v,\s\up6(-)),\(∑,\s\up6(n),\s\d4(i=1))ueq \\al(2,i)-n\(u,\s\up6(-))2),
eq \(α,\s\up6(^))=eq \(v,\s\up6(-))-eq \(β,\s\up6(^))eq \(u,\s\up6(-)),决定系数R2=1-eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (vi-\(v,\s\up6(^))i)2,\(∑,\s\up6(n),\s\d4(i=1)) (vi-\(v,\s\up6(-)))2).
解 (1)将y=2bx+a两边取对数,得lg2y=bx+a,
令z=lg2y,则eq \(z,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),
∵eq \(x,\s\up6(-))=4,∴根据最小二乘估计可知
eq \(b,\s\up6(^))=eq \f(\(∑,\s\up10(7),\s\d8(i=1))xizi-7\(x,\s\up6(-)) \(z,\s\up6(-)),\(∑,\s\up10(7),\s\d8(i=1))xeq \\al(2,i)-7\(x,\s\up6(-))2)=eq \f(149-7×4×5,140-7×42)≈0.3,
∴eq \(a,\s\up6(^))=eq \(z,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-))≈5-0.3×4=3.8,
∴经验回归方程为eq \(z,\s\up6(^))=0.3x+3.8,
即eq \(y,\s\up6(^))=20.3x+3.8.
(2)①甲建立的回归模型:Req \\al(2,甲)=1-eq \f(130,2134)≈0.939>Req \\al(2,乙)=0.893.
∴甲建立的回归模型拟合效果更好.
②由①知,甲建立的回归模型拟合效果更好.
由20.3x+3.8≥256,得0.3x+3.8≥lg2256=8,解得x≥14.
∴科技投入的费用至少要14百万元,该企业的收益才能达到2.56亿元.X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
阅读量
幸福感
合计
强
弱
多
m
18
72
少
36
n
78
合计
90
60
150
α
0.10
0.05
0.025
0.010
0.005
0.001
xα
2.706
3.841
5.024
6.635
7.879
10.828
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
54
考向一 两个变量的相关性
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
画散点图
若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关
样本相关系数
当r>0时,正相关;当r<0时,负相关;|r|越接近1,线性相关程度越强
经验回归方程
当eq \(b,\s\up6(^))>0时,正相关;当eq \(b,\s\up6(^))<0时,负相关
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
考向二 回归分析
年份编号x
1
2
3
4
5
年份
2019
2020
2021
2022
2023
销售额y
(单位:万元)
1513
1465
1202
1060
860
eq \(x,\s\up6(-))
eq \(y,\s\up6(-))
eq \(w,\s\up6(-))
eq \(∑,\s\up6(8),\s\d4(i=1)) (xi-eq \(x,\s\up6(-)))2
eq \(∑,\s\up6(8),\s\d4(i=1)) (wi-eq \(w,\s\up6(-)))2
eq \(∑,\s\up6(8),\s\d4(i=1)) (xi-eq \(x,\s\up6(-)))·(yi-eq \(y,\s\up6(-)))
eq \(∑,\s\up6(8),\s\d4(i=1)) (wi-eq \(w,\s\up6(-)))·(yi-eq \(y,\s\up6(-)))
46.6
563
6.8
289.8
1.6
1469
108.8
温度x/℃
20
22
25
27
29
31
35
产卵数y/个
7
11
21
24
65
114
325
eq \(∑,\s\up6(7),\s\d4(i=1))xi
eq \(∑,\s\up6(7),\s\d4(i=1))yi
eq \(∑,\s\up6(7),\s\d4(i=1))ti
eq \(∑,\s\up6(7),\s\d4(i=1)) (xi-eq \(x,\s\up6(-)))2
eq \(∑,\s\up6(7),\s\d4(i=1)) (yi-eq \(y,\s\up6(-)))2
189
567
25.27
162
78106
eq \(∑,\s\up6(7),\s\d4(i=1)) (ti-eq \a\vs4\al(\(t,\s\up6(-))))2
eq \(∑,\s\up6(7),\s\d4(i=1)) (xi-eq \(x,\s\up6(-)))·(yi-eq \(y,\s\up6(-)))
eq \(∑,\s\up6(7),\s\d4(i=1)) (xi-eq \(x,\s\up6(-)))·(ti-eq \a\vs4\al(\(t,\s\up6(-))))
eq \(∑,\s\up6(7),\s\d4(i=1)) (yi-eq \(y,\s\up6(-)))·(ti-eq \a\vs4\al(\(t,\s\up6(-))))
11.06
3040
41.86
825.09
考向三 独立性检验
性别
保护动物意识
合计
强
弱
男生
50
女生
50
合计
100
α
0.10
0.05
0.01
0.005
xα
2.706
3.841
6.635
7.879
性别
保护动物意识
合计
强
弱
男生
35
15
50
女生
20
30
50
合计
55
45
100
一周使用手机
上网时间
近视程度
合计
近视
不近视
长时间使用手机
不长时间使用手机
0.15n
合计
0.25n
α
0.1
0.05
0.010
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
一周使用手机上网时间
近视程度
合计
近视
不近视
长时间使用手机
0.65n
0.10n
0.75n
不长时间使用手机
0.10n
0.15n
0.25n
合计
0.75n
0.25n
n
x
2
4
5
6
8
y
3
4.5
6.5
7.5
9
x
3
4
5
6
7
8
y
4.0
2.5
0.5
0.5
0.4
0.1
xi
20
23
25
27
30
yi
2
2.4
3
3
4.6
α
0.05
0.01
xα
3.841
6.635
性别
短视频
合计
喜欢
不喜欢
男生
4m
m
5m
女生
3m
2m
5m
合计
7m
3m
10m
x
12
14
16
18
20
y
17
16
14
13
11
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
性别
锻炼情况
合计
不经常锻炼
经常锻炼
女生
80
200
280
男生
120
200
320
合计
200
400
600
月份代码x
1
2
3
4
5
碳酸锂价格y
(万元/kg)
0.5
0.6
1
m
1.5
性别
打篮球
合计
喜爱
不喜爱
男生
6
女生
10
合计
48
性别
打篮球
合计
喜爱
不喜爱
男生
22
6
28
女生
10
10
20
合计
32
16
48
PM2.5浓度
SO2浓度
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
PM2.5
浓度
SO2浓度
[0,150]
(150,475]
[0,75]
(75,115]
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
PM2.5浓度
SO2浓度
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
科技投入x
1
2
3
4
5
6
7
收益y
19
20
22
31
40
50
70
eq \(z,\s\up6(-))
eq \(∑,\s\up6(7),\s\d4(i=1))xeq \\al(2,i)
eq \(∑,\s\up6(7),\s\d4(i=1))xiyi
eq \(∑,\s\up6(7),\s\d4(i=1))xizi
eq \(∑,\s\up6(7),\s\d4(i=1)) (yi-eq \(y,\s\up6(-)))2
eq \(∑,\s\up6(7),\s\d4(i=1)) (yi-eq \(y,\s\up6(^))i)2
5
140
1239
149
2134
130
高考数学科学创新复习方案提升版第51讲双曲线(一)学案(Word版附解析): 这是一份高考数学科学创新复习方案提升版第51讲双曲线(一)学案(Word版附解析),共22页。
高考数学科学创新复习方案提升版第52讲双曲线(二)学案(Word版附解析): 这是一份高考数学科学创新复习方案提升版第52讲双曲线(二)学案(Word版附解析),共26页。
高考数学科学创新复习方案提升版第53讲抛物线(一)学案(Word版附解析): 这是一份高考数学科学创新复习方案提升版第53讲抛物线(一)学案(Word版附解析),共17页。