新高考数学一轮复习学案 第9章 §9.2 变量间的相关关系、统计案例(含解析)
展开1.相关关系与回归方程
(1)相关关系的分类
①正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
②负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(2)线性相关关系
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(3)回归方程
①最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
②回归方程
方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中eq \(a,\s\up6(^)),eq \(b,\s\up6(^))是待定参数.
eq \b\lc\{\rc\ (\a\vs4\al\c1(\(b,\s\up6(^))=\f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,n, )xi-\x\t(x)2)=\f(\i\su(i=1,n,x)iyi-n\x\t(x)\x\t(y),\i\su(i=1,n,x)\\al(2,i)-n\x\t(x)2),,\(a,\s\up6(^))=\x\t(y)-\(b,\s\up6(^))\x\t(x).))
(4)回归分析
①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(eq \x\t(x),eq \x\t(y))称为样本点的中心.
③相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
2.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
构造一个随机变量K2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d为样本容量.
(3)独立性检验:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
微思考
1.变量的相关关系与变量的函数关系有什么区别?
提示 相同点:两者均是指两个变量的关系.
不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?
提示 (1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.
(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
题组一 思考辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)散点图是判断两个变量相关关系的一种重要方法和手段.( √ )
(2)回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( × )
(3)相关系数的绝对值越接近1,样本数据的线性相关程度越强.( √ )
(4)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( × )
题组二 教材改编
2.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
答案 D
解析 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.
3.下面是2×2列联表:
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
答案 C
解析 ∵a+21=73,∴a=52.
又a+22=b,∴b=74.
4.已知x,y的对应取值如下表,从散点图可以看出y与x线性相关,且线性回归方程为eq \(y,\s\up6(^))=0.95x+eq \(a,\s\up6(^)),则eq \(a,\s\up6(^))等于( )
B.2.6 C.2.2 D.0
答案 B
解析 回归直线过点(2,4.5),
∴4.5=0.95×2+eq \(a,\s\up6(^)),
∴eq \(a,\s\up6(^))=2.6.
题组三 易错自纠
5.在统计中,由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)利用最小二乘法得到两个变量的回归方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),那么下列说法不正确的是( )
A.相关系数r不可能等于1
B.回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))必经过点(eq \x\t(x),eq \x\t(y))
C.回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))表示最接近y与x之间真实关系的一条直线
D.相关系数为r,且|r|越接近1,样本数据的线性相关程度越强;|r|越接近0,样本数据的线性相关程度越弱
答案 A
解析 相关系数的取值范围是|r|≤1,故A错;回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))必过样本点的中心,即点(eq \x\t(x),eq \x\t(y)),故B正确;回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))是利用最小二乘法求解出的直线方程,接近真实关系,故C正确;相关系数r的绝对值越接近1,表示样本数据的线性相关程度越强,越接近0,样本数据的线性相关程度越弱,故D正确.
6.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.
由K2=eq \f(nad-bc2,a+bc+da+cb+d),
得K2=eq \f(100×45×22-20×132,58×42×35×65)≈9.616.
参照下表:
正确的结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
答案 C
题型一 相关关系的判断
1.(2021·昆明诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
答案 A
解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2
解析 由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2
A.-1 B.0
C.-eq \f(1,2) D.1
答案 A
4.已知变量x和y满足关系eq \(y,\s\up6(^))=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
答案 C
解析 因为eq \(y,\s\up6(^))=-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设eq \(z,\s\up6(^))=eq \(b,\s\up6(^))y+eq \(a,\s\up6(^))(eq \(b,\s\up6(^))>0),所以eq \(z,\s\up6(^))=-0.1eq \(b,\s\up6(^)) x+eq \(b,\s\up6(^))+eq \(a,\s\up6(^)),-0.1eq \(b,\s\up6(^))<0,所以x与z负相关.故选C.
思维升华 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:当r>0时,两个变量正相关;当r<0时,两个变量负相关.
(3)线性回归方程:当eq \(b,\s\up6(^))>0时,两个变量正相关;当eq \(b,\s\up6(^))<0时,两个变量负相关.
题型二 回归分析
命题点1 线性回归分析
例1 (2020·福州模拟)随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:
科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.
(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
解 (1)由已知数据得eq \x\t(x)=12,eq \x\t(y)=27,
eq \i\su(i=1,3, )(xi-eq \x\t(x))(yi-eq \x\t(y))=5,eq \i\su(i=1,3, )(xi-eq \x\t(x))2=2,
所以eq \(b,\s\up6(^))=eq \f(\i\su(i=1,3, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,3, )xi-\x\t(x)2)=eq \f(5,2),eq \(a,\s\up6(^))=eq \x\t(y)-eq \f(5,2)eq \x\t(x)=27-eq \f(5,2)×12=-3.
所以y关于x的线性回归方程为eq \(y,\s\up6(^))=eq \f(5,2)x-3.
(2)由(1)知,y关于x的线性回归方程为eq \(y,\s\up6(^))=eq \f(5,2)x-3.
当x=10时,eq \(y,\s\up6(^))=eq \f(5,2)×10-3=22,|22-23|<2,
当x=8时,eq \(y,\s\up6(^))=eq \f(5,2)×8-3=17,|17-16|<2.
所以(1)中所得的线性回归方程eq \(y,\s\up6(^))=eq \f(5,2)x-3是可靠的.
命题点2 非线性回归分析
例2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.
表中wi=eq \r(xi),eq \x\t(w)=eq \f(1,8)eq \i\su(i=1,8,w)i.
(1)根据散点图判断y=a+bx与y=c+deq \r(x)哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线eq \(v,\s\up6(^))=eq \(α,\s\up6(^))+eq \(β,\s\up6(^))u的斜率和截距的最小二乘估计分别为
eq \(β,\s\up6(^))=eq \f(\i\su(i=1,n, )ui-\x\t(u)vi-\x\t(v),\i\su(i=1,n, )ui-\x\t(u)2) ,eq \(α,\s\up6(^))=eq \x\t(v)-eq \(β,\s\up6(^))eq \x\t(u).
解 (1)由散点图可以判断,y=c+deq \r(x)适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=eq \r(x),先建立y关于w的线性回归方程,由于
eq \(d,\s\up6(^))=eq \f(\i\su(i=1,8, )wi-\x\t(w)·yi-\x\t(y),\i\su(i=1,8, )wi-\x\t(w)2)=eq \f(108.8,1.6)=68,
eq \(c,\s\up6(^))=eq \x\t(y)-eq \(d,\s\up6(^))eq \x\t(w)=563-68×6.8=100.6,
所以y关于w的线性回归方程为eq \(y,\s\up6(^))=100.6+68w,
因此y关于x的回归方程为eq \(y,\s\up6(^))=100.6+68eq \r(x).
(3)①由(2)知,当x=49时,
年销售量y的预报值eq \(y,\s\up6(^))=100.6+68eq \r(49)=576.6,
年利润z的预报值eq \(z,\s\up6(^))=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
eq \(z,\s\up6(^))=0.2(100.6+68eq \r(x))-x=-x+13.6eq \r(x)+20.12.
所以当eq \r(x)=eq \f(13.6,2)=6.8,即x=46.24时,eq \(z,\s\up6(^))取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
思维升华 回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数eq \(b,\s\up6(^)).
③待定系数法:利用回归直线过样本点的中心求系数eq \(a,\s\up6(^)).
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数eq \(b,\s\up6(^)).
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
跟踪训练1 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得
eq \i\su(i=1,20,x)i=60,eq \i\su(i=1,20,y)i=1 200,eq \i\su(i=1,20, )(xi-eq \x\t(x))2=80,
eq \i\su(i=1,20, )(yi-eq \x\t(y))2=9 000,eq \i\su(i=1,20, )(xi-eq \x\t(x))(yi-eq \x\t(y))=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,n, )xi-\x\t(x)2\i\su(i=1,n, )yi-\x\t(y)2)) ,eq \r(2)≈1.414.
解 (1)由已知得样本平均数为eq \x\t(y)=eq \f(1,20)eq \i\su(i=1,20,y)i=60,
从而该地区这种野生动物数量的估计值为
60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数为
r=eq \f(\i\su(i=1,20, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,20, )xi-\x\t(x)2\i\su(i=1,20, )yi-\x\t(y)2)) =eq \f(800,\r(80×9 000))=eq \f(2\r(2),3)≈0.94.
(3)分层抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
题型三 独立性检验
例3 (2020·湖北荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
附:K2=eq \f(nad-bc2,a+bc+da+cb+d).
参考数据:
解 (1)该校学生每周平均体育运动时间为eq \x\t(x)=1×0.05+3×0.2+5×0.3+7×0.25+9×0.15+11×0.05=5.8.
样本中高一年级每周平均体育运动时间不足4小时的人数为300×eq \f(4,10)×(0.025×2+0.100×2)=30(人).
又样本中高一的人数有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数约为1 200×eq \f(30,120)=300(人).
(2)列联表如下:
假设该校学生的每周平均体育运动时间是否优秀与年级无关,
则K2的观测值k=eq \f(300×105×60-105×302,210×90×135×165)=eq \f(700,99)≈7.071>6.635.
又P(K2≥6.635)=0.01.
所以有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
思维升华 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=eq \f(nad-bc2,a+ba+cb+dc+d)计算K2的观测值k.
(3)比较k与临界值的大小关系,作统计推断.
跟踪训练2 (2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
附:K2=eq \f(nad-bc2,a+bc+da+cb+d),
解 (1)由频数分布表可知,该市一天的空气质量等级为1的概率为eq \f(2+16+25,100)=0.43;
空气质量等级为2的概率为eq \f(5+10+12,100)=0.27;
空气质量等级为3的概率为eq \f(6+7+8,100)=0.21;
空气质量等级为4的概率为eq \f(7+2+0,100)=0.09.
(2)由频数分布表可知,一天中到该公园锻炼的平均人次的估计值为eq \f(100×20+300×35+500×45,100)=350.
(3)2×2列联表如下:
K2=eq \f(100×33×8-37×222,55×45×70×30)≈5.820>3.841,
所以有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
课时精练
1.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:
则哪位同学的试验结果体现A,B两个变量有更强的线性相关性?( )
A.甲 B.乙 C.丙 D.丁
答案 D
解析 r越大,m越小,线性相关性越强,故选D.
2.根据如下样本数据:
得到线性回归方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),则( )
A.eq \(a,\s\up6(^))>0,eq \(b,\s\up6(^))>0 B.eq \(a,\s\up6(^))>0,eq \(b,\s\up6(^))<0
C.eq \(a,\s\up6(^))<0,eq \(b,\s\up6(^))>0 D.eq \(a,\s\up6(^))<0,eq \(b,\s\up6(^))<0
答案 B
解析 根据给出的数据可发现:整体上y与x呈现负相关,所以eq \(b,\s\up6(^))<0,由样本点(3,4.0)及(4,2.5)可知eq \(a,\s\up6(^))>0.
3.某公司由于改进了经营模式,经济效益与日俱增.统计了2018年10月到2019年4月的纯收益y(单位:万元)的数据,如下表:
得到y关于t的线性回归方程为eq \(y,\s\up6(^))=4.75t+51.36.请预测该公司2019年6月的纯收益为( )
A.94.11万元 B.98.86万元 C.103.61万元 D.108.36万元
答案 C
解析 将2019年6月代号t=11带入题中的线性回归方程,得eq \(y,\s\up6(^))=4.75×11+51.36=103.61.
4.以下五个命题:
①在匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))必过点(eq \x\t(x),eq \x\t(y));
④在线性回归方程eq \(y,\s\up6(^))=0.2x+12中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位;
⑤分类变量X与Y,对它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.
其中假命题为( )
A.①④ B.①⑤ C.②③ D.③④
答案 B
解析 ①为系统抽样;⑤分类变量X与Y,对它们的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大.
5.(多选)(2020·衡水中学调研)已知变量x,y之间的线性回归方程为eq \(y,\s\up6(^))=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法正确的是( )
A.变量x,y之间成负相关关系B.可以预测,当x=20时,eq \(y,\s\up6(^))=-3.7
C.m=4D.该回归直线必过点(9,4)
答案 ABD
解析 由-0.7<0,得变量x,y之间成负相关关系,故A正确;当x=20时,eq \(y,\s\up6(^))=-0.7×20+10.3=-3.7,故B正确;由表格数据可知eq \x\t(x)=eq \f(1,4)×(6+8+10+12)=9,eq \x\t(y)=eq \f(1,4)×(6+m+3+2)=eq \f(11+m,4),则eq \f(11+m,4)=-0.7×9+10.3,解得m=5,故C错误;由m=5,得eq \x\t(y)=eq \f(6+5+3+2,4)=4,所以该回归直线必过点(9,4),故D正确.
6.(多选)为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性60人,女性40人,绘制了不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中正确的是( )
A.是否倾向选择生育二胎与户籍有关
B.是否倾向选择生育二胎与性别无关
C.倾向选择生育二胎的人员中,男性人数与女性人数相同
D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数
答案 ABD
7.某市居民2016~2020年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:
根据统计资料,家庭年平均收入与年平均支出有______相关关系.(填“正”或“负”)
答案 正
解析 由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.
8.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的线性回归方程为eq \(y,\s\up6(^))=0.245x+0.321,由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
答案 0.245
9.已知x,y之间的一组数据如下表:
对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1;③y=eq \f(8,5)x-eq \f(2,5);④y=eq \f(3,2)x.
则根据最小二乘法的思想求得拟合程度最好的直线是__________.(填序号)
答案 ④
解析 根据最小二乘法的思想得变量x与y间的线性回归直线必过点(eq \x\t(x),eq \x\t(y)),由数据可知,eq \x\t(x)=eq \f(2+3+4+5+6,5)=4,eq \x\t(y)=eq \f(3+4+9+6+8,5)=6,那么必须过点(4,6),经验证可知,①y=x+1不成立;②y=2x-1不成立;③y=eq \f(8,5)x-eq \f(2,5),当x=4时,y=6,当x=6时,y=9.2;④y=eq \f(3,2)x,当x=4时,y=6,当x=6时,y=9.综上,拟合程度最好的直线是④.
10.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得线性回归方程为eq \(y,\s\up6(^))=0.67x+54.9.
现发现表中有一个数据看不清,请你推断出该数据的值为________.
答案 68
解析 由eq \x\t(x)=30,得eq \x\t(y)=0.67×30+54.9=75.
设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.
11.根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若r>0.75,则线性相关程度很高);
(2)求y关于x的回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少?
附:相关系数公式r=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,n,xi)-\x\t(x)2)\r(\i\su(i=1,n,yi)-\x\t(y)2)) =eq \f(\i\su(i=1,n,x)iyi-n\x\t(x)\x\t(y),\r(\i\su(i=1,n,x)\\al(2,i)-n\x\t(x)2)\r(\i\su(i=1,n,y)\\al(2,i)-n\x\t(y)2)) ,回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))中斜率和截距的最小二乘估计公式分别为eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,n,xi)-\x\t(x)2) =eq \f(\i\su(i=1,n,x)iyi-n\x\t(x)\x\t(y),\i\su(i=1,n,x)\\al(2,i)-n\x\t(x)2),eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x).
解 (1)∵eq \x\t(x)=eq \f(2+4+5+6+8,5)=5,eq \x\t(y)=eq \f(3+4+5+6+7,5)=5.
∴eq \i\su(i=1,5, )(xi-eq \x\t(x))(yi-eq \x\t(y))=(-3)×(-2)+(-1)×(-1)+0×0+1×1+3×2=14,
eq \i\su(i=1,5, )(xi-eq \x\t(x))2=(-3)2+(-1)2+02+12+32=20,
eq \i\su(i=1,5, )(yi-eq \x\t(y))2=(-2)2+(-1)2+02+12+22=10.
∴r=eq \f(\i\su(i=1,5, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,5, )xi-\x\t(x)2)\r(\i\su(i=1,5, )yi-\x\t(y)2))=eq \f(14,\r(20)×\r(10))=eq \f(7\r(2),10)>0.75.
∴可用线性回归模型拟合y与x的关系.
(2)eq \(b,\s\up6(^))=eq \f(\i\su(i=1,5, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,5, )xi-\x\t(x)2)=eq \f(14,20)=0.7,eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x)=5-0.7×5=1.5.
∴eq \(y,\s\up6(^))=0.7x+1.5.
当x=12时,eq \(y,\s\up6(^))=0.7×12+1.5=9.9.
∴预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
12.某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现在消费金额不超过1 000元的消费者中男女比例为1∶4,该店按此比例抽取了100名消费者进行进一步分析,得到下表:
女性消费情况:
男性消费情况:
若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”.
(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?
(2)根据列表中统计数据填写如下2×2列联表,并判断能否在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.
附:K2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.
解 (1)女性消费者消费的平均数为eq \f(1,80)×(100×5+300×10+500×15+700×47+900×3)=582.5.
男性消费者消费的平均数为eq \f(1,20)×(100×2+300×3+500×10+700×3+900×2)=500.
“女网购达人”消费的平均数为eq \f(1,50)×(700×47+900×3)=712.
“男网购达人”消费的平均数为eq \f(1,5)×(700×3+900×2)=780.
虽然女性消费者平均消费水平较高,但“女网购达人”平均消费水平低于“男网购达人”平均消费水平,所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰.
(2)2×2列联表如下所示:
K2的观测值k=eq \f(100×50×15-30×52,80×20×55×45)≈9.091,
因为9.091>7.879,
所以能在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.
13.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:
给出散点图如下:
根据以上信息,判断下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的为________.
答案 ①
解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.
14.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-eq \f(1,2)附近波动.经计算eq \(∑,\s\up6(6),\s\d6(i=1))xi=12,eq \(∑,\s\up6(6),\s\d6(i=1))yi=14,eq \(∑,\s\up6(6),\s\d6(i=1))xeq \\al(2,i)=23,则实数b的值为________.
答案 eq \f(17,23)
解析 令t=x2,则非线性回归方程变为线性回归方程,即y=bt-eq \f(1,2),此时eq \x\t(t)=eq \f(\(∑,\s\up6(6),\s\d6(i=1))x\\al(2,i),6)=eq \f(23,6),eq \x\t(y)=eq \f(\(∑,\s\up6(6),\s\d6(i=1))yi,6)=eq \f(14,6),代入y=bt-eq \f(1,2),得eq \f(14,6)=b×eq \f(23,6)-eq \f(1,2),解得b=eq \f(17,23).
15.某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
由表中数据,求得线性回归方程为eq \(y,\s\up6(^))=-4x+eq \(a,\s\up6(^)).若在这些样本点中任取一点,则它在线性回归直线左下方的概率为________.
答案 eq \f(1,3)
解析 由表中数据得eq \x\t(x)=6.5,eq \x\t(y)=80,由eq \x\t(y)=-4eq \x\t(x)+eq \(a,\s\up6(^)),得eq \(a,\s\up6(^))=106,故线性回归方程为eq \(y,\s\up6(^))=-4x+106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入线性回归方程,可知有6个样本点,因为84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在线性回归直线的左下方,满足条件的只有2个,故所求概率为eq \f(2,6)=eq \f(1,3).
16.某电视厂家准备在国庆期间举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万台)的数据如下:
(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;
(2)若用y=c+deq \r(x)模型拟合y与x的关系,可得回归方程eq \(y,\s\up6(^))=1.63+0.99eq \r(x),经计算线性回归模型和该模型的R2分别为0.75和0.88,请用R2说明选择哪个回归模型更好;
(3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果回答下列问题:
①广告费x=20时,销售量及利润的预报值是多少?
②广告费x为何值时,利润的预报值最大?(精确到0.01)
参考公式:回归直线eq \(y,\s\up6(^))=eq \(a,\s\up6(^))+eq \(b,\s\up6(^))x的斜率和截距的最小二乘估计值分别为
eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n,x)iyi-n\x\t(x) \x\t(y),\i\su(i=1,n,x)\\al(2,i)-n \x\t(x)2)=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,n, )xi-\x\t(x)2),eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x).
参考数据:eq \r(5)≈2.24.
解 (1)∵eq \x\t(x)=8,eq \x\t(y)=4.2,eq \i\su(i=1,7,x)iyi=279.4,eq \i\su(i=1,7,x)eq \\al(2,i)=708,
∴eq \(b,\s\up6(^))=eq \f(\i\su(i=1,7,x)iyi-7\x\t(x)\x\t(y),\i\su(i=1,7,x)\\al(2,i)-7\x\t(x)2)=eq \f(279.4-7×8×4.2,708-7×82)=0.17,
eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x)=4.2-0.17×8=2.84,
∴y关于x的线性回归方程为eq \(y,\s\up6(^))=0.17x+2.84.
(2)∵0.75<0.88且R2越大,反映残差平方和越小,模型的拟合效果越好,
∴选用eq \(y,\s\up6(^))=1.63+0.99eq \r(x)更好.
(3)由(2)知,
①当x=20时,销售量的预报值eq \(y,\s\up6(^))=1.63+0.99eq \r(20)≈6.06(万台),
利润的预报值z=200×(1.63+0.99eq \r(20))-20≈1 191.48(万元).
②z=200(1.63+0.99eq \r(x))-x=-x+198eq \r(x)+326=-(eq \r(x))2+198eq \r(x)+326
=-(eq \r(x)-99)2+10 127,
∴当eq \r(x)=99,即x=9 801时,利润的预报值最大,
故广告费为9 801万元时,利润的预报值最大.y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
x
0
1
3
4
y
2.2
4.3
4.8
6.7
非一线城市
一线城市
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
P(K2≥k0)
0.1
0.05
0.01
0.001
k0
2.706
3.841
6.635
10.828
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
日期
2日
7日
15日
22日
30日
温度x/℃
10
11
13
12
8
产卵数y/个
23
25
30
26
16
eq \x\t(x)
eq \x\t(y)
eq \x\t(w)
eq \i\su(i=1,8, )(xi-eq \x\t(x))2
eq \i\su(i=1,8, )(wi-eq \x\t(w))2
eq \i\su(i=1,8, )(xi-eq \x\t(x))·(yi-eq \x\t(y))
eq \i\su(i=1,8, )(wi-eq \x\t(w))·(yi-eq \x\t(y))
46.6
563
6.8
289.8
1.6
1 469
108.8
基础年级
高三
总计
优秀
非优秀
总计
300
P(K2≥k0)
0.100
0.050
0.010
0.005
k0
2.706
3.841
6.635
7.879
基础年级
高三
总计
优秀
105
30
135
非优秀
105
60
165
总计
210
90
300
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
人次≤400
人次>400
空气质量好
空气质量不好
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
x
3
4
5
6
7
8
y
4.0
2.5
0.5
0.5
0.4
0.1
月份
十
十一
十二
一
二
三
四
月份代号t
3
4
5
6
7
8
9
纯收益y
66
69
73
81
89
90
91
x
6
8
10
12
y
6
m
3
2
年份
2016
2017
2018
2019
2020
收入x
11.5
12.1
13
13.3
15
支出y
6.8
8.8
9.8
10
12
x
2
3
4
5
6
y
3
4
6
8
9
零件数x (个)
10
20
30
40
50
加工时间y (min)
62
75
81
89
消费金额/元
(0,200)
[200,400)
[400,600)
[600,800)
[800,1 000]
人数
5
10
15
47
3
消费金额/元
(0,200)
[200,400)
[400,600)
[600,800)
[800,1 000]
人数
2
3
10
3
2
女性
男性
总计
“网购达人”
“非网购达人”
总计
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
k0
2.706
3.841
5.024
6.635
7.879
女性
男性
总计
“网购达人”
50
5
55
“非网购达人”
30
15
45
总计
80
20
100
学生编号
1
2
3
4
5
6
7
8
数学成绩
60
65
70
75
80
85
90
95
物理成绩
72
77
80
84
88
90
93
95
单价x(元)
4
5
6
7
8
9
销量y(件)
90
84
83
80
75
68
年份
2014
2015
2016
2017
2018
2019
2020
广告费支出x
1
2
4
6
11
13
19
销售量y
1.9
3.2
4.0
4.4
5.2
5.3
5.4
(新高考)高考数学一轮考点复习9.2《变量间的相关性与统计案例》学案 (含详解): 这是一份(新高考)高考数学一轮考点复习9.2《变量间的相关性与统计案例》学案 (含详解),共19页。
高考数学统考一轮复习第11章11.5变量间的相关关系与统计案例学案: 这是一份高考数学统考一轮复习第11章11.5变量间的相关关系与统计案例学案,共12页。学案主要包含了知识重温,小题热身等内容,欢迎下载使用。
高考数学(理数)一轮复习学案11.3《变量间的相关关系与统计案例》(含详解): 这是一份高考数学(理数)一轮复习学案11.3《变量间的相关关系与统计案例》(含详解),共15页。