![北师大版高考数学一轮复习第十一章 §11.3 变量间的相关关系、统计案例第1页](http://img-preview.51jiaoxi.com/3/3/12002717/0/0.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![北师大版高考数学一轮复习第十一章 §11.3 变量间的相关关系、统计案例第2页](http://img-preview.51jiaoxi.com/3/3/12002717/0/1.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![北师大版高考数学一轮复习第十一章 §11.3 变量间的相关关系、统计案例第3页](http://img-preview.51jiaoxi.com/3/3/12002717/0/2.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
还剩18页未读,
继续阅读
所属成套资源:2022年高考北师大版数学一轮复习全套试卷资料
成套系列资料,整套一键下载
北师大版高考数学一轮复习第十一章 §11.3 变量间的相关关系、统计案例
展开这是一份北师大版高考数学一轮复习第十一章 §11.3 变量间的相关关系、统计案例,共21页。试卷主要包含了)),95x+a,则a等于,616,8,1,071>6,820>3等内容,欢迎下载使用。
1.相关性
(1)通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.
(2)从散点图上可以看出,如果变量之间存在着某种关系,这些点会有一个集中的大致趋势,这种趋势通常可以用一条光滑的曲线来近似,这样近似的过程称为曲线拟合.
(3)若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关是非线性相关的.如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.
2.线性回归方程
(1)最小二乘法
如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2来刻画这些点与直线y=a+bx的接近程度,使得上式达到最小值的直线y=a+bx就是所要求的直线,这种方法称为最小二乘法.
(2)线性回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的线性回归方程,其中a,b是待定参数.
eq \b\lc\{\rc\ (\a\vs4\al\c1(b=\f(\(∑,\s\up10(n),\s\d10(i=1)) xi-\x\t(x)yi-\x\t(y),\(∑,\s\up10(n),\s\d10(i=1)) xi-\x\t(x)2)=\f(\(∑,\s\up10(n),\s\d10(i=1))xiyi-n\x\t(x) \x\t(y),\(∑,\s\up10(n),\s\d10(i=1))x\\al(2,i)-n\x\t(x)2),,a=\x\t(y)-b\x\t(x).))
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,(eq \x\t(x),eq \x\t(y))称为样本点的中心.
(3)相关系数
①r=eq \f(\(∑,\s\up10(n),\s\d10(i=1)) xi-\x\t(x)yi-\x\t(y),\r(\(∑,\s\up10(n),\s\d10(i=1)) xi-\x\t(x)2) \r(\(∑,\s\up10(n),\s\d10(i=1)) yi-\x\t(y)2))
=eq \f(\(∑,\s\up10(n),\s\d10(i=1))xiyi-n\x\t(x) \x\t(y),\r(\(∑,\s\up10(n),\s\d10(i=1))x\\al(2,i)-n\x\t(x)2) \r(\(∑,\s\up10(n),\s\d10(i=1))y\\al(2,i)-n\x\t(y)2));
②当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关;
当r=0时,表明两个变量线性不相关.
|r|值越接近于1,表明两个变量之间的线性相关程度越高.
|r|值越接近于0,表明两个变量之间的线性相关程度越低.
4.独立性检验
设A,B为两个变量,每一个变量都可以取两个值,
变量A:A1,A2=eq \x\t(A1);变量B:B1,B2=eq \x\t(B1).
2×2列联表:
构造一个统计量
χ2=eq \f(nad-bc2,a+bc+da+cb+d).
利用统计量χ2来判断“两个分类变量有关系”的方法称为独立性检验.
当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;
当χ2>2.706时,有90%的把握判定变量A,B有关联;
当χ2>3.841时,有95%的把握判定变量A,B有关联;
当χ2>6.635时,有99%的把握判定变量A,B有关联.
微思考
1.变量的相关关系与变量的函数关系有什么区别?
提示 相同点:两者均是指两个变量的关系.
不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?
提示 (1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.
(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
题组一 思考辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)散点图是判断两个变量相关关系的一种重要方法和手段.( √ )
(2)回归方程y=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( × )
(3)相关系数的绝对值越接近1,样本数据的线性相关程度越强.( √ )
(4)若事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.( × )
题组二 教材改编
2.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
答案 D
解析 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.
3.下面是2×2列联表:
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
答案 C
解析 ∵a+21=73,∴a=52.
又a+22=b,∴b=74.
4.已知x,y的对应取值如下表,从散点图可以看出y与x线性相关,且线性回归方程为y=0.95x+a,则a等于( )
B.2.6 C.2.2 D.0
答案 B
解析 回归直线过点(2,4.5),
∴4.5=0.95×2+a,∴a=2.6.
题组三 易错自纠
5.在统计中,由一组样本数据(x1,y1),(x2,y2),…,(xn,yn)利用最小二乘法得到两个变量的线性回归方程为y=bx+a,那么下列说法不正确的是( )
A.相关系数r不可能等于1
B.回归直线y=bx+a必经过点(eq \x\t(x),eq \x\t(y))
C.回归直线y=bx+a表示最接近y与x之间真实关系的一条直线
D.相关系数为r,且|r|越接近1,样本数据的线性相关程度越强;|r|越接近0,样本数据的线性相关程度越弱
答案 A
解析 相关系数的取值范围是|r|≤1,故A错;回归直线y=bx+a必过样本点的中心,即点(eq \x\t(x),eq \x\t(y)),故B正确;回归直线y=bx+a是利用最小二乘法求解出的直线方程,接近真实关系,故C正确;相关系数r的绝对值越接近1,表示样本数据的线性相关程度越强,越接近0,样本数据的线性相关程度越弱,故D正确.
6.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.
由χ2=eq \f(nad-bc2,a+bc+da+cb+d),
得χ2=eq \f(100×45×22-20×132,58×42×35×65)≈9.616.
参照下表:
正确的结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
答案 C
题型一 相关关系的判断
1.(2020·昆明诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
答案 A
解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2
解析 由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2
A.-1 B.0 C.-eq \f(1,2) D.1
答案 A
4.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
答案 C
解析 因为y=-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设z=by+a(b>0),所以z=-0.1bx+b+a,-0.1b<0,所以x与z负相关.故选C.
思维升华 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:当r>0时,两个变量正相关;当r<0时,两个变量负相关.
(3)线性回归方程:当b>0时,两个变量正相关;当b<0时,两个变量负相关.
题型二 回归分析
命题点1 线性回归分析
例1 (2020·福州模拟)随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:
科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.
(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
解 (1)由已知数据得eq \x\t(x)=12,eq \x\t(y)=27,
eq \i\su(i=1,3, )(xi-eq \x\t(x))(yi-eq \x\t(y))=5,eq \i\su(i=1,3, )(xi-eq \x\t(x))2=2,
所以b=eq \f(\i\su(i=1,3, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,3, )xi-\x\t(x)2)=eq \f(5,2),
a=eq \x\t(y)-eq \f(5,2)eq \x\t(x)=27-eq \f(5,2)×12=-3.
所以y关于x的线性回归方程为y=eq \f(5,2)x-3.
(2)由(1)知,y关于x的线性回归方程为y=eq \f(5,2)x-3.
当x=10时,y=eq \f(5,2)×10-3=22,|22-23|<2,
当x=8时,y=eq \f(5,2)×8-3=17,|17-16|<2.
所以(1)中所得的线性回归方程y=eq \f(5,2)x-3是可靠的.
命题点2 非线性回归分析
例2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据作了初步处理,得到下面的散点图及一些统计量的值.
表中wi=eq \r(xi),eq \x\t(w)=eq \f(1,8)eq \i\su(i=1,8,w)i.
(1)根据散点图判断y=a+bx与y=c+deq \r(x)哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+β u的斜率和截距的最小二乘估计分别为
β=eq \f(\i\su(i=1,n, )ui-\x\t(u)vi-\x\t(v),\i\su(i=1,n, )ui-\x\t(u)2),α=eq \x\t(v)-β eq \x\t(u).
解 (1)由散点图可以判断,y=c+deq \r(x)适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=eq \r(x),先建立y关于w的线性回归方程,由于
d=eq \f(\i\su(i=1,8, )wi-\x\t(w)·yi-\x\t(y),\i\su(i=1,8, )wi-\x\t(w)2)=eq \f(108.8,1.6)=68,
c=eq \x\t(y)-deq \x\t(w)=563-68×6.8=100.6,
所以y关于w的线性回归方程为y=100.6+68w,
因此y关于x的回归方程为y=100.6+68eq \r(x).
(3)①由(2)知,当x=49时,
年销售量y的预报值y=100.6+68eq \r(49)=576.6,
年利润z的预报值z=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
z=0.2(100.6+68eq \r(x))-x=-x+13.6eq \r(x)+20.12.
所以当eq \r(x)=eq \f(13.6,2)=6.8,即x=46.24时,z取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
思维升华 回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数b.
③待定系数法:利用回归直线过样本点的中心求系数a.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数b.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
跟踪训练1 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得
eq \i\su(i=1,20, )xi=60,eq \i\su(i=1,20, )yi=1 200,eq \i\su(i=1,20, )(xi-eq \x\t(x))2=80,
eq \i\su(i=1,20, )(yi-eq \x\t(y))2=9 000,eq \i\su(i=1,20, )(xi-eq \x\t(x))(yi-eq \x\t(y))=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,n, )xi-\x\t(x)2\i\su(i=1,n, )yi-\x\t(y)2)),eq \r(2)≈1.414.
解 (1)由已知得样本平均数为eq \x\t(y)=eq \f(1,20)eq \i\su(i=1,20, )yi=60,
从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数为
r=eq \f(\i\su(i=1,20, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,20, )xi-\x\t(x)2\i\su(i=1,20, )yi-\x\t(y)2))
=eq \f(800,\r(80×9 000))=eq \f(2\r(2),3)≈0.94.
(3)分层抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
题型三 独立性检验
例3 (2020·湖北荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
附:χ2=eq \f(nad-bc2,a+bc+da+cb+d).
参考数据:
解 (1)该校学生每周平均体育运动时间为eq \x\t(x)=1×0.05+3×0.2+5×0.3+7×0.25+9×0.15+11×0.05=5.8.
样本中高一年级每周平均体育运动时间不足4小时的人数为300×eq \f(4,10)×(0.025×2+0.100×2)=30(人).
又样本中高一的人数有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数约为1 200×eq \f(30,120)=300(人).
(2)列联表如下:
假设该校学生的每周平均体育运动时间是否优秀与年级无关,
则χ2=eq \f(300×105×60-105×302,210×90×135×165)
=eq \f(700,99)≈7.071>6.635.
又P(χ2≥6.635)=0.01.
所以有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
思维升华 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式χ2=eq \f(nad-bc2,a+ba+cb+dc+d)计算.
(3)比较χ2与临界值的大小关系,作统计推断.
跟踪训练2 (2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
附:χ2=eq \f(nad-bc2,a+bc+da+cb+d),
解 (1)由频数分布表可知,该市一天的空气质量等级为1的概率为eq \f(2+16+25,100)=0.43;
空气质量等级为2的概率为eq \f(5+10+12,100)=0.27;
空气质量等级为3的概率为eq \f(6+7+8,100)=0.21;
空气质量等级为4的概率为eq \f(7+2+0,100)=0.09.
(2)由频数分布表可知,一天中到该公园锻炼的平均人次的估计值为eq \f(100×20+300×35+500×45,100)=350.
(3)2×2列联表如下:
χ2=eq \f(100×33×8-37×222,55×45×70×30)≈5.820>3.841,
所以有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
课时精练
1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
答案 B
解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.
2.根据如下样本数据:
得到线性回归方程为y=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
答案 B
解析 根据给出的数据可发现:整体上y与x呈现负相关,所以b<0,由样本点(3,4.0)及(4,2.5)可知a>0.
3.某公司由于改进了经营模式,经济效益与日俱增.统计了2018年10月到2019年4月的纯收益y(单位:万元)的数据,如下表:
得到y关于t的线性回归方程为y=4.75t+51.36.请预测该公司2019年6月的纯收益为( )
A.94.11万元 B.98.86万元
C.103.61万元 D.108.36万元
答案 C
解析 将2019年6月代号t=11带入题中的线性回归方程,得y=4.75×11+51.36=103.61.
4.以下五个命题:
①在匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③回归直线y=bx+a必过点(eq \x\t(x),eq \x\t(y));
④在线性回归方程y=0.2x+12中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位;
⑤分类变量X与Y,对它们的随机变量χ2来说,χ2越小,“X与Y有关系”的把握程度越大.
其中假命题为( )
A.①④ B.①⑤
C.②③ D.③④
答案 B
解析 ①为系统抽样;⑤分类变量X与Y,对它们的随机变量χ2来说,χ2越大,“X与Y有关系”的把握程度越大.
5.(2020·衡水中学调研)已知变量x,y之间的线性回归方程为y=-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法不正确的是( )
A.变量x,y之间成负相关关系
B.可以预测,当x=20时,y=-3.7
C.m=4
D.该回归直线必过点(9,4)
答案 C
解析 由-0.7<0,得变量x,y之间成负相关关系,故A正确;当x=20时,y=-0.7×20+10.3=-3.7,故B正确;由表格数据可知eq \x\t(x)=eq \f(1,4)×(6+8+10+12)=9,eq \x\t(y)=eq \f(1,4)×(6+m+3+2)=eq \f(11+m,4),则eq \f(11+m,4)=-0.7×9+10.3,解得m=5,故C错误;由m=5,得eq \x\t(y)=eq \f(6+5+3+2,4)=4,所以该回归直线必过点(9,4),故D正确.
6.某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修该课程的55名学生,得到数据如下表:
临界值参考:
(参考公式:χ2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d)
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“喜欢‘应用统计’课程与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“喜欢‘应用统计’课程与性别无关”
C.有99.99%以上的把握认为“喜欢‘应用统计’课程与性别有关”
D.有99.99%以上的把握认为“喜欢‘应用统计’课程与性别无关”
答案 A
解析 χ2=eq \f(nad-bc2,a+bc+da+cb+d)
=eq \f(55×20×20-10×52,30×25×30×25)=eq \f(539,45)≈12.0>10.828,
故在犯错误的概率不超过0.1%的前提下,认为“喜欢“应用统计”课程与性别有关”.
7.某市居民2016~2020年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:
根据统计资料,家庭年平均收入与年平均支出有________相关关系.(填“正”或“负”)
答案 正
解析 由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.
8.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的线性回归方程为y=0.245x+0.321,由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
答案 0.245
9.已知x,y之间的一组数据如下表:
对于表中数据,现给出如下拟合直线:①y=x+1;②y=2x-1;③y=eq \f(8,5)x-eq \f(2,5);④y=eq \f(3,2)x.
则根据最小二乘法的思想求得拟合程度最好的直线是__________.(填序号)
答案 ④
解析 根据最小二乘法的思想得变量x与y间的线性回归直线必过点(eq \x\t(x),eq \x\t(y)),由数据可知,eq \x\t(x)=eq \f(2+3+4+5+6,5)=4,eq \x\t(y)=eq \f(3+4+9+6+8,5)=6,那么必须过点(4,6),经验证可知,①y=x+1不成立;②y=2x-1不成立;③y=eq \f(8,5)x-eq \f(2,5),当x=4时,y=6,当x=6时,y=9.2;④y=eq \f(3,2)x,当x=4时,y=6,当x=6时,y=9.综上,拟合程度最好的直线是④.
10.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得线性回归方程为y=0.67x+54.9.
现发现表中有一个数据看不清,请你推断出该数据的值为________.
答案 68
解析 由eq \x\t(x)=30,得eq \x\t(y)=0.67×30+54.9=75.
设表中的“模糊数字”为a,
则62+a+75+81+89=75×5,∴a=68.
11.根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若r>0.75,则线性相关程度很高);
(2)求y关于x的回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少?
附:相关系数公式r=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,n, )xi-\x\t(x)2)\r(\i\su(i=1,n, )yi-\x\t(y)2))=eq \f(\i\su(i=1,n, )xiyi-n\x\t(x)\x\t(y),\r(\i\su(i=1,n, )x\\al(2,i)-n\x\t(x)2)\r(\i\su(i=1,n, )y\\al(2,i)-n\x\t(y)2)),回归方程y=bx+a中斜率和截距的最小二乘估计公式分别为b=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,n, )xi-\x\t(x)2)=eq \f(\i\su(i=1,n, )xiyi-n\x\t(x)\x\t(y),\i\su(i=1,n, )x\\al(2,i)-n\x\t(x)2),a=eq \x\t(y)-beq \x\t(x).
解 (1)∵eq \x\t(x)=eq \f(2+4+5+6+8,5)=5,
eq \x\t(y)=eq \f(3+4+5+6+7,5)=5.
∴eq \i\su(i=1,5, )(xi-eq \x\t(x))(yi-eq \x\t(y))=(-3)×(-2)+(-1)×(-1)+0×0+1×1+3×2=14,
eq \i\su(i=1,5, )(xi-eq \x\t(x))2=(-3)2+(-1)2+02+12+32=20,
eq \i\su(i=1,5, )(yi-eq \x\t(y))2=(-2)2+(-1)2+02+12+22=10.
∴r=eq \f(\i\su(i=1,5, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,5, )xi-\x\t(x)2)\r(\i\su(i=1,5, )yi-\x\t(y)2))=eq \f(14,\r(20)×\r(10))=eq \f(7\r(2),10)>0.75.
∴可用线性回归模型拟合y与x的关系.
(2) b=eq \f(\i\su(i=1,5, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,5, )xi-\x\t(x)2)=eq \f(14,20)=0.7,
a=eq \x\t(y)-beq \x\t(x)=5-0.7×5=1.5.
∴y=0.7x+1.5.
当x=12时,y=0.7×12+1.5=9.9.
∴预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
12.某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现在消费金额不超过1 000元的消费者中男女比例为1∶4,该店按此比例抽取了100名消费者进行进一步分析,得到下表:
女性消费情况:
男性消费情况:
若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”.
(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?
(2)根据列表中统计数据填写如下2×2列联表,并判断能否在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.
附:χ2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.
解 (1)女性消费者消费的平均数为eq \f(1,80)×(100×5+300×10+500×15+700×47+900×3)=582.5.
男性消费者消费的平均数为eq \f(1,20)×(100×2+300×3+500×10+700×3+900×2)=500.
“女网购达人”消费的平均数为eq \f(1,50)×(700×47+900×3)=712.
“男网购达人”消费的平均数为eq \f(1,5)×(700×3+900×2)=780.
虽然女性消费者平均消费水平较高,但“女网购达人”平均消费水平低于“男网购达人”平均消费水平,所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰.
(2)2×2列联表如下所示:
χ2=eq \f(100×50×15-30×52,80×20×55×45)≈9.091,
因为9.091>7.879,
所以能在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.
13.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:
给出散点图如下:
根据以上信息,判断下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的为________.
答案 ①
解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.
14.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-eq \f(1,2)附近波动.经计算eq \(∑,\s\up6(6),\s\d4(i=1))xi=12,eq \(∑,\s\up6(6),\s\d4(i=1))yi=14,eq \(∑,\s\up6(6),\s\d4(i=1))xeq \\al(2,i)=23,则实数b的值为________.
答案 eq \f(17,23)
解析 令t=x2,则非线性回归方程变为线性回归方程,即y=bt-eq \f(1,2),
此时eq \x\t(t)=eq \f(\(∑,\s\up8(6),\s\d6(i=1))x\\al(2,i),6)=eq \f(23,6),eq \x\t(y)=eq \f(\(∑,\s\up8(6),\s\d6(i=1))yi,6)=eq \f(14,6),代入y=bt-eq \f(1,2),得eq \f(14,6)=b×eq \f(23,6)-eq \f(1,2),解得b=eq \f(17,23).
15.某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
由表中数据,求得线性回归方程为y=-4x+a.若在这些样本点中任取一点,则它在线性回归直线左下方的概率为________.
答案 eq \f(1,3)
解析 由表中数据得eq \x\t(x)=6.5,eq \x\t(y)=80,由eq \x\t(y)=-4eq \x\t(x)+a,得a=106,故线性回归方程为y=-4x+106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入线性回归方程,可知有6个样本点,因为84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在线性回归直线的左下方,满足条件的只有2个,故所求概率为eq \f(2,6)=eq \f(1,3).
16.某食品店为了了解气温对销售量的影响,随机记录了该店1月份其中5天的日销售量y(单位:千克)与该地当日最低气温x(单位:℃)的数据,如下表:
(1)求出y与x的线性回归方程y=bx+a;
(2)判断y与x之间是正相关还是负相关,若该地1月份某天的最低气温为6℃,请用所求回归方程预测该店当日的销售量;
(3)设该地1月份的日最低气温X~N(μ,σ2),其中μ近似为样本平均数eq \x\t(x),σ2近似为样本方差s2,求P(3.8
②eq \r(10)≈3.2,eq \r(3.2)≈1.8.
若X~N(μ,σ2),则P(μ-σ
eq \i\su(i=1,5,x)iyi-5eq \x\t(x) eq \x\t(y)=2×12+5×10+8×8+9×8+11×7-5×7×9=-28,
eq \i\su(i=1,5,x)eq \\al(2,i)-5eq \x\t(x)2=22+52+82+92+112-5×72=50,
∴b=eq \f(-28,50)=-0.56.
∴a=eq \x\t(y)-beq \x\t(x)=9-(-0.56)×7=12.92.
∴所求的线性回归方程是y=-0.56x+12.92.
(2)由b=-0.56<0知,y与x之间是负相关,
将x=6代入回归方程可预测该店当日的销售量y=-0.56×6+12.92=9.56(千克).
(3)由(1)知μ=eq \x\t(x)=7,由σ2=s2=eq \f(1,5)[(2-7)2+(5-7)2+(8-7)2+(9-7)2+(11-7)2]=10,得σ≈3.2.
从而P(3.8
A
B1
B2
总计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
n=a+b+c+d
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
x
0
1
3
4
y
2.2
4.3
4.8
6.7
非一线城市
一线城市
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
P(χ2≥k)
0.1
0.05
0.01
0.001
k
2.706
3.841
6.635
10.828
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
日期
2日
7日
15日
22日
30日
温度x/℃
10
11
13
12
8
产卵数y/个
23
25
30
26
16
eq \x\t(x)
eq \x\t(y)
eq \x\t(w)
eq \i\su(i=1,8, )(xi-eq \x\t(x))2
eq \i\su(i=1,8, )(wi-eq \x\t(w))2
eq \i\su(i=1,8, )(xi-eq \x\t(x))·
(yi-eq \x\t(y))
eq \i\su(i=1,8, )(wi-eq \x\t(w))·
(yi-eq \x\t(y))
46.6
563
6.8
289.8
1.6
1 469
108.8
基础年级
高三
总计
优秀
非优秀
总计
300
P(χ2≥k)
0.100
0.050
0.010
0.005
k
2.706
3.841
6.635
7.879
基础年级
高三
总计
优秀
105
30
135
非优秀
105
60
165
总计
210
90
300
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
人次≤400
人次>400
空气质量好
空气质量不好
P(χ2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
x
3
4
5
6
7
8
y
4.0
2.5
0.5
0.5
0.4
0.1
月份
十
十一
十二
一
二
三
四
月份代号t
3
4
5
6
7
8
9
纯收益y
66
69
73
81
89
90
91
x
6
8
10
12
y
6
m
3
2
喜欢统计课程
不喜欢统计课程
男生
20
5
女生
10
20
P(χ2≥k)
0.10
0.05
0.25
0.010
0.005
0.001
k
2.706
3.841
5.024
6.635
7.879
10.828
年份
2016
2017
2018
2019
2020
收入x
11.5
12.1
13
13.3
15
支出y
6.8
8.8
9.8
10
12
x
2
3
4
5
6
y
3
4
6
8
9
零件数x (个)
10
20
30
40
50
加工时间y (min)
62
75
81
89
消费金额/元
(0,200)
[200,400)
[400,600)
[600,800)
[800,1 000]
人数
5
10
15
47
3
消费金额/元
(0,200)
[200,400)
[400,600)
[600,800)
[800,1 000]
人数
2
3
10
3
2
女性
男性
总计
“网购达人”
“非网购达人”
总计
P(χ2≥k)
0.10
0.05
0.025
0.010
0.005
k
2.706
3.841
5.024
6.635
7.879
女性
男性
总计
“网购达人”
50
5
55
“非网购达人”
30
15
45
总计
80
20
100
学生编号
1
2
3
4
5
6
7
8
数学成绩
60
65
70
75
80
85
90
95
物理成绩
72
77
80
84
88
90
93
95
单价x(元)
4
5
6
7
8
9
销量y(件)
90
84
83
80
75
68
x
2
5
8
9
11
y
12
10
8
8
7
相关试卷
高考数学第一轮复习第十章 §10.4 变量间的相关关系、统计案例:
这是一份高考数学第一轮复习第十章 §10.4 变量间的相关关系、统计案例,共24页。试卷主要包含了)),5,,844,820>3,5x+17,5+29+32等内容,欢迎下载使用。
备战2024高考一轮复习数学(理) 课时验收评价(六十五) 变量间的相关关系与统计案例:
这是一份备战2024高考一轮复习数学(理) 课时验收评价(六十五) 变量间的相关关系与统计案例,共7页。试卷主要包含了点全面广强基训练,重点难点培优训练等内容,欢迎下载使用。
2024年(新高考)高考数学一轮复习突破练习11.3《统计案例》(含详解):
这是一份2024年(新高考)高考数学一轮复习突破练习11.3《统计案例》(含详解),共9页。