2022届高三统考数学(文科)人教版一轮复习学案:11.5 变量间的相关关系与统计案例
展开【知识重温】
一、必记4个知识点
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在①__________附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中eq \(a,\s\up6(^)),eq \(b,\s\up6(^))是待定参数.
eq \b\lc\{\rc\ (\a\vs4\al\c1(\(b,\s\up6(^))=\f(\(∑,\s\up6(n),\s\d4(i=1)) xi-\x\t(x)yi-\x\t(y),\(∑,\s\up6(n),\s\d4(i=1)) xi-\x\t(x)2)=\f(\(∑,\s\up6(n),\s\d4(i=1))xiyi-n\(x,\s\up6(-))\(y,\s\up6(-)),\(∑,\s\up6(n),\s\d4(i=1))x\\al(2,i)-n\(x,\s\up6(-))2),,\(a,\s\up6(^))=\x\t(y)-\(b,\s\up6(^))\x\t(x).))
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中②____________称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量③________________;
当r<0时,表明两个变量④________________.
r的绝对值越接近于1,表明两个变量的线性相关性⑤________.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于⑥________时,认为两个变量有很强的线性相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
构造一个随机变量K2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
二、必明4个易误点
1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.
2.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
3.r的大小只说明是否相关,并不能说明拟合效果的好坏,R2才是判断拟合效果好坏的依据,必须将二者区分开来.
4.独立性检验的随机变量K2=2.706是判断是否有关系的临界值,K2<2.706应判断为没有充分依据显示X与Y有关系,而不能作为小于90%的量化值来作出判断.
【小题热身】
一、判断正误
1.判断下列说法是否正确(请在括号中打“√”或“×”).
(1)散点图是判断两个变量是否相关的一种重要方法和手段.( )
(2)回归直线方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
(3)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( )
(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( )
二、教材改编
2.下面是2×2列联表:
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
3.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程eq \(y,\s\up6(^))=0.67x+54.9.
现发现表中有一个数据看不清,请你推断出该数据的值为________.
三、易错易混
4.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和K2统计量研究患肺病是否与吸烟有关.计算得K2=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
5.恩格尔系数是食品支出总额占个人消费支出总额的比重,恩格尔系数越小,消费结构越完善,生活水平越高.某学校社会调查小组得到如下数据:
若y与x之间有线性相关关系,老张年个人消费支出总额为2.8万元,据此估计其恩格尔系数为________.
参考数据:eq \i\su(i=1,5,x)iyi-5eq \(x,\s\up6(-))·eq \(y,\s\up6(-))=-1.1,eq \i\su(i=1,5,x)eq \\al(2,i)-5eq \(x,\s\up6(-))2=2.5.
参考公式:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))的斜率和截距的最小二乘估计分别为eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n,x)iyi-n\(x,\s\up6(-))·\(y,\s\up6(-)),\i\su(i=1,n,x)\\al(2,i)-n\(x,\s\up6(-))2),eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)).
四、走进高考
6.[2020·全国卷Ⅰ]某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
eq \x(考点一) 相关关系的判断[自主练透型]
1.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
2.[2021·云南昆明诊断]某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
悟·技法
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:eq \(b,\s\up6(^))>0时,正相关;eq \(b,\s\up6(^))<0时,负相关.
考点二 线性回归方程[互动讲练型]
[例1] [2020·全国卷Ⅱ]某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得eq \i\su(i=1,20,x)i=60,eq \i\su(i=1,20,y)i=1 200,eq \i\su(i=1,20, )(xi-eq \(x,\s\up6(-)))2=80,eq \i\su(i=1,20, )(yi-eq \(y,\s\up6(-)))2=9 000,eq \i\su(i=1,20, )(xi-eq \(x,\s\up6(-)))(yi-eq \(y,\s\up6(-)))=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=eq \f(\i\su(i=1,n, )xi-\(x,\s\up6(-))yi-\(y,\s\up6(-)),\r(\i\su(i=1,n, )xi-\(x,\s\up6(-))2\i\su(i=1,n, )yi-\(y,\s\up6(-))2)),eq \r(2)≈1.414.
悟·技法
求线性回归方程的基本步骤
(1)先把数据制成表,从表中计算出eq \(x,\s\up6(-))、eq \(y,\s\up6(-)),xeq \\al(2,1)+xeq \\al(2,2)+…+xeq \\al(2,n)、x1y1+x2y2+…+xnyn的值.
(2)计算回归系数eq \(a,\s\up6(^)),eq \(b,\s\up6(^)).
(3)写出线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)).
注:回归方程一定过点(eq \(x,\s\up6(-)),eq \(y,\s\up6(-))).
[变式练]——(着眼于举一反三)
1.[2021·大同市高三学情调研测试试题]下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对照数据.
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法,求出y关于x的线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^));
(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤.
参考数据及公式:3×2.5+4×3+5×4+6×4.5=66.5,
eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n, )xi-\(x,\s\up6(-))yi-\(y,\s\up6(-)),\i\su(i=1,n, )xi-\(x,\s\up6(-))2)=eq \f(\i\su(i=1,n,x)iyi-n\(x,\s\up6(-))\(y,\s\up6(-)),\i\su(i=1,n,x)\\al(2,i)-n\(x,\s\up6(-)) 2),eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)).
考点三 独立性检验[互动讲练型]
[例2] [2020·全国卷Ⅲ]某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
附:K2=eq \f(nad-bc2,a+bc+da+cb+d),
悟·技法
解独立性检验的应用问题的关注点
(1)两个明确:
①明确两类主体;
②明确研究的两个问题.
(2)两个关键:
①准确画出2×2列联表;
②准确理解K2.
提醒:准确计算K2的值是正确判断的前提.
[变式练]——(着眼于举一反三)
2.[2021·惠州市高三调研考试试题]某品牌汽车4S店,对该品牌旗下的A型、B型、C型汽车进行维修保养,汽车4S店记录了100辆该品牌三种类型汽车的维修情况,整理得下表:
假设该店采用分层抽样的方法从上述维修的100辆该品牌三种类型汽车中随机取10辆进行问卷回访.
(1)分别求抽取A型、B型、C型汽车的问卷数量.
(2)维修结束后这100辆汽车的司机采用“100分制”打分的方式表示对4S店的满意度,按照大于等于80分为优秀,小于80分为合格,得到如下列联表:
问能否在犯错误的概率不超过0.01的前提下认为司机对4S店的满意度与性别有关系?请说明原因.eq \b\lc\(\rc\)(\a\vs4\al\c1(参考公式:K2=\f(nad-bc2,a+bc+da+cb+d)))
附表:
第五节 变量间的相关关系与统计案例
【知识重温】
①一条直线 ②(eq \x\t(x),eq \x\t(y)) ③正相关 ④负相关 ⑤越强 ⑥0.75
【小题热身】
1.答案:(1)√ (2)× (3)× (4)√
2.解析:∵a+21=73,∴a=52.又a+22=b,∴b=74.
答案:C
3.解析:由eq \(x,\s\up6(-))=30,得eq \(y,\s\up6(-))=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.
答案:68
4.解析:由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.
答案:C
5.解析:eq \(b,\s\up6(^))=eq \f(-1.1,2.5)=-0.44,eq \(y,\s\up6(-))=0.5,eq \(x,\s\up6(-))=2,故eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-))=0.5-(-0.44)×2=1.38,则eq \(y,\s\up6(^))=-0.44x+1.38,所以老张的恩格尔系数为-0.44×2.8+1.38=0.148.
答案:0.148
6.解析:观察散点图可知,散点图用光滑曲线连接起来比较接近对数型函数的图象.故选D.
答案:D
课堂考点突破
考点一
1.解析:因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=eq \(b,\s\up6(^))y+eq \(a,\s\up6(^)),eq \(b,\s\up6(^))>0,则z=eq \(b,\s\up6(^))y+eq \(a,\s\up6(^))=-0.1eq \(b,\s\up6(^))x+eq \(b,\s\up6(^))+eq \(a,\s\up6(^)),故x与z负相关.
答案:C
2.解析:画出利润率与人均销售额的散点图,如图.由图可知利润率与人均销售额成正相关关系.故选A.
答案:A
考点二
例1 解析:(1)由已知得样本平均数eq \(y,\s\up6(-))=eq \f(1,20)eq \i\su(i=1,20,y)i=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi),(i=1,2,…,20)的相关系数
r=eq \f(\i\su(i=1,20, )xi-\(x,\s\up6(-))yi-\(y,\s\up6(-)),\r(\i\su(i=1,20, )xi-\(x,\s\up6(-))2\i\su(i=1,20, )yi-\(y,\s\up6(-))2))=eq \f(800,\r(80×9 000))=eq \f(2\r(2),3)≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性.从而可以获得该地区这种野生动物数量更准确的估计.
变式练
1.解析:(1)由题设所给数据,可得散点图如图.
(2)由对照数据计算得
eq \(x,\s\up6(-))=eq \f(3+4+5+6,4)=4.5,eq \(y,\s\up6(-))=eq \f(2.5+3+4+4.5,4)=3.5,
eq \i\su(i=1,4,x)eq \\al(2,i)=86,eq \i\su(i=1,4,x)iyi=66.5,
∴eq \(b,\s\up6(^))=eq \f(\i\su(i=1,4,x)iyi-4\(x,\s\up6(-))\(y,\s\up6(-)),\i\su(i=1,4,x)\\al(2,i)-4\(x,\s\up6(-)) 2)=eq \f(66.5-4×4.5×3.5,86-4×4.52)=0.7,
eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-))=3.5-0.7×4.5=0.35,
∴eq \(y,\s\up6(^))=0.7x+0.35.
(3)由(2)得到的线性回归方程,可预测生产100吨甲产品的生产能耗,比技改前降低90-(0.7×100+0.35)=19.65(吨标准煤).
考点三
例2 解析:(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表.
(2)一天中到该公园锻炼的平均人次的估计值为eq \f(1,100)×(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
根据列联表得K2=eq \f(100×33×8-22×372,55×45×70×30)≈5.820.
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
变式练
2.解析:(1)抽取A型、B型、C型汽车的问卷数量分别为eq \f(20,100)×10=2,eq \f(40,100)×10=4,eq \f(40,100)×10=4.
(2)根据题意得,K2=eq \f(100×10×27-38×252,48×52×35×65)≈8.143 1.
因为8.143 1>6.635,
所以能在犯错误的概率不超过0.01的前提下,认为司机对4S店的满意度与性别有关系.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
零件数x
(个)
10
20
30
40
50
加工时间y
(min)
62
75
81
89
年个人消费支
出总额x/万元
1
1.5
2
2.5
3
恩格尔系数y
0.9
0.8
0.5
0.2
0.1
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
x
3
4
5
6
y
2.5
3
4
4.5
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
人次≤400
人次>400
空气质量好
空气质量不好
P(K2≥k)
0.050 0.010 0.001
k
3.841 6.635 10.828
车型
A型
B型
C型
频数
20
40
40
优秀
合格
合计
男司机
10
38
48
女司机
25
27
52
合计
35
65
100
P(K2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
空气质量等级
1
2
3
4
概率的估计值
0.43
0.27
0.21
0.09
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
统考版高中数学(文)复习11-2变量间的相关关系、统计案例学案: 这是一份统考版高中数学(文)复习11-2变量间的相关关系、统计案例学案,共17页。学案主要包含了必记3个知识点,必明3个常用结论,必练4类基础题等内容,欢迎下载使用。
高考数学统考一轮复习第11章11.5变量间的相关关系与统计案例学案: 这是一份高考数学统考一轮复习第11章11.5变量间的相关关系与统计案例学案,共12页。学案主要包含了知识重温,小题热身等内容,欢迎下载使用。
高考数学统考一轮复习第9章统计与统计案例第3节变量间的相关关系统计案例学案: 这是一份高考数学统考一轮复习第9章统计与统计案例第3节变量间的相关关系统计案例学案,共12页。