


2020版高考数学(文)新设计一轮复习通用版讲义:第十章第三节变量间的相关关系与统计案例
展开
第三节变量间的相关关系与统计案例
一、基础知识批注——理解深一点
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为=x+,其中
==, =-.
回归直线=x+必过样本点的中心(,),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.
(3)通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
(1)2×2列联表
设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(2)独立性检验
利用随机变量K2(也可表示为χ2)的观测值k=(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
二、常用结论汇总——规律多一点
(1)求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点 (,).
(2)根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
(3)根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
三、基础小题强化——功底牢一点
(1)散点图是判断两个变量是否相关的一种重要方法和手段.( )
(2)回归直线方程=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
(3)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( )
(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( )
答案:(1)√ (2)× (3)× (4)√
(二)选一选
1.已知变量x和y满足关系=-0.1x+1,变量与z正相关.则下列结论中正确的是( )
A.x与负相关,x与z负相关
B.x与正相关,x与z正相关
C.x与正相关,x与z负相关
D.x与负相关,x与z正相关
答案:A
2.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
答案:A
(三)填一填
3.已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为=0.95x+,则=________.
x
0
1
3
4
y
2.2
4.3
4.8
6.7
解析:∵回归直线必过样本点的中心(,),又=2,=4.5,代入回归方程,得=2.6.
答案:2.6
4.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
解析:K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
答案:5%
考点一 回归分析
考法(一) 求线性回归方程
[典例] (2019·湘东五校联考)已知具有相关关系的两个变量x,y的几组数据如下表所示:
x
2
4
6
8
10
y
3
6
7
10
12
(1)请根据上表数据在网格纸中绘制散点图;
(2)请根据上表数据,用最小二乘法求出y关于x的线性回归方程=x+,并估计当x=20时y的值.
参考公式:=,=-.
[解] (1)散点图如图所示:
(2)依题意,=×(2+4+6+8+10)=6,
=×(3+6+7+10+12)=7.6,
=4+16+36+64+100=220,iyi=6+24+42+80+120=272,
∴====1.1,
∴=7.6-1.1×6=1,
∴线性回归方程为=1.1x+1,故当x=20时,y=23.
考法(二) 相关系数及应用
[典例] 如图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.
由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明.
参考数据:i=9.32,iyi=40.17, =0.55, ≈2.646.
参考公式:相关系数r=.
[解] 由折线图中数据和参考数据及公式得=4,
(ti-)2=28, =0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
[解题技法]
1.线性回归分析问题的类型及解题方法
(1)求线性回归方程:
①利用公式,求出回归系数,.
②待定系数法:利用回归直线过样本点中心求系数.
(2)利用回归方程进行预测:
把回归直线方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数.
2.模型拟合效果的判断
(1)残差平方和越小,模型的拟合效果越好.
(2)相关指数R2越大,模型的拟合效果越好.
(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
[题组训练]
1.(2019·惠州调研)某商场为了了解毛衣的月销售量y(件)与月平均气温x(℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:
月平均气温x/℃
17
13
8
2
月销售量y/件
24
33
40
55
由表中数据算出线性回归方程=x+中的=-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为( )
A.46件 B.40件
C.38件 D.58件
解析:选A 由题中数据,得=10,=38,回归直线=x+过点(,),且=-2,代入得=58,则回归方程=-2x+58,所以当x=6时,y=46,故选A.
2.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次,统计数据如下表:
x
1
2
3
4
5
6
7
y
60
110
210
340
660
1 010
1 960
根据以上数据,绘制了散点图.
参考数据:
iyi
ivi
100.54
621
2.54
25 350
78.12
3.47
其中vi=lg yi,=i.
(1)根据散点图判断,在推广期内,y=a+bx与y=c·dx(c,d均为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型(给出判断即可,不必说明理由)?
(2)根据(1)的判断结果及上表中数据,建立y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.
参考公式:
对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+μ的斜率和截距的最小二乘估计公式分别为β=,=- .
解:(1)根据散点图可以判断,y=c·dx适宜作为扫码支付的人次y关于活动推出天数x的回归方程类型.
(2)y=c·dx两边同时取常用对数,得lg y=lg(c·dx)=lg c+xlg d,
设lg y=v,则v=lg c+xlg d.
∵=4,=2.54,=140,
∴lg d=≈=0.25,
把(4,2.54)代入v=lg c+xlg d,得lg c=1.54,
∴=1.54+0.25x,∴=101.54+0.25x=101.54·(100.25)x.
把x=8代入上式,得=101.54+0.25×8=103.54=103×100.54=3 470,
∴y关于x的回归方程为=101.54·(100.25)x,活动推出第8天使用扫码支付的人次为3 470.
[典例] (2018·全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(2)根据(1)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
[解] (1)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(2)因为K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
[解题技法]
2个明确
(1)明确两类主体;
(2)明确研究的两个问题
2个关键
(1)准确画出2×2列联表;
(2)准确求解K2
3个步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=,计算K2的值;
(3)查表比较K2与临界值的大小关系,作统计判断
[题组训练]
1.(2019·沧州模拟)某班主任对全班50名学生进行了作业量的调查,数据如表:
认为作业量大
认为作业量不大
总计
男生
18
9
27
女生
8
15
23
总计
26
24
50
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025,P(K2≥6.635)≈0.010.
则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大 有关”.
解析:因为K2=≈5.059>5.024,
所以有97.5%的把握认为“学生的性别与认为作业量大有关”.
答案:有
2.为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:
未发病
发病
总计
未注射疫苗
20
x
A
注射疫苗
30
y
B
总计
50
50
100
现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为.
(1)求2×2列联表中的数据x,y,A,B的值.
(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?
(3)能否在犯错误的概率不超过0.001的前提下认为疫苗有效?
附:K2=,n=a+b+c+d.
临界值表:
P(K2≥k0)
0.05
0.01
0.005
0.001
k0
3.841
6.635
7.879
10.828
解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件M,
由已知得P(M)==,
所以y=10,则B=40,x=40,A=60.
(2)未注射疫苗发病率为=≈0.67,
注射疫苗发病率为==0.25.
发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.
(3)因为K2=≈16.67>10.828.
所以能在犯错误的概率不超过0.001的前提下认为疫苗有效.
A级——保大分专练
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C 由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
2.(2019·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计表:
购买食品的年支出费用x/万元
2.09
2.15
2.50
2.84
2.92
购买水果和牛奶的年支出费用y/万元
1.25
1.30
1.50
1.70
1.75
根据上表可得回归方程=x+,其中=0.59,=- ,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为( )
A.1.795万元 B.2.555万元
C.1.915万元 D.1.945万元
解析:选A =×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),=×(1.25+1.30+1.50+1.70+1.75)=1.50(万元),其中=0.59,则=- =0.025,=0.59x+0.025,故年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为=0.59×3.00+0.025=1.795(万元).
3.下面四个命题中,错误的是( )
A.从匀速传递的产品生产流水线上,质检员每15分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样
B.对分类变量X与Y的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大
C.两个随机变量相关性越强,则相关系数的绝对值越接近于0
D.在回归直线方程=0.4x+12中,当解释变量x每增加一个单位时,预报变量平均增加0.4个单位
解析:选C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故C错误.
4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
则下面的正确结论是( )
附表及公式:
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
K2=,n=a+b+c+d.
A.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
解析:选A 由列联表得到a=45,b=10,c=30,d=15,则a+b=55,c+d=45,a
+c=75,b+d=25,ad=675,bc=300,n=100,计算得K2的观测值k=
=≈3.030.因为2.706
