还剩18页未读,
继续阅读
所属成套资源:2021江苏高考数学苏教版一轮复习讲义
成套系列资料,整套一键下载
2021版江苏高考数学一轮复习讲义:第9章第3节 变量间的相关关系与统计案例
展开
第三节 变量间的相关关系与统计案例
[最新考纲] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
1.回归直线必过样本点的中心(,).
2.当两个变量的相关系数|r|=1时,两个变量呈函数关系.
一、思考辨析(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ( )
(2)通过回归直线方程可以估计预报变量的取值和变化趋势. ( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验. ( )
(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大. ( )
[答案](1)√ (2)√ (3)× (4)√
二、教材改编
1.在两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
A [R2越接近于1,其拟合效果越好.]
2.下面是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
C [∵a+21=73,∴a=52.又a+22=b,∴b=74.]
3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性约为 .
5% [K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]
4.某同学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y(杯)与当天最高气温x(℃)的有关数据,通过描绘散点图,发现y和x呈线性相关关系,并求得其回归方程=2x+60.如果气象预报某天的最高气温为34 ℃,则可以预测该天这种饮料的销售量为 杯.
128 [由题意x=34时,该小卖部大约能卖出热饮的杯数=2×34+60=128杯.]
考点1 相关关系的判断
判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归直线方程中:>0时,正相关;<0时,负相关.
1.已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
C [由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.]
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
A [由相关系数的定义以及散点图可知r2<r4<0<r3<r1.]
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-3x+1上,则这组样本数据的样本相关系数为( )
A.-3 B.0 C.-1 D.1
C [在一组样本数据的散点图中,所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-3x+1上,所以b=-3<0,即这组样本数据的两个变量负相关,且相关系数为-1.故选C.]
4.x和y的散点图如图所示,则下列说法中所有正确命题的序号为 .
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关系数为r1,用=x+拟合时的相关指数为r2,则|r1|>|r2|;
③x,y之间不能建立线性回归方程.
①② [在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用=x+拟合效果要好,则|r1|>|r2|,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.]
相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性.
考点2 回归分析
线性回归分析
求线性回归直线方程的步骤
(1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系;
(2)利用公式==,
=-求得回归系数;
(3)写出回归直线方程.
如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图.
注:年份代码1~7分别对应年份2012~2018.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程,预测2021年该企业的污水净化量;
(3)请用数据说明回归方程预报的效果.
参考数据:=54, (ti-)(yi-)=21,
≈3.74, (yi-i)2=.
参考公式:相关系数r=,
线性回归方程=+t,
=,=-.
反映回归效果的公式为:R2=1-,
其中R2越接近于1,表示回归的效果越好.
[解](1)由折线图中的数据得,
=4, (ti-)2=28, (yi-)2=18,
所以r=≈0.935.
因为y与t的相关系数近似为0.935,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系.
(2)因为=54,===,
所以=-=54-×4=51,
所以y关于t的线性回归方程为=t+=t+51.
将2021年对应的t=10代入得=×10+51=58.5,
所以预测2021年该企业污水净化量约为58.5吨.
(3)因为R2=1-=1-×=1-==0.875,
所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.
在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(,)),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值.
[教师备选例题]
某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:
年份x
2013
2014
2015
2016
2017
储蓄存款y(千亿元)
5
6
7
8
10
表1
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 012,z=y-5得到下表2:
时间代号t
1
2
3
4
5
z
0
1
2
3
5
表2
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?
(附:对于线性回归方程=x+,
其中=,=-)
[解](1)=3,=2.2,tizi=45,t=55,
==1.2,
=-=2.2-3×1.2=-1.4,所以=1.2t-1.4.
(2)将t=x-2 012,z=y-5,代入=1.2t-1.4,
得y-5=1.2(x-2 012)-1.4,即=1.2x-2 410.8.
(3)因为=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.
1.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为=x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163 C.166 D.170
C [∵xi=225,∴=xi=22.5.
∵yi=1 600,∴=yi=160.
又=4,∴=-=160-4×22.5=70.
∴回归直线方程为=4x+70.
将x=24代入上式得=4×24+70=166.故选C.]
2.某产品的广告费用x万元与销售额y万元的统计数据如表:
广告费用x(万元)
2
3
4
5
销售额y(万元)
26
m
49
54
根据上表可得回归方程=9x+10.5,则m的值为( )
A.36 B.37
C.38 D.39
D [由回归方程的性质,线性回归方程过样本点的中心,则=×9+10.5,
解得m=39.故选D.]
非线性回归方程
非线性回归方程的求法
(1)根据原始数据作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)作恰当变换,将其转化成线性函数,求线性回归方程.
(4)在(3)的基础上通过相应变换,即可得非线性回归方程.
某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中wi=,w]=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=
[解](1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.
[教师备选例题]
某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n%转为一般困难,特别困难的学生中有n%转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x与y(万元)近似满足关系式y=c1·2c2x,其中c1,c2为常数.(2013年至2019年该市中学生人数大致保持不变)
其中ki=log2yi,=ki.
(1)估计该市2018年人均可支配收入;
(2)求该市2018年的“专项教育基金”的财政预算大约为多少.
附:①对于一组具有线性相关关系的数据(u1,v1),(u2,v2),…,(un,vn),其回归直线方程=u+的斜率和截距的最小二乘估计分别为=,=-.
②参考数据:
2-0.7
2-0.3
20.1
21.7
21.8
21.9
0.6
0.8
1.1
3.2
3.5
3.73
[解](1)因为=×(13+14+15+16+17)=15,所以 (xi-)2=(-2)2+(-1)2+02+12+22=10.
由k=log2y得k=log2c1+c2x,
所以c2==,
log2c1=-c2=1.2-×15=-0.3,
所以c1=2-0.3=0.8,
所以y=0.8×2.
当x=18时,y=0.8×21.8=0.8×3.5=2.8(万元).
即该市2018年人均可支配收入为2.8万元.
(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200 000×7%=14 000人,
一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配收入比2017年增长=20.1-1=0.1=10%,
所以2018年该市特别困难的学生有2 800×(1-10%)=2 520人.
很困难的学生有4 200×(1-20%)+2 800×10%=3 640人,
一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.
所以2018年的“专项教育基金”的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).
十九大报告指出,必须树立“绿水青山就是金山银山”的生态文明发展理念,这一理念将进一步推动新能源汽车产业的迅速发展.以下是近几年我国新能源汽车的年销量数据及其散点图(如图所示):
年份
2013
2014
2015
2016
2017
年份代码x
1
2
3
4
5
新能源汽车的年销量y/万辆
1.5
5.9
17.7
32.9
55.6
(1)请根据散点图判断=x+与=x2+中哪个更适宜作为新能源汽车年销量y关于年份代码x的回归方程模型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测2020年我国新能源汽车的年销量.(精确到0.1)
=,=-.
附:令wi=x.
[解](1)根据散点图得,=x2+更适宜作为年销量y关于年份代码x的回归方程.
(2)依题意得,==11,=
则=-=22.72-2.28×11=-2.36,
∴=2.28x2-2.36.
令x=8,则=2.28×64-2.36=143.56≈143.6,
故预测2020年我国新能源汽车的年销量为143.6万辆.
考点3 独立性检验
1.比较几个分类变量有关联的可能性大小的方法
(1)通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.
(2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.
2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值k.
(3)比较观测值k与临界值的大小关系,作统计推断.
(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,n=a+b+c+d.
[解](1)第二种生产方式的效率更高.
理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
独立性检验是判断两个分类变量之间是否有关系的一种方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.
[教师备选例题]
(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
K2=.
[解](1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)根据箱产量的频率分布直方图得列联表:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为
(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法产量的中位数的估计值为
50+≈52.35(kg).
1.党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能.共享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现象.为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果的图形是( )
A B
C D
D [根据四个选项中的等高条形图可知,选项D中共享与不共享的企业经济活跃度的差异较大,且最能体现共享经济对该部门的发展有显著效果,故选D.]
2.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:
K2=,
[解](1)由调查数据知,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2的观测值k=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
[最新考纲] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.
1.两个变量的线性相关
(1)正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
1.回归直线必过样本点的中心(,).
2.当两个变量的相关系数|r|=1时,两个变量呈函数关系.
一、思考辨析(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ( )
(2)通过回归直线方程可以估计预报变量的取值和变化趋势. ( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验. ( )
(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大. ( )
[答案](1)√ (2)√ (3)× (4)√
二、教材改编
1.在两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
A [R2越接近于1,其拟合效果越好.]
2.下面是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
C [∵a+21=73,∴a=52.又a+22=b,∴b=74.]
3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性约为 .
5% [K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]
4.某同学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y(杯)与当天最高气温x(℃)的有关数据,通过描绘散点图,发现y和x呈线性相关关系,并求得其回归方程=2x+60.如果气象预报某天的最高气温为34 ℃,则可以预测该天这种饮料的销售量为 杯.
128 [由题意x=34时,该小卖部大约能卖出热饮的杯数=2×34+60=128杯.]
考点1 相关关系的判断
判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归直线方程中:>0时,正相关;<0时,负相关.
1.已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
C [由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.]
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
A [由相关系数的定义以及散点图可知r2<r4<0<r3<r1.]
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-3x+1上,则这组样本数据的样本相关系数为( )
A.-3 B.0 C.-1 D.1
C [在一组样本数据的散点图中,所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-3x+1上,所以b=-3<0,即这组样本数据的两个变量负相关,且相关系数为-1.故选C.]
4.x和y的散点图如图所示,则下列说法中所有正确命题的序号为 .
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关系数为r1,用=x+拟合时的相关指数为r2,则|r1|>|r2|;
③x,y之间不能建立线性回归方程.
①② [在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用=x+拟合效果要好,则|r1|>|r2|,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.]
相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性.
考点2 回归分析
线性回归分析
求线性回归直线方程的步骤
(1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系;
(2)利用公式==,
=-求得回归系数;
(3)写出回归直线方程.
如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图.
注:年份代码1~7分别对应年份2012~2018.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程,预测2021年该企业的污水净化量;
(3)请用数据说明回归方程预报的效果.
参考数据:=54, (ti-)(yi-)=21,
≈3.74, (yi-i)2=.
参考公式:相关系数r=,
线性回归方程=+t,
=,=-.
反映回归效果的公式为:R2=1-,
其中R2越接近于1,表示回归的效果越好.
[解](1)由折线图中的数据得,
=4, (ti-)2=28, (yi-)2=18,
所以r=≈0.935.
因为y与t的相关系数近似为0.935,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系.
(2)因为=54,===,
所以=-=54-×4=51,
所以y关于t的线性回归方程为=t+=t+51.
将2021年对应的t=10代入得=×10+51=58.5,
所以预测2021年该企业污水净化量约为58.5吨.
(3)因为R2=1-=1-×=1-==0.875,
所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.
在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(,)),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值.
[教师备选例题]
某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:
年份x
2013
2014
2015
2016
2017
储蓄存款y(千亿元)
5
6
7
8
10
表1
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 012,z=y-5得到下表2:
时间代号t
1
2
3
4
5
z
0
1
2
3
5
表2
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?
(附:对于线性回归方程=x+,
其中=,=-)
[解](1)=3,=2.2,tizi=45,t=55,
==1.2,
=-=2.2-3×1.2=-1.4,所以=1.2t-1.4.
(2)将t=x-2 012,z=y-5,代入=1.2t-1.4,
得y-5=1.2(x-2 012)-1.4,即=1.2x-2 410.8.
(3)因为=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.
1.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为=x+.已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163 C.166 D.170
C [∵xi=225,∴=xi=22.5.
∵yi=1 600,∴=yi=160.
又=4,∴=-=160-4×22.5=70.
∴回归直线方程为=4x+70.
将x=24代入上式得=4×24+70=166.故选C.]
2.某产品的广告费用x万元与销售额y万元的统计数据如表:
广告费用x(万元)
2
3
4
5
销售额y(万元)
26
m
49
54
根据上表可得回归方程=9x+10.5,则m的值为( )
A.36 B.37
C.38 D.39
D [由回归方程的性质,线性回归方程过样本点的中心,则=×9+10.5,
解得m=39.故选D.]
非线性回归方程
非线性回归方程的求法
(1)根据原始数据作出散点图.
(2)根据散点图,选择恰当的拟合函数.
(3)作恰当变换,将其转化成线性函数,求线性回归方程.
(4)在(3)的基础上通过相应变换,即可得非线性回归方程.
某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中wi=,w]=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=
[解](1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值=100.6+68=576.6,
年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.
[教师备选例题]
某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n%转为一般困难,特别困难的学生中有n%转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x取13时代表2013年,x与y(万元)近似满足关系式y=c1·2c2x,其中c1,c2为常数.(2013年至2019年该市中学生人数大致保持不变)
其中ki=log2yi,=ki.
(1)估计该市2018年人均可支配收入;
(2)求该市2018年的“专项教育基金”的财政预算大约为多少.
附:①对于一组具有线性相关关系的数据(u1,v1),(u2,v2),…,(un,vn),其回归直线方程=u+的斜率和截距的最小二乘估计分别为=,=-.
②参考数据:
2-0.7
2-0.3
20.1
21.7
21.8
21.9
0.6
0.8
1.1
3.2
3.5
3.73
[解](1)因为=×(13+14+15+16+17)=15,所以 (xi-)2=(-2)2+(-1)2+02+12+22=10.
由k=log2y得k=log2c1+c2x,
所以c2==,
log2c1=-c2=1.2-×15=-0.3,
所以c1=2-0.3=0.8,
所以y=0.8×2.
当x=18时,y=0.8×21.8=0.8×3.5=2.8(万元).
即该市2018年人均可支配收入为2.8万元.
(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200 000×7%=14 000人,
一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配收入比2017年增长=20.1-1=0.1=10%,
所以2018年该市特别困难的学生有2 800×(1-10%)=2 520人.
很困难的学生有4 200×(1-20%)+2 800×10%=3 640人,
一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.
所以2018年的“专项教育基金”的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).
十九大报告指出,必须树立“绿水青山就是金山银山”的生态文明发展理念,这一理念将进一步推动新能源汽车产业的迅速发展.以下是近几年我国新能源汽车的年销量数据及其散点图(如图所示):
年份
2013
2014
2015
2016
2017
年份代码x
1
2
3
4
5
新能源汽车的年销量y/万辆
1.5
5.9
17.7
32.9
55.6
(1)请根据散点图判断=x+与=x2+中哪个更适宜作为新能源汽车年销量y关于年份代码x的回归方程模型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程,并预测2020年我国新能源汽车的年销量.(精确到0.1)
=,=-.
附:令wi=x.
[解](1)根据散点图得,=x2+更适宜作为年销量y关于年份代码x的回归方程.
(2)依题意得,==11,=
则=-=22.72-2.28×11=-2.36,
∴=2.28x2-2.36.
令x=8,则=2.28×64-2.36=143.56≈143.6,
故预测2020年我国新能源汽车的年销量为143.6万辆.
考点3 独立性检验
1.比较几个分类变量有关联的可能性大小的方法
(1)通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.
(2)通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.
2.独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值k.
(3)比较观测值k与临界值的大小关系,作统计推断.
(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,n=a+b+c+d.
[解](1)第二种生产方式的效率更高.
理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
独立性检验是判断两个分类变量之间是否有关系的一种方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.
[教师备选例题]
(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
K2=.
[解](1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)根据箱产量的频率分布直方图得列联表:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为
(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法产量的中位数的估计值为
50+≈52.35(kg).
1.党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能.共享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现象.为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果的图形是( )
A B
C D
D [根据四个选项中的等高条形图可知,选项D中共享与不共享的企业经济活跃度的差异较大,且最能体现共享经济对该部门的发展有显著效果,故选D.]
2.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:
K2=,
[解](1)由调查数据知,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2的观测值k=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
相关资料
更多