还剩16页未读,
继续阅读
2019版高考数学(理)创新大一轮北师大通用版讲义:第十章统计与统计案例第3节
展开
第3节 相关性、最小二乘估计与统计案例
最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.
知 识 梳 理
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.回归分析
对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.
(2)回归直线方程的求法——最小二乘法.
设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i=1,2,…,n),则回归直线方程y=a+bx的系数为:
其中=xi,=yi,(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
(1)设A,B为两个变量,每一个变量都可以取两个值,
变量A:A1,A2=1;
变量B:B1,B2=1.
2×2列联表
B
A
B1
B2
总计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量χ2=,其中n=a+b+c+d为样本容量.
(2)独立性检验
利用随机变量来判断“两个变量有关联”的方法称为独立性检验.
(3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断
①当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;
②当χ2>2.706时,有90%的把握判定变量A,B有关联;
③当χ2>3.841时,有95%的把握判定变量A,B有关联;
④当χ2>6.635时,有99%的把握判定变量A,B有关联.
[常用结论与微点提醒]
1.求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点(,).
2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.
诊 断 自 测
1.思考辨析(在括号内打“√”或“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)通过回归直线方程y=bx+a可以估计预报变量的取值和变化趋势.( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的χ2值越大.( )
答案 (1)√ (2)√ (3)× (4)√
2.(教材例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:
x
6
8
10
12
y
2
3
5
6
则y对x的线性回归直线方程为( )
A.y=2.3x-0.7 B.y=2.3x+0.7
C.y=0.7x-2.3 D.y=0.7x+2.3
解析 易求=9,=4,样本点中心(9,4)代入验证,满足y=0.7x-2.3.
答案 C
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
解析 在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.
答案 A
4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
解析 对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.
答案 D
5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
根据表中数据,得到χ2=≈4.844.则有________的把握认为选修文科与性别有关系.
解析 χ2≈4.844>3.841,则有95%的把握认为选修文科与性别之间有关系.
答案 95%
考点一 相关关系的判断
【例1】 (1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙 C.丙 D.丁
解析 (1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.
(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.
答案 (1)C (2)D
规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.
2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.
3.线性回归直线方程中:b >0时,正相关;b <0时,负相关.
【训练1】 (1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:
月份
1月份
2月份
3月份
4月份
5月份
6月份
收入x
12.3
14.5
15.0
17.0
19.8
20.6
支出y
5.63
5.75
5.82
5.89
6.11
6.18
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R,用y=bx+a拟合时的相关指数为R,则R>R;
③x,y之间不能建立线性回归方程.
解析 (1)从统计图表中看出,月收入的中位数是(15+17)=16,收入增加,则支出也增加,x与y正线性相关.
(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用y=bx+a拟合效果要好,则R>R,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.
答案 (1)C (2)①②
考点二 线性回归方程及应用
【例2】 (2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于
所以y关于w的线性回归方程为y=100.6+68w,因此y关于x的回归方程为
y=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值
y=100.6+68=576.6,
年利润z的预报值z=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
z=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,z取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
规律方法 1.(1)正确理解计算b,a的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程y=bx+a必过样本点中心(x,y).
2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
(2)本例中y与x不具有线性相关,先作变换,转化为y与w具有线性相关,求出y关于w的线性回归方程,然后进一步求解.
【训练2】 (2018·上饶调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:
年份x
2013
2014
2015
2016
2017
储蓄存款y(千亿元)
5
6
7
8
10
表1
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 012,z=y-5得到下表2:
时间代号t
1
2
3
4
5
z
0
1
2
3
5
表2
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?
b==1.2,
a=-b=2.2-3×1.2=-1.4,
所以z=1.2t-1.4.
(2)将t=x-2 012,z=y-5,代入z=1.2t-1.4,
得y-5=1.2(x-2 012)-1.4,即y=1.2x-2 410.8.
(3)因为y=1.2×2 022-2 410.8=15.6,
所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.
考点三 独立性检验
【例3】 某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:χ2=
P(χ2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
解 (1)利用分层抽样,300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.
又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
将2×2列联表中的数据代入公式计算,
得χ2==≈4.762>3.841.
所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.
【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.
(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?
(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断是否有95%的把握认为科类的选择与性别有关?
选择自然科学类
选择社会科学类
合计
男生
女生
合计
解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为=.
(2)根据统计数据,可得2×2列联表如下:
选择自然科学类
选择社会科学类
合计
男生
60
45
105
女生
30
45
75
合计
90
90
180
则χ2==≈5.142 9>3.841,
所以有95%的把握认为科类的选择与性别有关.
基础巩固题组
(建议用时:40分钟)
一、选择题
1.为了判定两个分类变量X和Y是否有关系,应用独立性检验法算得χ2=5,则下列说法正确的是( )
A.有95%的把握认为“X和Y有关系”
B.有95%的把握认为“X和Y没有关系”
C.有99%的把握认为“X和Y有关系”
D.有99%的把握认为“X和Y没有关系”
解析 依题意χ2=5,因此有95%的把握认为“X和Y有关系”.
答案 A
2.(2018·石家庄模拟)下列说法错误的是( )
A.回归直线过样本点的中心(,)
B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1
C.对分类变量X与Y,随机变量χ2值越大,则判断“X与Y有关系”的把握程度越小
D.在回归直线方程y=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y平均增加0.2个单位
解析 根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量χ2值越大,判断“X与Y有关系”的把握程度越大,故C错误.
答案 C
3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:
x
-4
-2
1
2
4
y
-5
-3
-1
-0.5
1
根据上述数据得到的回归方程为y=bx+a,则大致可以判断( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
解析 作出散点图,画出回归直线直观判定b>0,a<0.
答案 C
4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由χ2=算得,
χ2=≈7.8.
则得到的正确结论是( )
A.有99%的把握认为“爱好该项运动与性别有关”
B.有99%的把握认为“爱好该项运动与性别无关”
C.有95%的把握认为“爱好该项运动与性别有关”
D.有95%的把握认为“爱好该项运动与性别无关”
解析 根据独立性检验的定义,由χ2≈7.8>6.635,可知有99%的把握认为“爱好该项运动与性别有关”.
答案 A
5.(2017·山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y=bx+a.已知xi=225,yi=1 600,b=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163 C.166 D.170
解析 由已知得=22.5,=160,
∵回归直线方程过样本点中心(,),且b=4,
∴160=4×22.5+a,解得a=70.
∴回归直线方程为y=4x+70,当x=24时,y=166.
答案 C
二、填空题
6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.
零件数x(个)
10
20
30
40
50
加工时间y(min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
解析 由=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a,
则62+a+75+81+89=75×5,∴a=68.
答案 68
7.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)
几何题
代数题
总计
男同学
22
8
30
女同学
8
12
20
总计
30
20
50
根据上述数据,有________的把握推断视觉和空间想象能力与性别有关系.
解析 由列联表计算χ2=≈5.556>3.841.∴有95%的把握推断视觉和空间想象力与性别有关系.
答案 95%
8.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得回归直线方程y=bx+a中的b=-2,预测当气温为-4 ℃时,用电量约为________度.
解析 根据题意知==10,==40.所以a=40-(-2)×10=60,y=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.
答案 68
三、解答题
9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:
满意
不满意
男用户
30
10
女用户
20
20
(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;
(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.
解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为=.
所以在满意产品的用户中应抽取女用户20×=2(人),男用户30×=3(人).
抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这5人中任选2人,共有10种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.
其中恰好是男、女用户各1人的有6种情况:ar,as,br,bs,cr,cs.
故所求的概率为P==0.6.
(2)由题意,得χ2=
=≈5.333>3.841.
故有95%的把握认为“产品用户是否满意与性别有关”.
10.(2018·惠州模拟)某市春节期间7家超市广告费支出xi(万元)和销售额yi(万元)数据如下表:
超市
A
B
C
D
E
F
G
广告费支出xi
1
2
4
6
11
13
19
销售额yi
19
32
40
44
52
53
54
(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程;
(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:y=-0.17x2+5x+20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3万元时的销售额.
参考数据:=8,=42,xiyi=2 794,x=708.
∴a=-b=42-1.7×8=28.4,
故y关于x的线性回归方程是y=1.7x+28.4.
(2)∵0.75<0.93,∴二次函数回归模型更合适.
当x=3时,y=33.47.
故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.
能力提升题组
(建议用时:20分钟)
11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:
男性市民
女性市民
认为能缓解交通拥堵
48
30
认为不能缓解交通拥堵
12
20
则下列结论正确的是( )
A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”
B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”
C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”
D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”
解析 由2×2列联表,可求
χ2=
≈5.288>3.841.
∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”.
答案 A
12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x
9
9.5
m
10.5
11
销售量y
11
n
8
6
5
由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是y=-3.2x+40,且m+n=20,则其中的n=________.
解析 ==8+,
==6+.
回归直线一定经过样本中心(,),
即6+=-3.2+40,即3.2m+n=42.
又因为m+n=20,即
解得故n=10.
答案 10
13.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:
(1)试问这3年的前7个月中哪个月的月平均利润较高?
(2)通过计算判断这3年的前7个月的总利润的发展趋势;
(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.
月份
1
2
3
4
利润y(单位:百万元)
4
4
6
6
a=-b.
解 (1)由折线图可知5月和6月的平均利润最高.
(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元),
第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元).
第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元),
所以这3年的前7个月的总利润呈上升趋势.
(3)∵=2.5,=5,12+22+32+42=30,1×4+2×4+3×6+4×6=54,
∴b==0.8,∴a=5-2.5×0.8=3.
因此线性回归方程为y=0.8x+3.
当x=8时,y=0.8×8+3=9.4.
∴估计第3年8月份的利润为9.4百万元.
最新考纲 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.
知 识 梳 理
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.回归分析
对具有相关关系的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求回归直线方程;(ⅲ)用回归直线方程作预报.
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫作回归直线.
(2)回归直线方程的求法——最小二乘法.
设具有线性相关关系的两个变量x,y的一组观察值为(xi,yi)(i=1,2,…,n),则回归直线方程y=a+bx的系数为:
其中=xi,=yi,(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
(1)设A,B为两个变量,每一个变量都可以取两个值,
变量A:A1,A2=1;
变量B:B1,B2=1.
2×2列联表
B
A
B1
B2
总计
A1
a
b
a+b
A2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量χ2=,其中n=a+b+c+d为样本容量.
(2)独立性检验
利用随机变量来判断“两个变量有关联”的方法称为独立性检验.
(3)当数据量较大时,在统计中,用以下结果对变量的独立性进行判断
①当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;
②当χ2>2.706时,有90%的把握判定变量A,B有关联;
③当χ2>3.841时,有95%的把握判定变量A,B有关联;
④当χ2>6.635时,有99%的把握判定变量A,B有关联.
[常用结论与微点提醒]
1.求解回归方程的关键是确定回归系数a,b,应充分利用回归直线过样本中心点(,).
2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的y值,仅是一个预报值,不是真实发生的值.
诊 断 自 测
1.思考辨析(在括号内打“√”或“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)通过回归直线方程y=bx+a可以估计预报变量的取值和变化趋势.( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的χ2值越大.( )
答案 (1)√ (2)√ (3)× (4)√
2.(教材例题改编)某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:
x
6
8
10
12
y
2
3
5
6
则y对x的线性回归直线方程为( )
A.y=2.3x-0.7 B.y=2.3x+0.7
C.y=0.7x-2.3 D.y=0.7x+2.3
解析 易求=9,=4,样本点中心(9,4)代入验证,满足y=0.7x-2.3.
答案 C
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
解析 在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.
答案 A
4.(2015·全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
解析 对于A选项,由图知从2007年到2008年二氧化硫排放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.
答案 D
5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
根据表中数据,得到χ2=≈4.844.则有________的把握认为选修文科与性别有关系.
解析 χ2≈4.844>3.841,则有95%的把握认为选修文科与性别之间有关系.
答案 95%
考点一 相关关系的判断
【例1】 (1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
(2)甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙 C.丙 D.丁
解析 (1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.
(2)在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.
答案 (1)C (2)D
规律方法 1.散点图中如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.若点散布在从左下角到右上角的区域,则正相关.
2.利用相关系数判定,当|r|越趋近于1相关性越强.当残差平方和越小,相关指数R2越大,相关性越强.若r>0,则正相关;r<0时,则负相关.
3.线性回归直线方程中:b >0时,正相关;b <0时,负相关.
【训练1】 (1)某公司在2018年上半年的收入x(单位:万元)与月支出y(单位:万元)的统计资料如下表所示:
月份
1月份
2月份
3月份
4月份
5月份
6月份
收入x
12.3
14.5
15.0
17.0
19.8
20.6
支出y
5.63
5.75
5.82
5.89
6.11
6.18
根据统计资料,则( )
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R,用y=bx+a拟合时的相关指数为R,则R>R;
③x,y之间不能建立线性回归方程.
解析 (1)从统计图表中看出,月收入的中位数是(15+17)=16,收入增加,则支出也增加,x与y正线性相关.
(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知用y=c1ec2x拟合比用y=bx+a拟合效果要好,则R>R,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.
答案 (1)C (2)①②
考点二 线性回归方程及应用
【例2】 (2015·全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型(给出判断即可,不必说明理由)?
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为:
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于
所以y关于w的线性回归方程为y=100.6+68w,因此y关于x的回归方程为
y=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值
y=100.6+68=576.6,
年利润z的预报值z=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
z=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,z取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
规律方法 1.(1)正确理解计算b,a的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程y=bx+a必过样本点中心(x,y).
2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
(2)本例中y与x不具有线性相关,先作变换,转化为y与w具有线性相关,求出y关于w的线性回归方程,然后进一步求解.
【训练2】 (2018·上饶调研)某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:
年份x
2013
2014
2015
2016
2017
储蓄存款y(千亿元)
5
6
7
8
10
表1
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2 012,z=y-5得到下表2:
时间代号t
1
2
3
4
5
z
0
1
2
3
5
表2
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的回归方程;
(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?
b==1.2,
a=-b=2.2-3×1.2=-1.4,
所以z=1.2t-1.4.
(2)将t=x-2 012,z=y-5,代入z=1.2t-1.4,
得y-5=1.2(x-2 012)-1.4,即y=1.2x-2 410.8.
(3)因为y=1.2×2 022-2 410.8=15.6,
所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.
考点三 独立性检验
【例3】 某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集了300位学生每周平均体育运动时间的样本数据(单位:小时).
(1)应收集多少位女生的样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
附:χ2=
P(χ2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
解 (1)利用分层抽样,300×=90,所以应收集90位女生的样本数据.
(2)由频率分布直方图得1-2×(0.100+0.025)=0.75.所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.
又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:
男生
女生
总计
每周平均体育运动时间不超过4小时
45
30
75
每周平均体育运动时间超过4小时
165
60
225
总计
210
90
300
将2×2列联表中的数据代入公式计算,
得χ2==≈4.762>3.841.
所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.
规律方法 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.
【训练3】 (2018·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查. 现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.
(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?
(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断是否有95%的把握认为科类的选择与性别有关?
选择自然科学类
选择社会科学类
合计
男生
女生
合计
解 (1)从高一年级学生中随机抽取1人,抽到男生的概率约为=.
(2)根据统计数据,可得2×2列联表如下:
选择自然科学类
选择社会科学类
合计
男生
60
45
105
女生
30
45
75
合计
90
90
180
则χ2==≈5.142 9>3.841,
所以有95%的把握认为科类的选择与性别有关.
基础巩固题组
(建议用时:40分钟)
一、选择题
1.为了判定两个分类变量X和Y是否有关系,应用独立性检验法算得χ2=5,则下列说法正确的是( )
A.有95%的把握认为“X和Y有关系”
B.有95%的把握认为“X和Y没有关系”
C.有99%的把握认为“X和Y有关系”
D.有99%的把握认为“X和Y没有关系”
解析 依题意χ2=5,因此有95%的把握认为“X和Y有关系”.
答案 A
2.(2018·石家庄模拟)下列说法错误的是( )
A.回归直线过样本点的中心(,)
B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1
C.对分类变量X与Y,随机变量χ2值越大,则判断“X与Y有关系”的把握程度越小
D.在回归直线方程y=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量y平均增加0.2个单位
解析 根据相关定义分析知A,B,D正确,C中对分类变量X与Y的随机变量χ2值越大,判断“X与Y有关系”的把握程度越大,故C错误.
答案 C
3.(2017·汉中模拟)已知两个随机变量x,y之间的相关关系如表所示:
x
-4
-2
1
2
4
y
-5
-3
-1
-0.5
1
根据上述数据得到的回归方程为y=bx+a,则大致可以判断( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
解析 作出散点图,画出回归直线直观判定b>0,a<0.
答案 C
4.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由χ2=算得,
χ2=≈7.8.
则得到的正确结论是( )
A.有99%的把握认为“爱好该项运动与性别有关”
B.有99%的把握认为“爱好该项运动与性别无关”
C.有95%的把握认为“爱好该项运动与性别有关”
D.有95%的把握认为“爱好该项运动与性别无关”
解析 根据独立性检验的定义,由χ2≈7.8>6.635,可知有99%的把握认为“爱好该项运动与性别有关”.
答案 A
5.(2017·山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为y=bx+a.已知xi=225,yi=1 600,b=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163 C.166 D.170
解析 由已知得=22.5,=160,
∵回归直线方程过样本点中心(,),且b=4,
∴160=4×22.5+a,解得a=70.
∴回归直线方程为y=4x+70,当x=24时,y=166.
答案 C
二、填空题
6.(2017·西安模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=0.67x+54.9.
零件数x(个)
10
20
30
40
50
加工时间y(min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
解析 由=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a,
则62+a+75+81+89=75×5,∴a=68.
答案 68
7.(2018·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)
几何题
代数题
总计
男同学
22
8
30
女同学
8
12
20
总计
30
20
50
根据上述数据,有________的把握推断视觉和空间想象能力与性别有关系.
解析 由列联表计算χ2=≈5.556>3.841.∴有95%的把握推断视觉和空间想象力与性别有关系.
答案 95%
8.(2018·长沙雅礼中学质检)某单位为了了解用电量y(度)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:
气温(℃)
18
13
10
-1
用电量(度)
24
34
38
64
由表中数据得回归直线方程y=bx+a中的b=-2,预测当气温为-4 ℃时,用电量约为________度.
解析 根据题意知==10,==40.所以a=40-(-2)×10=60,y=-2x+60.所以当x=-4时,y=(-2)×(-4)+60=68,所以用电量约为68度.
答案 68
三、解答题
9.(2018·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:
满意
不满意
男用户
30
10
女用户
20
20
(1)根据上表,现用分层抽样的方法抽取对产品满意的用户5人,在这5人中任选2人,求被选中的恰好是男、女用户各1人的概率;
(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.
解 (1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为=.
所以在满意产品的用户中应抽取女用户20×=2(人),男用户30×=3(人).
抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s,则从这5人中任选2人,共有10种情况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.
其中恰好是男、女用户各1人的有6种情况:ar,as,br,bs,cr,cs.
故所求的概率为P==0.6.
(2)由题意,得χ2=
=≈5.333>3.841.
故有95%的把握认为“产品用户是否满意与性别有关”.
10.(2018·惠州模拟)某市春节期间7家超市广告费支出xi(万元)和销售额yi(万元)数据如下表:
超市
A
B
C
D
E
F
G
广告费支出xi
1
2
4
6
11
13
19
销售额yi
19
32
40
44
52
53
54
(1)若用线性回归模型拟合y与x的关系,求y与x的线性回归方程;
(2)若用二次函数回归模型拟合y与x的关系,可得回归方程:y=-0.17x2+5x+20,经计算,二次函数回归模型和线性回归模型的R2分别约为0.93和0.75,请用R2说明选择哪个回归模型更合适,并用此模型预测A超市广告费支出3万元时的销售额.
参考数据:=8,=42,xiyi=2 794,x=708.
∴a=-b=42-1.7×8=28.4,
故y关于x的线性回归方程是y=1.7x+28.4.
(2)∵0.75<0.93,∴二次函数回归模型更合适.
当x=3时,y=33.47.
故选择二次函数回归模型更合适,并且用此模型预测A超市广告费支出3万元时的销售额为33.47万元.
能力提升题组
(建议用时:20分钟)
11.(2018·济南调研)济南市地铁R1线预计2019年年底开通运营,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:
男性市民
女性市民
认为能缓解交通拥堵
48
30
认为不能缓解交通拥堵
12
20
则下列结论正确的是( )
A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”
B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”
C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”
D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关”
解析 由2×2列联表,可求
χ2=
≈5.288>3.841.
∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”.
答案 A
12.在2018年3月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x元和销售量y件之间的一组数据如下表所示:
价格x
9
9.5
m
10.5
11
销售量y
11
n
8
6
5
由散点图可知,销售量y与价格x之间有较强的线性相关关系,其线性回归方程是y=-3.2x+40,且m+n=20,则其中的n=________.
解析 ==8+,
==6+.
回归直线一定经过样本中心(,),
即6+=-3.2+40,即3.2m+n=42.
又因为m+n=20,即
解得故n=10.
答案 10
13.(2018·湖南百所重点中学阶段性诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:
(1)试问这3年的前7个月中哪个月的月平均利润较高?
(2)通过计算判断这3年的前7个月的总利润的发展趋势;
(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.
月份
1
2
3
4
利润y(单位:百万元)
4
4
6
6
a=-b.
解 (1)由折线图可知5月和6月的平均利润最高.
(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元),
第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元).
第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元),
所以这3年的前7个月的总利润呈上升趋势.
(3)∵=2.5,=5,12+22+32+42=30,1×4+2×4+3×6+4×6=54,
∴b==0.8,∴a=5-2.5×0.8=3.
因此线性回归方程为y=0.8x+3.
当x=8时,y=0.8×8+3=9.4.
∴估计第3年8月份的利润为9.4百万元.
相关资料
更多