还剩12页未读,
继续阅读
所属成套资源:全套北师大版高中数学选择性必修第一册课时学案
成套系列资料,整套一键下载
北师大版高中数学选择性必修第一册7-1、7-2一元线性回归成对数据的线性相关性学案
展开
第七章 统计案例
§1 一元线性回归
§2 成对数据的线性相关性
新课程标准
新学法解读
1.掌握散点图与曲线拟合的概念.
2.了解最小二乘法,会求一元线性回归方程.
3.理解线性相关系数公式并会简单应用.
1.会画散点图,并能利用散点图判断两个变量是否具有相关关系.
2.理解最小二乘法原理,会求回归直线方程.
3.掌握相关系数公式.
4.会用相关系数公式判断两个变量的线性相关性.
[笔记教材]
知识点一 散点图、直线拟合
1.散点图
直角坐标系中每个点对应的一对数据(xi,yi),称为成对数据,这些点构成的图形称为______________.
2.曲线拟合
从散点图上可以看出,如果变量之间存在着某种关系,这些点会有―个大致趋势,这种趋势通常可以用________来近似地描述,这样近似描述的过程称为曲线拟合.
3.直线拟合
若在两个变量X和Y 的散点图中,所有点看上去都在________附近波动,此时就可以用一条直线来近似地描述这两个量之间的关系,称之为直线拟合.
答案:1.散点图
2.一条光滑的曲线
3.一条直线
知识点二 一元线性回归方程
1.“最小二乘法”的含义
使样本点的纵坐标与直线上对应点的纵坐标差的平方和最小,即[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+yxn)]2________.
2.一元线性回归分析
(1)设样本点为(x1,y1),(x2,y2),…(xn,yn),直线方程Y=+X称作Y关于X的线性回归方程,相应的直线称作Y关于X的________,,是这个线性回归方程的系数.其中=________=________=________,=________,=________,=________.
(2)利用回归直线对总体进行估计
利用回归直线我们可以进行预测,若回归直线方程为Y=X+,则X=X0处的估计值为Y=________.
答案:1.最小
2.(1)回归直线 -
i i (2)X0+
知识点三 相关系数
1.相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为________.
2.相关系数r的计算
一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2 ),…,(x n,yn),记r=
==
,称r为随机变量X和Y的样本(线性)相关系数.
3.相关系数r的性质
(1)r的取值范围为________.
(2)|r|值越接近1,随机变量之间的线性相关程度越________.
(3)|r|值越接近0,随机变量之间的线性相关程度越________.
(4)利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若r>0.75,则线性相关较为显著,否则为不显著.
4.相关性的分类
(1)当________时,两个随机变量的值总体上变化越势相同,此时称两个随机变量正相关.
(2)当________时,两个随机变量的值总体上变化越势相反,此时称两个变量负相关.
(3)当________时,此时称两个随机变量线不相关.
答案:1.相关关系
3.(1)[-1,1] (2)强 (3)弱
4.(1)r>0 (2)r<0 (3)r=0
[重点理解]
1.对正、负相关的理解
在相关关系中,正、负相关只是代表一个趋势.以正相关为例,在散点图中,只要点散布在从左下角到右上角的区域,就说明这两个变量是正相关的,允许个别的点(xi,yi),(xj,yj) (i,j∈N+)满足当xiyj,这点要与函数关系中增函数的概念区别开来.
2.求回归直线方程的注意点
对于任意一组样本数据,利用公式都可以求得“回归直线方程”,如果这组数据不具有线性相关关系,即不存在回归直线,那么所得的“回归直线方程”是没有实际意义的,因此,对于一组样本数据,应先作散点图观察,在具有线性相关关系的前提下再求回归直线方程.
[自我排查]
1.判断正误.(正确的画“√”,错误的画“”)
(1)回归方程中,由x的值得出的y值是准确值.()
(2)回归直线一定过点(,).(√)
(3)回归直线一定过样本中的某一个点.()
(4)选取一组数据中的部分点得到的回归方程与由整组数据得到的回归方程是同一个方程.()
(5)|r|越小,线性回归方程的拟合效果越好.()
(6)相关系数是用来衡量两个变量的线性相关性强弱的.(√)
(7)当相关系数r满足0≤r≤1时,回归系数也满足0≤b≤1.()
2.相关系数r的取值范围是( )
A.[-1,1] B.[-1,0]
C.[0,1] D.(-1,1)
答案:A
3.下列数据x,y符合哪一种函数模型( )
x
1
2
3
4
5
6
7
8
9
10
y
2
2.69
3
3.38
3.6
3.8
4
4.08
4.2
4.3
A.y=2+x B.y=2ex
C.y=2e D.y=2+ln x
答案:D
4.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得线性回归方程可能为( )
A.y=0.4x+2.3 B.y=2x-2.4
C.y=-2x+9.5 D.y=-0.3x+4.4
答案:A
5.(2022安徽池州模拟)某超市统计了最近5年的商品销售额与利润率数据,经计算相关系数r=0.862,则下列判断正确的是( )
A.商品销售额与利润率正相关,且具有较弱的相关关系
B.商品销售额与利润率正相关,且具有较强的相关关系
C.商品销售额与利润率负相关,且具有较弱的相关关系
D.商品销售额与利润率负相关,且具有较强的相关关系
答案:B
研习1 相关关系的判断
[典例1] (1)两个变量x,y与其线性相关系数r有下列说法:①若r>0,则x增大时,y也随之相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上,其中正确的有( )
A.①② B.②③
C.①③ D.①②③
(2)有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和其身体健康情况;④正方形的边长和面积;⑤汽车的重量和百公里耗油量.其中两个变量成正相关的是( )
A.①③ B.②④
C.②⑤ D.④⑤
(1)[答案] C
[解析] 根据两个变量的相关性与其相关系数r之间的关系知,①③正确,②错误,故选C.
(2)[答案] C
[解析] 其中①③成负相关关系,②⑤成正相关关系,④成函数关系,故选C.
[巧归纳] 1.线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与观察散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.
2.利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若r>0.75,则线性相关较为显著,否则为不显著.
[练习1]下列两变量中具有相关关系的是( )
A.正方体的体积与边长
B.人的身高与体重
C.匀速行驶车辆的行驶距离与时间
D.球的半径与体积
答案:B
解析:选项A中正方体的体积为边长的立方,有固定的函数关系;选项C中匀速行驶车辆的行驶距离与时间成正比,也是函数关系;选项D中球的体积是π与半径的立方相乘,有固定函数关系.只有选项B中人的身高与体重具有相关关系.
研习2 回归直线方程
[典例2] 一台机器由于使用时间较长,生产的零件有一些会缺损,按不同转速生产出来的零件有缺损的统计数据如下表:
转速x(转/秒)
16
14
12
8
每小时生产缺损零件数y(件)
11
9
8
5
(1)作出散点图;
(2)如果y与x线性相关,求出线性回归方程;
(3)若实际生产中,允许每小时的产品中有缺损的零件最多为10个,那么,机器的运转速度应控制在什么范围?
(1)[解] 根据表中的数据画出散点图如图.
(2)[解] 设线性回归方程为=x+,并列表.
i
1
2
3
4
xi
16
14
12
8
yi
11
9
8
5
xiyi
176
126
96
40
=12.5,=8.25,x=660,xiyi=438,
所以=≈0.73,
=8.25-0.73×12.5=-0.875,所以=0.73x-0.875.
(3)[解] 令0.73x-0.875≤10,解得x≤14.9≈15,故机器的运转速度应控制在15转/秒内.
[巧归纳] 1.求回归直线方程的步骤:(1)在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系;(2)把数据制成表,从表中计算出,,x+x+…+x,x1y1+x2y2+…+xnyn的值;(3)计算,;(4)写出线性回归方程=+x.
2. 回归直线y=a+bx必过样本点(,),其中==yi.线性回归方程中的截距和斜率都是通过样本估计而得到的,存在着误差,这种误差可能导致预报结果的偏差,所以由线性回归方程给出的是一个预报值而非精确值.
[练习2]某班5名学生的数学和物理成绩如下表:
学生
学科
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(y)
78
65
71
64
61
(1)画出散点图;
(2)求物理成绩y对数学成绩x的线性回归方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩.
(1)解:散点图如图.
(2)解:=×(88+76+73+66+63)=73.2,=×(78+65+71+64+61)=67.8.
iyi=88×78+76×65+73×71+66×64+63×61=25 054.
=882+762+732+662+632=27 174.所以==≈0.625.
=-≈67.8-0.625×73.2=22.05.所以y对x的线性回归方程是=22.05+0.625x.
(3)解:x=96,则y=0.625×96+22.05≈82,即可以预测他的物理成绩是82.
研习3 线性相关系数及其应用
[典例3] 近年来,随着互联网的发展,网约车服务在我国各地迅猛发展,为人们出行提供了便利,但也给城市交通管理带来了一些困难.为掌握网约车在M省的发展情况,M省某调查机构从该省抽取了5个城市,分别收集和分析了网约车的A,B两项指标数xi,yi(i=1,2,3,4,5),数据如下表所示:
城市1
城市2
城市3
城市4
城市5
A指标数x
2
4
5
6
8
B指标数y
3
4
4
4
5
经计算得:=2,=.
(1)试求y与x间的相关系数r,并利用r说明y与x是否具有较强的线性相关关系(若>0,75,则线性相关程度很高,可用线性回归模型拟合);
(2)求y关于x的回归方程,并预测当A指标数为7时,B指标数的估计值.
参考数据:≈0.55,≈0.95.
解:(1)==5,==4,xi-)(yi-)=6,相关系数r===≈0.95,因为r>0.75,所以y与x具有较强的线性相关关系,可用线性回归模型拟合y与x的关系.
(2)解:由(1)知,===,=-=4-×5=,
所以y与x之间线性回归方程为=x+,当x=7时,=×7+=4.6.
当A指标数为7时,B指标数的估计值为4.6.
[巧归纳] 1.散点图只能直观判断两变量是否具有相关关系.
2.相关系数能精确刻画两变量线性相关关系的强弱.
[练习3](2022江苏南京秦淮中学模拟)(多选题)为了对变量x与y的线性相关性进行检验,由样本点(x1,y1),(x2,y2),…,(x10,y10)求得两个变量的样本相关系数为r,那么下面说法中错误的有( )
A.若所有样本点都在直线y=-2x+1上,则r=1
B.若所有样本点都在直线y=-2x+1上,则r=-2
C.若越大,则变量x与y的线性相关性越强
D.若越小,则变量x与y的线性相关性越强
答案:ABD
解析:若所有样本点都在直线y=-2x+1上,则|r|=1,又直线斜率为负数,则r=-1,A,B选项均错误;
若|r|越大,则变量x与y的线性相关性越强,C选项正确,D选项错误.故选ABD.
研习4 非线性回归问题
[典例4] 某地区不同身高的未成年男性的体重平均值如下表:
身高
x(cm)
60
70
80
90
100
110
体重
y(kg)
6.13
7.90
9.99
12.15
15.02
17.50
身高
x(cm)
120
130
140
150
160
170
体重
y(kg)
20.92
26.86
31.11
38.85
47.25
55.05
(1)试建立y与x之间的回归方程;
(2)如果一名在校男生身高为168 cm,预测他的体重约为多少?
(1)[解] 根据表中的数据画出散点图,如图:
由图看出,这些点分布在某条指数型函数曲线y=c1ec2x的周围,于是令z=ln y,列表如下:
x
60
70
80
90
100
110
z
1.81
2.07
2.30
2.50
2.71
2.86
x
120
130
140
150
160
170
z
3.04
3.29
3.44
3.66
3.86
4.01
作出散点图,如图:
由表中数据可求得z与x之间的回归直线方程为=0.693+0.020x,则有y=e0.693+0.020x.
(2)[解] 由(1)知,当x=168时,y=e0.693+0.020×168≈57.57,所以在校男生身高为168 cm,预测他的体重约为57.57 kg.
[巧归纳] 两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1ec2x,我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点应该分布在直线z=bx+a(a=ln c1,b=c2)的周围.
[练习4]为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下:
时间x/天
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
(1)作出这些数据的散点图;
(2)求y与x之间的回归方程.
(1)解:散点图如图所示,
(2)解:由散点图看出样本点分布在一条指数函数y=c1ec2x图象的周围,于是令z=ln y,则
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
由计算器算得z=0.69x+1.112,
则有y=e0.69x+1.112.
1.下列结论正确的是( )
①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①② B.①②③
C.①②④ D.①②③④
答案:C
解析:函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故③错误,④正确.
2.下表是x和y之间的一组数据,则y关于x的线性回归方程必过点( )
x
1
2
3
4
y
1
3
5
7
A.(2,3) B.(1.5,4)
C.(2.5,4) D.(2.5,5)
答案:C
解析:线性回归方程必过样本点的中心(,),即(2.5,4),故选C.
3.(2022广西玉林师院附中模拟)判断如图所示的图形中具有相关关系的是( )
答案: C
解析:根据图象可得A,B为连续曲线,变量间的关系是确定的,不是相关关系,C中散点分布在一条直线附近,可得其线性相关,D中散点分布在一个长方形区域,即非线性相关,故选C.
4.对具有线性相关关系的变量x和y,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.
答案:=-10+6.5x
解析:由题意知=2,=3,=6.5,所以=-=3-6.5×2=-10,即回归直线的方程为=-10+6.5x.
5.部门所属的10个工业企业生产性固定资产价值与工业增加值资料如下表(单位:百万元):
固定资
产价值
3
3
5
6
6
7
8
9
9
10
工业增
加值
15
17
25
28
30
36
37
42
40
45
根据上表资料计算的相关系数为________.
答案:0.991 8
解析:==6.6.
==31.5.
∴r==0.991 8.
[误区警示]
不能正确判断两个变量是否具有相关关系而致错
[示例] 有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童数,如表所示:
人均GDP/万元
10
8
6
4
3
1
患白血病的
儿童数/人
351
312
207
175
132
180
(1)画出散点图,并判断这两个变量是否具有线性相关关系.
(2)设x为人均GDP,y为患白血病的儿童数.通过计算可知这两个变量的回归方程为=23.25x+102.15,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?
[错解] (1)根据表中数据画散点图,如图所示.从图中可以看出,虽然后5个点大致分布在一条直线的附近,但第一个点离这条直线太远,所以这两个变量不具有线性相关关系.
(2)上述断言是正确的,将x=12代入=23.25x+102.15,得=23.25×12+102.15=381.15>380.所以上述断言是正确的.
[正解] (1)根据表中数据画散点图,如图所示.从图中可以看出,除第1个点外,其余5个点大致分布在一条直线的附近,所以这两个变量具有线性相关关系.
(2)上述断言是错误的.将x=12代入=23.25x+102.15得=23.25×12+102.15=381.15>380,但381.15是对该城市人均GDP为12万元的情况所做的一个估计,故该城市患白血病的儿童可能超过380人,也可能等于或低于380人.
[题后总结] 判断是否具有线性相关关系,要看大部分点是否分布在一条直线附近,个别点是不影响大局的,由回归直线方程计算出来的值只是一个估计值,不能由它断言.
§1 一元线性回归
§2 成对数据的线性相关性
新课程标准
新学法解读
1.掌握散点图与曲线拟合的概念.
2.了解最小二乘法,会求一元线性回归方程.
3.理解线性相关系数公式并会简单应用.
1.会画散点图,并能利用散点图判断两个变量是否具有相关关系.
2.理解最小二乘法原理,会求回归直线方程.
3.掌握相关系数公式.
4.会用相关系数公式判断两个变量的线性相关性.
[笔记教材]
知识点一 散点图、直线拟合
1.散点图
直角坐标系中每个点对应的一对数据(xi,yi),称为成对数据,这些点构成的图形称为______________.
2.曲线拟合
从散点图上可以看出,如果变量之间存在着某种关系,这些点会有―个大致趋势,这种趋势通常可以用________来近似地描述,这样近似描述的过程称为曲线拟合.
3.直线拟合
若在两个变量X和Y 的散点图中,所有点看上去都在________附近波动,此时就可以用一条直线来近似地描述这两个量之间的关系,称之为直线拟合.
答案:1.散点图
2.一条光滑的曲线
3.一条直线
知识点二 一元线性回归方程
1.“最小二乘法”的含义
使样本点的纵坐标与直线上对应点的纵坐标差的平方和最小,即[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+yxn)]2________.
2.一元线性回归分析
(1)设样本点为(x1,y1),(x2,y2),…(xn,yn),直线方程Y=+X称作Y关于X的线性回归方程,相应的直线称作Y关于X的________,,是这个线性回归方程的系数.其中=________=________=________,=________,=________,=________.
(2)利用回归直线对总体进行估计
利用回归直线我们可以进行预测,若回归直线方程为Y=X+,则X=X0处的估计值为Y=________.
答案:1.最小
2.(1)回归直线 -
i i (2)X0+
知识点三 相关系数
1.相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为________.
2.相关系数r的计算
一般地,设随机变量X,Y的n组观测值分别为(x1,y1),(x2,y2 ),…,(x n,yn),记r=
==
,称r为随机变量X和Y的样本(线性)相关系数.
3.相关系数r的性质
(1)r的取值范围为________.
(2)|r|值越接近1,随机变量之间的线性相关程度越________.
(3)|r|值越接近0,随机变量之间的线性相关程度越________.
(4)利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若r>0.75,则线性相关较为显著,否则为不显著.
4.相关性的分类
(1)当________时,两个随机变量的值总体上变化越势相同,此时称两个随机变量正相关.
(2)当________时,两个随机变量的值总体上变化越势相反,此时称两个变量负相关.
(3)当________时,此时称两个随机变量线不相关.
答案:1.相关关系
3.(1)[-1,1] (2)强 (3)弱
4.(1)r>0 (2)r<0 (3)r=0
[重点理解]
1.对正、负相关的理解
在相关关系中,正、负相关只是代表一个趋势.以正相关为例,在散点图中,只要点散布在从左下角到右上角的区域,就说明这两个变量是正相关的,允许个别的点(xi,yi),(xj,yj) (i,j∈N+)满足当xi
2.求回归直线方程的注意点
对于任意一组样本数据,利用公式都可以求得“回归直线方程”,如果这组数据不具有线性相关关系,即不存在回归直线,那么所得的“回归直线方程”是没有实际意义的,因此,对于一组样本数据,应先作散点图观察,在具有线性相关关系的前提下再求回归直线方程.
[自我排查]
1.判断正误.(正确的画“√”,错误的画“”)
(1)回归方程中,由x的值得出的y值是准确值.()
(2)回归直线一定过点(,).(√)
(3)回归直线一定过样本中的某一个点.()
(4)选取一组数据中的部分点得到的回归方程与由整组数据得到的回归方程是同一个方程.()
(5)|r|越小,线性回归方程的拟合效果越好.()
(6)相关系数是用来衡量两个变量的线性相关性强弱的.(√)
(7)当相关系数r满足0≤r≤1时,回归系数也满足0≤b≤1.()
2.相关系数r的取值范围是( )
A.[-1,1] B.[-1,0]
C.[0,1] D.(-1,1)
答案:A
3.下列数据x,y符合哪一种函数模型( )
x
1
2
3
4
5
6
7
8
9
10
y
2
2.69
3
3.38
3.6
3.8
4
4.08
4.2
4.3
A.y=2+x B.y=2ex
C.y=2e D.y=2+ln x
答案:D
4.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得线性回归方程可能为( )
A.y=0.4x+2.3 B.y=2x-2.4
C.y=-2x+9.5 D.y=-0.3x+4.4
答案:A
5.(2022安徽池州模拟)某超市统计了最近5年的商品销售额与利润率数据,经计算相关系数r=0.862,则下列判断正确的是( )
A.商品销售额与利润率正相关,且具有较弱的相关关系
B.商品销售额与利润率正相关,且具有较强的相关关系
C.商品销售额与利润率负相关,且具有较弱的相关关系
D.商品销售额与利润率负相关,且具有较强的相关关系
答案:B
研习1 相关关系的判断
[典例1] (1)两个变量x,y与其线性相关系数r有下列说法:①若r>0,则x增大时,y也随之相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个散点均在一条直线上,其中正确的有( )
A.①② B.②③
C.①③ D.①②③
(2)有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和其身体健康情况;④正方形的边长和面积;⑤汽车的重量和百公里耗油量.其中两个变量成正相关的是( )
A.①③ B.②④
C.②⑤ D.④⑤
(1)[答案] C
[解析] 根据两个变量的相关性与其相关系数r之间的关系知,①③正确,②错误,故选C.
(2)[答案] C
[解析] 其中①③成负相关关系,②⑤成正相关关系,④成函数关系,故选C.
[巧归纳] 1.线性相关系数是从数值上来判断变量间的线性相关程度,是定量的方法.与观察散点图相比较,线性相关系数要精细得多,需要注意的是线性相关系数r的绝对值小,只是说明线性相关程度低,但不一定不相关,可能是非线性相关.
2.利用相关系数r来检验线性相关显著性水平时,通常与0.75作比较,若r>0.75,则线性相关较为显著,否则为不显著.
[练习1]下列两变量中具有相关关系的是( )
A.正方体的体积与边长
B.人的身高与体重
C.匀速行驶车辆的行驶距离与时间
D.球的半径与体积
答案:B
解析:选项A中正方体的体积为边长的立方,有固定的函数关系;选项C中匀速行驶车辆的行驶距离与时间成正比,也是函数关系;选项D中球的体积是π与半径的立方相乘,有固定函数关系.只有选项B中人的身高与体重具有相关关系.
研习2 回归直线方程
[典例2] 一台机器由于使用时间较长,生产的零件有一些会缺损,按不同转速生产出来的零件有缺损的统计数据如下表:
转速x(转/秒)
16
14
12
8
每小时生产缺损零件数y(件)
11
9
8
5
(1)作出散点图;
(2)如果y与x线性相关,求出线性回归方程;
(3)若实际生产中,允许每小时的产品中有缺损的零件最多为10个,那么,机器的运转速度应控制在什么范围?
(1)[解] 根据表中的数据画出散点图如图.
(2)[解] 设线性回归方程为=x+,并列表.
i
1
2
3
4
xi
16
14
12
8
yi
11
9
8
5
xiyi
176
126
96
40
=12.5,=8.25,x=660,xiyi=438,
所以=≈0.73,
=8.25-0.73×12.5=-0.875,所以=0.73x-0.875.
(3)[解] 令0.73x-0.875≤10,解得x≤14.9≈15,故机器的运转速度应控制在15转/秒内.
[巧归纳] 1.求回归直线方程的步骤:(1)在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系;(2)把数据制成表,从表中计算出,,x+x+…+x,x1y1+x2y2+…+xnyn的值;(3)计算,;(4)写出线性回归方程=+x.
2. 回归直线y=a+bx必过样本点(,),其中==yi.线性回归方程中的截距和斜率都是通过样本估计而得到的,存在着误差,这种误差可能导致预报结果的偏差,所以由线性回归方程给出的是一个预报值而非精确值.
[练习2]某班5名学生的数学和物理成绩如下表:
学生
学科
A
B
C
D
E
数学成绩(x)
88
76
73
66
63
物理成绩(y)
78
65
71
64
61
(1)画出散点图;
(2)求物理成绩y对数学成绩x的线性回归方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩.
(1)解:散点图如图.
(2)解:=×(88+76+73+66+63)=73.2,=×(78+65+71+64+61)=67.8.
iyi=88×78+76×65+73×71+66×64+63×61=25 054.
=882+762+732+662+632=27 174.所以==≈0.625.
=-≈67.8-0.625×73.2=22.05.所以y对x的线性回归方程是=22.05+0.625x.
(3)解:x=96,则y=0.625×96+22.05≈82,即可以预测他的物理成绩是82.
研习3 线性相关系数及其应用
[典例3] 近年来,随着互联网的发展,网约车服务在我国各地迅猛发展,为人们出行提供了便利,但也给城市交通管理带来了一些困难.为掌握网约车在M省的发展情况,M省某调查机构从该省抽取了5个城市,分别收集和分析了网约车的A,B两项指标数xi,yi(i=1,2,3,4,5),数据如下表所示:
城市1
城市2
城市3
城市4
城市5
A指标数x
2
4
5
6
8
B指标数y
3
4
4
4
5
经计算得:=2,=.
(1)试求y与x间的相关系数r,并利用r说明y与x是否具有较强的线性相关关系(若>0,75,则线性相关程度很高,可用线性回归模型拟合);
(2)求y关于x的回归方程,并预测当A指标数为7时,B指标数的估计值.
参考数据:≈0.55,≈0.95.
解:(1)==5,==4,xi-)(yi-)=6,相关系数r===≈0.95,因为r>0.75,所以y与x具有较强的线性相关关系,可用线性回归模型拟合y与x的关系.
(2)解:由(1)知,===,=-=4-×5=,
所以y与x之间线性回归方程为=x+,当x=7时,=×7+=4.6.
当A指标数为7时,B指标数的估计值为4.6.
[巧归纳] 1.散点图只能直观判断两变量是否具有相关关系.
2.相关系数能精确刻画两变量线性相关关系的强弱.
[练习3](2022江苏南京秦淮中学模拟)(多选题)为了对变量x与y的线性相关性进行检验,由样本点(x1,y1),(x2,y2),…,(x10,y10)求得两个变量的样本相关系数为r,那么下面说法中错误的有( )
A.若所有样本点都在直线y=-2x+1上,则r=1
B.若所有样本点都在直线y=-2x+1上,则r=-2
C.若越大,则变量x与y的线性相关性越强
D.若越小,则变量x与y的线性相关性越强
答案:ABD
解析:若所有样本点都在直线y=-2x+1上,则|r|=1,又直线斜率为负数,则r=-1,A,B选项均错误;
若|r|越大,则变量x与y的线性相关性越强,C选项正确,D选项错误.故选ABD.
研习4 非线性回归问题
[典例4] 某地区不同身高的未成年男性的体重平均值如下表:
身高
x(cm)
60
70
80
90
100
110
体重
y(kg)
6.13
7.90
9.99
12.15
15.02
17.50
身高
x(cm)
120
130
140
150
160
170
体重
y(kg)
20.92
26.86
31.11
38.85
47.25
55.05
(1)试建立y与x之间的回归方程;
(2)如果一名在校男生身高为168 cm,预测他的体重约为多少?
(1)[解] 根据表中的数据画出散点图,如图:
由图看出,这些点分布在某条指数型函数曲线y=c1ec2x的周围,于是令z=ln y,列表如下:
x
60
70
80
90
100
110
z
1.81
2.07
2.30
2.50
2.71
2.86
x
120
130
140
150
160
170
z
3.04
3.29
3.44
3.66
3.86
4.01
作出散点图,如图:
由表中数据可求得z与x之间的回归直线方程为=0.693+0.020x,则有y=e0.693+0.020x.
(2)[解] 由(1)知,当x=168时,y=e0.693+0.020×168≈57.57,所以在校男生身高为168 cm,预测他的体重约为57.57 kg.
[巧归纳] 两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y=c1ec2x,我们可以通过对数变换把指数关系变为线性关系,令z=ln y,则变换后样本点应该分布在直线z=bx+a(a=ln c1,b=c2)的周围.
[练习4]为了研究某种细菌随时间x变化繁殖个数y的变化,收集数据如下:
时间x/天
1
2
3
4
5
6
繁殖个数y
6
12
25
49
95
190
(1)作出这些数据的散点图;
(2)求y与x之间的回归方程.
(1)解:散点图如图所示,
(2)解:由散点图看出样本点分布在一条指数函数y=c1ec2x图象的周围,于是令z=ln y,则
x
1
2
3
4
5
6
z
1.79
2.48
3.22
3.89
4.55
5.25
由计算器算得z=0.69x+1.112,
则有y=e0.69x+1.112.
1.下列结论正确的是( )
①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①② B.①②③
C.①②④ D.①②③④
答案:C
解析:函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故③错误,④正确.
2.下表是x和y之间的一组数据,则y关于x的线性回归方程必过点( )
x
1
2
3
4
y
1
3
5
7
A.(2,3) B.(1.5,4)
C.(2.5,4) D.(2.5,5)
答案:C
解析:线性回归方程必过样本点的中心(,),即(2.5,4),故选C.
3.(2022广西玉林师院附中模拟)判断如图所示的图形中具有相关关系的是( )
答案: C
解析:根据图象可得A,B为连续曲线,变量间的关系是确定的,不是相关关系,C中散点分布在一条直线附近,可得其线性相关,D中散点分布在一个长方形区域,即非线性相关,故选C.
4.对具有线性相关关系的变量x和y,由测得的一组数据求得回归直线的斜率为6.5,且恒过(2,3)点,则这条回归直线的方程为________.
答案:=-10+6.5x
解析:由题意知=2,=3,=6.5,所以=-=3-6.5×2=-10,即回归直线的方程为=-10+6.5x.
5.部门所属的10个工业企业生产性固定资产价值与工业增加值资料如下表(单位:百万元):
固定资
产价值
3
3
5
6
6
7
8
9
9
10
工业增
加值
15
17
25
28
30
36
37
42
40
45
根据上表资料计算的相关系数为________.
答案:0.991 8
解析:==6.6.
==31.5.
∴r==0.991 8.
[误区警示]
不能正确判断两个变量是否具有相关关系而致错
[示例] 有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童数,如表所示:
人均GDP/万元
10
8
6
4
3
1
患白血病的
儿童数/人
351
312
207
175
132
180
(1)画出散点图,并判断这两个变量是否具有线性相关关系.
(2)设x为人均GDP,y为患白血病的儿童数.通过计算可知这两个变量的回归方程为=23.25x+102.15,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?
[错解] (1)根据表中数据画散点图,如图所示.从图中可以看出,虽然后5个点大致分布在一条直线的附近,但第一个点离这条直线太远,所以这两个变量不具有线性相关关系.
(2)上述断言是正确的,将x=12代入=23.25x+102.15,得=23.25×12+102.15=381.15>380.所以上述断言是正确的.
[正解] (1)根据表中数据画散点图,如图所示.从图中可以看出,除第1个点外,其余5个点大致分布在一条直线的附近,所以这两个变量具有线性相关关系.
(2)上述断言是错误的.将x=12代入=23.25x+102.15得=23.25×12+102.15=381.15>380,但381.15是对该城市人均GDP为12万元的情况所做的一个估计,故该城市患白血病的儿童可能超过380人,也可能等于或低于380人.
[题后总结] 判断是否具有线性相关关系,要看大部分点是否分布在一条直线附近,个别点是不影响大局的,由回归直线方程计算出来的值只是一个估计值,不能由它断言.
相关资料
更多