高中数学人教A版 (2019)选择性必修第三册8.2 一元线性回归模型及其应用评课ppt课件

展开

这是一份高中数学人教A版 (2019)选择性必修第三册8.2 一元线性回归模型及其应用评课ppt课件，共33页。PPT课件主要包含了得到散点图如右，经计算得，表1-3，最小二乘法，什么是回归分析等内容，欢迎下载使用。

对于一组具有线性相关关系的数据
我们知道其经验回归方程的截距和斜率的最小二乘估计公式分别为：
残差图：作图时纵坐标为残差,横坐标可以选为样本编号，解释变量或响应变量，这样作出的图形称为残差图．
例1.经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难，因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.
解: 以胸径为横坐标,树高为纵坐标作散点图如下：
散点大致分布在一条从左下角到右上角的直线附近，表明两个变量线性相关，并且是正相关，因此可以用一元线性回归模型刻画树高与胸径之间的关系.
用d表示胸径,h表示树高,根据据最小二乘法,计算可得经验回归方程为
根据经验回归方程，由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差，如下表所示.
以胸径为横坐标，残差为纵坐标，作残差图，得到下图.
观察残差表和残差图，可以看到残差的绝对值最大是 0.8，所有残差分布在以横轴为对称轴、宽度小于2的带状区域内 .可见经验回归方程较好地刻画了树高与胸径的关系，我们可以根据经验回归方程由胸径预测树高.
例2.人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据，建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程
以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图
在左图中，散点看上去大致分布在一条直线附近，似乎可用一元线性回归模型建立经验回归方程.
用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份 ,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系 . 根据最小二乘法,由表中的数据得到经验回归方程为：
将经验回归直线叠加到散点图，得到下图：
仔细观察：从图中可以看到，经验回归方程较好地刻画了散点的变化趋势，请再仔细观察图形，你能看出其中存在的问题吗?
第一个世界纪录所对应的散点远离经验回归直线，并且前后两时间段中的散点都在经验回归直线的上方，中间时间段的散点都在经验回归直线的下方.
这说明散点并不是随机分布在经验回归直线的周围，而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.
回顾已有的函数知识，可以发现函数y=-lnx的图象具有类似的形状特征
思考：你能对模型进行修改,以使其更好地反映散点的分布特征吗？
仔细观察左图，可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.
注意到100m短跑的第一个世界纪录产生于1896年, 因此可以认为散点是集中在曲线y=f(t)=c1+c2ln(t-1895)的周围，其中c1、c2为未知参数，且c2<0.
用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中c1，c2是待定参数,现在问题转化为如何利用成对数据估计参数c1和c2
令x=ln(t-1895)，则 Y=c2x+c1
对数据进行变化可得下表：
由表中的数据得到经验回归方程为：
上图表明,经验回归方程对于成对数据具有非常好的拟合精度.
将x=ln(t-1895)代入：
对于通过创纪录时间预报世界纪录的问题，我们建立了两个回归模型，得到了两个回归方程，你能判断哪个回归方程拟合的精度更好吗？
我们发现，散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.
(1).直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).
（2).残差分析:残差平方和越小,模型拟合效果越好.
Q2明显小于Q1，说明非线性回归方程的拟合效果要优于线性回归方程.
（3).利用决定系数R2刻画回归效果.
①和②的R2分别为0.7325和0.9983说明非线性回归方程的拟合效果要优于线性回归方程
R2越大，表示残差平方和越小,即模型的拟合效果越好R2越小，表示残差平方和越大，即模型拟合效果越差.
不用死记硬背，这里的R=r，所以相关系数r越大，自然模型拟合效果越好。
(4)用新的观测数据来检验模型的拟合效果,事实上,我们还有1968年之后的男子短跑100m世界纪录数据,如表所示
在散点图中,绘制表中的散点(绿色),再添加经验回归方程①所对应的经验回归直线(红色),以及经验回归方程②所对应的经验回归曲线(蓝色),得到右图.显然绿色散点分布在蓝色经验回归曲线的附近,远离红色经验回归直线,表明经验回归方程②对于新数据的预报效果远远好于①.
思考：在上述问题情境中,男子短跑100m世界纪录和纪录创建年份之间呈现出对数关系,能借助于样本相关系数刻画这种关系的强弱吗?
在使用经验回归方程进行预测时,需要注意下列问题: (1)经验回归方程只适用于所研究的样本的总体,例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系,同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干早地区的树高与胸径之间的关系。 (2)经验回归方程一般都有时效性,例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系。 (3)解释变量的取值不能离样本数据的范围太远,一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差, (4)不能期望经验回归方程得到的预报值就是响应变量的精确值,事实上,它是响应变量的可能取值的平均值。
一只药用昆虫的产卵数y与一定范围内的温度x有关，现收集了6组观测数据列于表中：
线性回归残差的平方和:
引申：用拟合效果好的模型预测温度为35℃时该种药用昆虫的产卵数.(结果取整数)
探究P4：身高为172cm的女大学生的体重一定是60.316kg吗？如果不是，你能解析一下原因吗？
答：身高为172cm的女大学生的体重不一定是60.316kg，但一般可以认为她的体重在60.316kg左右。
60.316kg不是每个身高为172cm的女大学生的体重的预测值，而是所有身高为172cm的女大学生平均体重的预测值。
思考P6：如何刻画预报变量（体重）的变化？这个变化在多大程度上与解析变量（身高）有关？在多大程度上与随机误差有关？
假设身高和随机误差的不同不会对体重产生任何影响，那么所有人的体重将相同。在体重不受任何变量影响的假设下，设8名女大学生的体重都是她们的平均值，即8个人的体重都为54.5kg。
在散点图中，所有的点应该落在同一条水平直线上，但是观测到的数据并非如此。这就意味着预报变量（体重）的值受解析变量（身高）和随机误差的影响。
例如，编号为6的女大学生的体重并没有落在水平直线上，她的体重为61kg。解析变量（身高）和随机误差共同把这名学生的体重从54.5kg“推”到了61kg，相差6.5kg，所以6.5kg是解析变量和随机误差的组合效应。
编号为3的女大学生的体重并也没有落在水平直线上，她的体重为50kg。解析变量（身高）和随机误差共同把这名学生的体重从50kg“推”到了54.5kg，相差-4.5kg，这时解析变量和随机误差的组合效应为-4.5kg。
用这种方法可以对所有预报变量计算组合效应。
在例1中，总偏差平方和为354。
那么，在这个总的效应（总偏差平方和）中，有多少来自于解析变量（身高）？有多少来自于随机误差？
假设随机误差对体重没有影响，也就是说，体重仅受身高的影响，那么散点图中所有的点将完全落在回归直线上。但是，在图中，数据点并没有完全落在回归直线上。这些点散布在回归直线附近，所以一定是随机误差把这些点从回归直线上“推”开了。
在例3中，残差平方和约为128.361。
例如，编号为6的女大学生，计算随机误差的效应（残差）为：
解析变量和随机误差的总效应（总偏差平方和）=解析变量的效应（回归平方和）+随机误差的效应（残差平方和）
显然，R2的值越大，说明残差平方和越小，也就是说模型拟合效果越好。
在线性回归模型中，R2表示解析变量对预报变量变化的贡献率。
R2越接近1，表示回归的效果越好（因为R2越接近1，表示解析变量和预报变量的线性相关性越强）。
以上是自然而然的事，是顺理成章的事，一点也不别扭,。
从表1-3中可以看出，解析变量对总效应约贡献了64%，即R2≈0.64，可以叙述为“身高解析了64%的体重变化”，而随机误差贡献了剩余的36%。所以，身高对体重的效应比随机误差的效应大得多。
我们可以利用图形来分析残差特性，作图时纵坐标为残差，横坐标可以选为样本编号，或身高数据，或体重估计值等，这样作出的图形称为残差图。
表1-4列出了女大学生身高和体重的原始数据以及相应的残差数据。
残差图的制作及作用。坐标纵轴为残差变量，横轴可以有不同的选择；若模型选择的正确，残差图中的点应该分布在以横轴为心的带形区域；对于远离横轴的点，要特别注意。
几点说明：第一个样本点和第6个样本点的残差比较大，需要确认在采集过程中是否有人为的错误。如果数据采集有错误，就予以纠正，然后再重新利用线性回归模型拟合数据；如果数据采集没有错误，则需要寻找其他的原因。另外，残差点比较均匀地落在水平的带状区域中，说明选用的模型比较合适，这样的带状区域的宽度越窄，说明模型拟合精度越高，回归方程的预报精度越高。
3.判断模型拟合的效果:残差分析
显然0≤R2≤1，R2越接近1，则线性回归刻画的效果越好. 在一元线性回归模型中 R2=r2，即决定系数R2等于响应变量与解释变量的样本相关系数r的平方.
“回归”一词是由英国生物学家F.Galtn在研究人体身高的遗传问题时首先提出的。
根据遗传学的观点，子辈的身高受父辈影响，以X记父辈身高，Y记子辈身高。虽然子辈身高一般受父辈影响，但同样身高的父亲，其子身高并不一致，因此，X和Y之间存在一种相关关系。
一般而言，父辈身高者，其子辈身高也高，依此推论，祖祖辈辈遗传下来，身高必然向两极分化，而事实上并非如此，显然有一种力量将身高拉向中心，即子辈的身高有向中心回归的特点。“回归”一词即源于此。
虽然这种向中心回归的现象只是特定领域里的结论，并不具有普遍性，但从它所描述的关于X为自变量，Y为不确定的因变量这种变量间的关系看，和我们现在的回归含义是相同的。
不过，现代回归分析虽然沿用了“回归”一词，但内容已有很大变化，它是一种应用于许多领域的广泛的分析研究方法，在经济理论研究和实证研究中也发挥着重要作用。