还剩11页未读,
继续阅读
所属成套资源:全套人教B版高中数学选择性必修第二册课时学案+课件
成套系列资料,整套一键下载
人教B版高中数学选择性必修第二册第4章4-3-1第2课时相关系数与非线性回归学案
展开
这是一份人教B版高中数学选择性必修第二册第4章4-3-1第2课时相关系数与非线性回归学案,共14页。
第2课时 相关系数与非线性回归据某资讯数据统计,2017~2019年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2017年二者相关系数高达90.86%,2018年降至83.97%,2019年截止到10月底二者相关系数为65.23%.问题:什么是相关系数,如何计算?[提示] 相关系数用来衡量变量间的线性关系,r=eq \f(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))2\o(∑,\s\up6(n),\s\do6(i=1)) yi-\o(y,\s\up6(-))2)).知识点1 相关系数(1)定义:统计学里一般用r=eq \f(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))2\o(∑,\s\up6(n),\s\do6(i=1)) yi-\o(y,\s\up6(-))2))=eq \f(\o(∑,\s\up6(n),\s\do6(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do6(i=1))x\o\al(2,i)-n\o(x,\s\up6(-))2\o(∑,\s\up6(n),\s\do6(i=1))y\o\al(2,i)-n\o(y,\s\up6(-))2))来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).(2)性质①|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;②|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值;③|r|=1的充要条件是成对数据构成的点都在回归直线上.1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )A.甲 B.乙 C.丙 D.丁D [r的绝对值越接近1,相关性越强,故选D.]知识点2 非线性回归方程如果具有相关关系的两个变量x,y不是线性相关关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).如何猜测非线性回归方程的类型?[提示] 可以通过作出散点图,结合已学的函数模型进行猜测.拓展:常见的非线性回归方程的转换方式如下:2.在一项调查中有两个变量x和y,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y关于x的回归方程的函数类型是( )A.y=a+bx B.y=c+deq \r(x)C.y=m+nx2 D.y=p+qcx(q>0)B [散点图呈曲线,排除A选项,且增长速度变慢,排除选项C、D,故选B.] 类型1 相关系数的性质【例1】 (1)相关变量x,y的散点图如图所示,现对这两个变量进行线性相关性分析.方案一:根据图中所有数据,得到回归直线方程eq \o(y,\s\up6(^))=eq \o(b,\s\up6(^))1x+eq \o(a,\s\up6(^))1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到回归直线方程:eq \o(y,\s\up6(^))=eq \o(b,\s\up6(^))2x+eq \o(a,\s\up6(^))2,相关系数为r2,则( )A.0<r1<r2<1 B.0<r2<r1<1C.-1<r1<r2<0 D.-1<r2<r1<0(2)设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线方程的回归系数为eq \o(b,\s\up6(^)),回归截距是eq \o(a,\s\up6(^)),那么必有( )A.eq \o(b,\s\up6(^))与r的符号相同 B.eq \o(a,\s\up6(^))与r的符号相同C.eq \o(b,\s\up6(^))与r的符号相反 D.eq \o(a,\s\up6(^))与r的符号相同(1)D (2)A [(1)由散点图得x与y负相关,所以r1,r2<0,因为剔除点(10,21)后,剩下的数据更具有线性相关性,|r2|更接近1,所以-1<r2<r1<0.(2)由公式可知eq \o(b,\s\up6(^))与r的符号相同.]线性相关强弱的判断方法(1)散点图(越接近直线,相关性越强).(2)相关系数(绝对值越接近1,相关性越强).[跟进训练]1.如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的点是( )A.D B.E C.F D.AB [因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强.因为点E到直线的距离最远,所以去掉点E,余下的5个点所对应的数据的相关系数最大.] 类型2 相关系数的计算及应用【例2】 假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:已知eq \o(∑,\s\up6(5),\s\do6(i=1))xeq \o\al(2,i)=90,eq \o(∑,\s\up6(5),\s\do6(i=1))yeq \o\al(2,i)≈140.8,eq \o(∑,\s\up6(5),\s\do6(i=1))xiyi=112.3,eq \r(79)≈8.9,eq \r(2)≈1.4.(1)计算y与x之间的相关系数(精确到0.001),并求出回归直线方程;(2)根据回归直线方程,预测假设使用年限为10年时,维修费用约是多少万元?[解] (1)因为eq \o(x,\s\up6(-))=eq \f(2+3+4+5+6,5)=4,eq \o(y,\s\up6(-))=eq \f(2.2+3.8+5.5+6.5+7.0,5)=5.eq \o(∑,\s\up6(5),\s\do6(i=1))xiyi-5eq \o(x,\s\up6(-))eq \o(y,\s\up6(-))=112.3-5×4×5=12.3,eq \o(∑,\s\up6(5),\s\do6(i=1))xeq \o\al(2,i)-5eq \o(x,\s\up6(-))2=90-5×42=10,eq \o(∑,\s\up6(5),\s\do6(i=1))yeq \o\al(2,i)-5eq \o(y,\s\up6(-))2=140.8-125=15.8,所以r=eq \f(12.3,\r(10×15.8))=eq \f(12.3,\r(158))=eq \f(12.3,\r(2)×\r(79))≈eq \f(12.3,1.4×8.9)≈0.987.又eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(5),\s\do6(i=1))xiyi-5\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(5),\s\do6(i=1))x\o\al(2,i)-5\o(x,\s\up6(-))2)=eq \f(112.3-5×4×5,90-5×42)=1.23.eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(x,\s\up6(-))=5-1.23×4=0.08.所以回归直线方程为eq \o(y,\s\up6(^))=1.23x+0.08.(2)当x=10时,eq \o(y,\s\up6(^))=1.23×10+0.08=12.38(万元),即假设使用10年时,维修费用约为12.38万元.[跟进训练]2.某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:(1)计算x与y之间的相关系数,并求其回归直线方程;(2)若实际销售额不少于80百万元,则原料耗费应该不少于多少?[解] (1)画出(x,y)的散点图如图所示,由图可知x,y有线性关系.eq \o(x,\s\up6(-))=5,eq \o(y,\s\up6(-))=47.5,eq \o(∑,\s\up6(4),\s\do6(i=1))xeq \o\al(2,i)=120,eq \o(∑,\s\up6(4),\s\do6(i=1))yeq \o\al(2,i)=9 900,eq \o(∑,\s\up6(4),\s\do6(i=1))xiyi=1 080,故相关系数r=eq \f(\o(∑,\s\up6(4),\s\do6(i=1))xiyi-4\o(x,\s\up6(-))\o(y,\s\up6(-)),\r(\o(∑,\s\up6(4),\s\do6(i=1))x\o\al(2,i)-4\o(x,\s\up6(-))2\o(∑,\s\up6(4),\s\do6(i=1))y\o\al(2,i)-4\o(y,\s\up6(-))2))=eq \f(1 080-4×5×47.5,\r(120-4×529 900-4×47.52))≈0.982 7.eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(4),\s\do6(i=1))xiyi-4\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(4),\s\do6(i=1))x\o\al(2,i)-4\o(x,\s\up6(-))2)=eq \f(1 080-4×5×47.5,120-4×52)=6.5,eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(x,\s\up6(-))=47.5-6.5×5=15.故回归直线方程为eq \o(y,\s\up6(^))=6.5x+15.(2)由回归直线方程知,当eq \o(y,\s\up6(^))≥80,即6.5x+15≥80时,x≥10.故原料耗费应不少于10百万元. 类型3 非线性回归方程已知x和y之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?①y=3×2x-1;②y=log2x;③y=4x;④y=x2.[提示] 作出散点图(图略),观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.①作为回归模型最好.【例3】 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(单位:元)与生产该产品的数量x(单位:千件)有关,经统计得到如下数据:根据以上数据,绘制了散点图.观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型y=a+eq \f(b,x)和指数函数模型y=cedx分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为eq \o(y,\s\up6(^))=96.54e-0.2x,ln y与x的相关系数r1=-0.94.参考数据eq \b\lc\(\rc\)(\a\vs4\al\co1(其中ui=\f(1,xi))):(1)用反比例函数模型求y关于x的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出).根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选择100元还是90元,请说明理由.参考公式:对于一组数据(u1,υ1),(u2,υ2),…,(un,υn),其回归直线方程eq \o(υ,\s\up6(^))=eq \o(α,\s\up6(^))+eq \o(β,\s\up6(^))u的斜率和截距的最小二乘估计公式分别为:eq \o(β,\s\up6(^))=eq \f(\o(∑,\s\up6(n),\s\do6(i=1))uiυi-n\o(u,\s\up6(-))\o(υ,\s\up6(-)),\o(∑,\s\up6(n),\s\do6(i=1))u\o\al(2,i)-n\o(u,\s\up6(-))2),eq \o(a,\s\up6(^))=eq \o(υ,\s\up6(-))-eq \o(β,\s\up6(^))eq \o(u,\s\up6(-)),相关系数r=eq \f(\o(∑,\s\up6(n),\s\do6(i=1))uiυi-n\o(u,\s\up6(-))\o(υ,\s\up6(-)),\r(\b\lc\(\rc\)(\a\vs4\al\co1(\o(∑,\s\up6(n),\s\do6(i=1))u\o\al(2,i)-n\o(u,\s\up6(-))2))\b\lc\(\rc\)(\a\vs4\al\co1(\o(∑,\s\up6(n),\s\do6(i=1))υ\o\al(2,i)-n\o(υ,\s\up6(-))2)))).[思路点拨] (1)首先可令u=eq \f(1,x)并将y=a+eq \f(b,x)转化为y=a+bu,然后根据题目所给数据以及线性回归方程的相关公式计算出eq \o(b,\s\up6(^))以及eq \o(a,\s\up6(^)),即可得出结果;(2)计算出反比例函数模型的相关系数r并通过对比即可得出结果;(3)可分别计算出单价为100元和90元时产品的利润,通过对比即可得出结果.[解] (1)令u=eq \f(1,x),则y=a+eq \f(b,x)可转化为y=a+bu,因为eq \o(y,\s\up6(-))=eq \f(360,8)=45,所以eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(8),\s\do6(i=1))uiyi-8\o(u,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(8),\s\do6(i=1))u\o\al(2,i)-8\o(u,\s\up6(-))2)=eq \f(183.4-8×0.34×45,1.53-8×0.115)=eq \f(61,0.61)=100,则eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(u,\s\up6(-))=45-100×0.34=11,所以eq \o(y,\s\up6(^))=11+100u,所以y关于x的回归方程为eq \o(y,\s\up6(^))=11+eq \f(100,x).(2)y与eq \f(1,x)的相关系数为:r2=eq \f(\o(∑,\s\up6(8),\s\do6(i=1))uiyi-8\o(u,\s\up6(-))\o(y,\s\up6(-)),\r(\b\lc\(\rc\)(\a\vs4\al\co1(\o(∑,\s\up6(8),\s\do6(i=1))u\o\al(2,i)-8\o(u,\s\up6(-))2))\b\lc\(\rc\)(\a\vs4\al\co1(\o(∑,\s\up6(8),\s\do6(i=1))y\o\al(2,i)-8\o(y,\s\up6(-))2))))=eq \f(61,\r(0.61×6 185.5))≈0.99.因为|r1|<|r2|,所以用反比例函数模型拟合效果更好,当x=10时,y=eq \f(100,10)+11=21(元),所以当产量为10千件时,每件产品的非原料成本为21元.(3)①当产品单价为100元,设订单数为x千件,因为签订9千件订单的概率为0.8,签订10千件订单的概率为0.2,所以E(x)=9×0.8+10×0.2=9.2,所以企业利润为100×9.2-9.2×eq \b\lc\(\rc\)(\a\vs4\al\co1(\f(100,9.2)+21))=626.8(千元).②当产品单价为90元,设订单数为y千件,因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7,所以E(y)=10×0.3+11×0.7=10.7,所以企业利润为90×10.7-10.7×eq \b\lc\(\rc\)(\a\vs4\al\co1(\f(100,10.7)+21))=638.3(千元).故企业要想获得更高利润,产品单价应选择90元.非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:[跟进训练]3.二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:下面是z关于x的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;(2)求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少? (eq \o(b,\s\up6(^)),eq \o(a,\s\up6(^))小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:eq \o(∑,\s\up6(6),\s\do6(i=1))xiyi=187.4,eq \o(∑,\s\up6(6),\s\do6(i=1))xizi=47.64,eq \o(∑,\s\up6(6),\s\do6(i=1))xeq \o\al(2,i)=139,eq \r(\o(∑,\s\up6(6),\s\do6(i=1)) xi-\o(x,\s\up6(-))2)≈4.18,eq \r(\o(∑,\s\up6(6),\s\do6(i=1)) yi-\o(y,\s\up6(-))2)=13.96,eq \r(\o(∑,\s\up6(6),\s\do6(i=1)) zi-\o(z,\s\up6(-))2)=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.参考公式:回归直线方程eq \o(y,\s\up6(^))=eq \o(b,\s\up6(^))x+eq \o(a,\s\up6(^))中斜率和截距的最小二乘估计公式分别为:eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))2)=eq \f(\o(∑,\s\up6(n),\s\do6(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do6(i=1))x\o\al(2,i)-n\o(x,\s\up6(-))2),eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(x,\s\up6(-)).r=eq \f(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))2\o(∑,\s\up6(n),\s\do6(i=1)) yi-\o(y,\s\up6(-))2)),eq \o(x,\s\up6(-)),eq \o(y,\s\up6(-))为样本平均值.[解] (1)由题意,计算eq \o(x,\s\up6(-))=eq \f(1,6)×(2+3+4+5+6+7)=4.5,eq \o(z,\s\up6(-))=eq \f(1,6)×(3+2.48+2.08+1.86+1.48+1.10)=2,且eq \o(∑,\s\up6(6),\s\do6(i=1))xizi=47.64,eq \r(\o(∑,\s\up6(6),\s\do6(i=1)) xi-\o(x,\s\up6(-))2)≈4.18,eq \r(\o(∑,\s\up6(6),\s\do6(i=1)) zi-\o(z,\s\up6(-))2)=1.53,所以r=eq \f(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))zi-\o(z,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))2\o(∑,\s\up6(n),\s\do6(i=1)) zi-\o(z,\s\up6(-))2))=eq \f(47.64-6×4.5×2,4.18×1.53)=-eq \f(6.36,6.395 4)≈-0.99.所以z与x的相关系数大约为-0.99,说明z与x的线性相关程度很高.(2)利用最小二乘估计公式计算eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(n),\s\do6(i=1))xizi-n\o(x,\s\up6(-))\o(z,\s\up6(-)),\o(∑,\s\up6(n),\s\do6(i=1))x\o\al(2,i)-n\o(x,\s\up6(-))2)=eq \f(47.64-6×4.5×2,139-6×4.52)=-eq \f(6.36,17.5)≈-0.36,所以eq \o(a,\s\up6(^))=eq \o(z,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(x,\s\up6(-))=2+0.36×4.5=3.62,所以z关于x的回归直线方程是eq \o(z,\s\up6(^))=-0.36x+3.62,又z=ln y,所以y关于x的回归方程是eq \o(y,\s\up6(^))=e-0.36x+3.62.令x=9,解得eq \o(y,\s\up6(^))=e-0.36×9+3.62≈1.46,即预测某辆A型号二手车当使用年数为9年时售价约1.46万元.(3)当eq \o(y,\s\up6(^))≥0.711 8时,e-0.36x+3.62≥0.711 8=eln 0.711 8=e-0.34,所以-0.36x+3.62≥-0.34,解得x≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年.1.两个变量之间的线性相关程度越低,其线性相关系数的数值( )A.越接近于-1 B.越接近于0C.越接近于1 D.越小B [由相关系数的含义可得:两个变量之间的线性相关程度越低,其线性相关系数的数值越接近于0.故选B.]2.如图所示,给出了样本容量均为7的A,B两组样本数据的散点图,已知A组样本数据的相关系数为r1,B组数据的相关系数为r2,则( )A.r1=r2 B.r1<r2 C.r1>r2 D.无法判定C [根据A,B两组样本数据的散点图知,A组样本数据几乎在一条直线上,且成正相关,∴相关系数为r1应最接近1,B组数据分散在一条直线附近,也成正相关,∴相关系数为r2,满足r2r2,故选C.]3.对于线性相关系数r,叙述正确的是( )A.r∈(-∞,+∞),且r越大,相关程度越大B.r∈(-∞,+∞),且|r|越大,相关程度越大C.r∈[-1,1],且r越大,相关程度越大D.r∈[-1,1],且|r|越大,相关程度越大D [相关系数r是来衡量两个变量之间的线性相关程度的,线性相关系数是一个绝对值小于等于1的量,并且它的绝对值越大就说明相关程度越大.故选D.]4.若回归直线方程中的回归系数eq \o(b,\s\up6(^))=0,则相关系数r=____.0 [相关系数r=eq \f(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))2\o(∑,\s\up6(n),\s\do6(i=1)) yi-\o(y,\s\up6(-))2))与eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))2)的分子相同,故r=0.]5.在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的相关系数为________.-1 [法一:eq \o(x,\s\up6(-))=1.5,eq \o(y,\s\up6(-))=1,eq \o(∑,\s\up6(4),\s\do6(i=1))xeq \o\al(2,i)=22,eq \o(∑,\s\up6(4),\s\do6(i=1))yeq \o\al(2,i)=56,eq \o(∑,\s\up6(4),\s\do6(i=1))xiyi=-20,相关系数r=eq \f(-20-4×1.5×1,\r(22-4×1.5256-4×12))=-1.法二:观察四个点,发现其在一条单调递减的直线上,故y与x的相关系数为-1.]回顾本节内容,自主完成以下问题.1.你对相关系数是怎样认识的?[提示] (1)样本的相关系数r可以定量地反映出变量间的相关程度,明确给出有无必要建立两变量间的回归方程.(2)|r|很小只是说明两个变量之间的线性相关程度弱,但不一定不相关.2.散点图和相关系数都可以确定两个变量之间是否具备相关关系,两者有何区别与联系?[提示] (1)散点图从形的角度来判断;相关系数r则是从数的角度来判断.(2)判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用样本相关系数来判断.(3)样本相关系数r只能描述两个变量之间的变化方向及密切程度,不能揭示二者之间的本质联系.(4)样本相关系数r可以定量地反映出变量间的相关程度,明确的给出有无必要建立两变量间的回归直线方程.1.了解两个变量间的线性相关系数r,并能利用公式求相关系数r.(重点)2.能利用相关系数r判断两个变量线性相关程度的大小,从而判断回归直线方程拟合的效果.(重点)3.掌握非线性回归转化为线性回归的方法,会求非线性回归方程,并作出预测.(难点)1.通过学习相关系数,培养数学运算的素养.2.借助非线性回归方程的学习,提升数据分析和数学建模的素养.同学甲乙丙丁r0.820.780.690.85曲线方程曲线(曲线的一部分)变换公式变换后的线性函数y=axbc=ln av=ln xu=ln yu=c+bvy=aebxc=ln au=ln yu=c+bxy=aeeq \s\up12(eq \f(b,x))c=ln av=eq \f(1,x) u=ln yu=c+bvy=a+bln xv=ln xy=a+bvx23456y2.23.85.56.57.0x2468y30405070x123y35.9912.01x12345678y1126144.53530.5282524eq \o(∑,\s\up6(8),\s\do6(i=1))uiyieq \o(u,\s\up6(-))eq \o(u,\s\up6(-))2eq \o(∑,\s\up6(8),\s\do6(i=1))ueq \o\al(2,i)eq \o(∑,\s\up6(8),\s\do6(i=1))yieq \o(∑,\s\up6(8),\s\do6(i=1))yeq \o\al(2,i)eq \r(0.61×6 185.5)e-2183.40.340.1151.5336022 385.561.40.135使用年数x234567售价y201286.44.43z=ln y3.002.482.081.861.481.10
第2课时 相关系数与非线性回归据某资讯数据统计,2017~2019年截止到10月底的数据显示,聚丙烯期货价格及现货价格二者相关系数为88.70%,其中2017年二者相关系数高达90.86%,2018年降至83.97%,2019年截止到10月底二者相关系数为65.23%.问题:什么是相关系数,如何计算?[提示] 相关系数用来衡量变量间的线性关系,r=eq \f(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))2\o(∑,\s\up6(n),\s\do6(i=1)) yi-\o(y,\s\up6(-))2)).知识点1 相关系数(1)定义:统计学里一般用r=eq \f(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))2\o(∑,\s\up6(n),\s\do6(i=1)) yi-\o(y,\s\up6(-))2))=eq \f(\o(∑,\s\up6(n),\s\do6(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do6(i=1))x\o\al(2,i)-n\o(x,\s\up6(-))2\o(∑,\s\up6(n),\s\do6(i=1))y\o\al(2,i)-n\o(y,\s\up6(-))2))来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).(2)性质①|r|≤1,且y与x正相关的充要条件是r>0,y与x负相关的充要条件是r<0;②|r|越小,说明两个变量之间的线性相关性越弱,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越大,说明两个变量之间的线性相关性越强,也就是得出的回归直线方程越有价值;③|r|=1的充要条件是成对数据构成的点都在回归直线上.1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r如下表:则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )A.甲 B.乙 C.丙 D.丁D [r的绝对值越接近1,相关性越强,故选D.]知识点2 非线性回归方程如果具有相关关系的两个变量x,y不是线性相关关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程).如何猜测非线性回归方程的类型?[提示] 可以通过作出散点图,结合已学的函数模型进行猜测.拓展:常见的非线性回归方程的转换方式如下:2.在一项调查中有两个变量x和y,下图是由这两个变量近8年来的取值数据得到的散点图,那么适宜作为y关于x的回归方程的函数类型是( )A.y=a+bx B.y=c+deq \r(x)C.y=m+nx2 D.y=p+qcx(q>0)B [散点图呈曲线,排除A选项,且增长速度变慢,排除选项C、D,故选B.] 类型1 相关系数的性质【例1】 (1)相关变量x,y的散点图如图所示,现对这两个变量进行线性相关性分析.方案一:根据图中所有数据,得到回归直线方程eq \o(y,\s\up6(^))=eq \o(b,\s\up6(^))1x+eq \o(a,\s\up6(^))1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到回归直线方程:eq \o(y,\s\up6(^))=eq \o(b,\s\up6(^))2x+eq \o(a,\s\up6(^))2,相关系数为r2,则( )A.0<r1<r2<1 B.0<r2<r1<1C.-1<r1<r2<0 D.-1<r2<r1<0(2)设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线方程的回归系数为eq \o(b,\s\up6(^)),回归截距是eq \o(a,\s\up6(^)),那么必有( )A.eq \o(b,\s\up6(^))与r的符号相同 B.eq \o(a,\s\up6(^))与r的符号相同C.eq \o(b,\s\up6(^))与r的符号相反 D.eq \o(a,\s\up6(^))与r的符号相同(1)D (2)A [(1)由散点图得x与y负相关,所以r1,r2<0,因为剔除点(10,21)后,剩下的数据更具有线性相关性,|r2|更接近1,所以-1<r2<r1<0.(2)由公式可知eq \o(b,\s\up6(^))与r的符号相同.]线性相关强弱的判断方法(1)散点图(越接近直线,相关性越强).(2)相关系数(绝对值越接近1,相关性越强).[跟进训练]1.如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的点是( )A.D B.E C.F D.AB [因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强.因为点E到直线的距离最远,所以去掉点E,余下的5个点所对应的数据的相关系数最大.] 类型2 相关系数的计算及应用【例2】 假设关于某种设备的使用年限x(单位:年)与所支出的维修费用y(单位:万元)有如下统计资料:已知eq \o(∑,\s\up6(5),\s\do6(i=1))xeq \o\al(2,i)=90,eq \o(∑,\s\up6(5),\s\do6(i=1))yeq \o\al(2,i)≈140.8,eq \o(∑,\s\up6(5),\s\do6(i=1))xiyi=112.3,eq \r(79)≈8.9,eq \r(2)≈1.4.(1)计算y与x之间的相关系数(精确到0.001),并求出回归直线方程;(2)根据回归直线方程,预测假设使用年限为10年时,维修费用约是多少万元?[解] (1)因为eq \o(x,\s\up6(-))=eq \f(2+3+4+5+6,5)=4,eq \o(y,\s\up6(-))=eq \f(2.2+3.8+5.5+6.5+7.0,5)=5.eq \o(∑,\s\up6(5),\s\do6(i=1))xiyi-5eq \o(x,\s\up6(-))eq \o(y,\s\up6(-))=112.3-5×4×5=12.3,eq \o(∑,\s\up6(5),\s\do6(i=1))xeq \o\al(2,i)-5eq \o(x,\s\up6(-))2=90-5×42=10,eq \o(∑,\s\up6(5),\s\do6(i=1))yeq \o\al(2,i)-5eq \o(y,\s\up6(-))2=140.8-125=15.8,所以r=eq \f(12.3,\r(10×15.8))=eq \f(12.3,\r(158))=eq \f(12.3,\r(2)×\r(79))≈eq \f(12.3,1.4×8.9)≈0.987.又eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(5),\s\do6(i=1))xiyi-5\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(5),\s\do6(i=1))x\o\al(2,i)-5\o(x,\s\up6(-))2)=eq \f(112.3-5×4×5,90-5×42)=1.23.eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(x,\s\up6(-))=5-1.23×4=0.08.所以回归直线方程为eq \o(y,\s\up6(^))=1.23x+0.08.(2)当x=10时,eq \o(y,\s\up6(^))=1.23×10+0.08=12.38(万元),即假设使用10年时,维修费用约为12.38万元.[跟进训练]2.某厂的生产原料耗费x(单位:百万元)与销售额y(单位:百万元)之间有如下的对应关系:(1)计算x与y之间的相关系数,并求其回归直线方程;(2)若实际销售额不少于80百万元,则原料耗费应该不少于多少?[解] (1)画出(x,y)的散点图如图所示,由图可知x,y有线性关系.eq \o(x,\s\up6(-))=5,eq \o(y,\s\up6(-))=47.5,eq \o(∑,\s\up6(4),\s\do6(i=1))xeq \o\al(2,i)=120,eq \o(∑,\s\up6(4),\s\do6(i=1))yeq \o\al(2,i)=9 900,eq \o(∑,\s\up6(4),\s\do6(i=1))xiyi=1 080,故相关系数r=eq \f(\o(∑,\s\up6(4),\s\do6(i=1))xiyi-4\o(x,\s\up6(-))\o(y,\s\up6(-)),\r(\o(∑,\s\up6(4),\s\do6(i=1))x\o\al(2,i)-4\o(x,\s\up6(-))2\o(∑,\s\up6(4),\s\do6(i=1))y\o\al(2,i)-4\o(y,\s\up6(-))2))=eq \f(1 080-4×5×47.5,\r(120-4×529 900-4×47.52))≈0.982 7.eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(4),\s\do6(i=1))xiyi-4\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(4),\s\do6(i=1))x\o\al(2,i)-4\o(x,\s\up6(-))2)=eq \f(1 080-4×5×47.5,120-4×52)=6.5,eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(x,\s\up6(-))=47.5-6.5×5=15.故回归直线方程为eq \o(y,\s\up6(^))=6.5x+15.(2)由回归直线方程知,当eq \o(y,\s\up6(^))≥80,即6.5x+15≥80时,x≥10.故原料耗费应不少于10百万元. 类型3 非线性回归方程已知x和y之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?①y=3×2x-1;②y=log2x;③y=4x;④y=x2.[提示] 作出散点图(图略),观察散点图中样本点的分布规律可判断样本点分布在曲线y=3×2x-1附近.①作为回归模型最好.【例3】 某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每件产品的非原料成本y(单位:元)与生产该产品的数量x(单位:千件)有关,经统计得到如下数据:根据以上数据,绘制了散点图.观察散点图,两个变量不具有线性相关关系,现考虑用反比例函数模型y=a+eq \f(b,x)和指数函数模型y=cedx分别对两个变量的关系进行拟合.已求得用指数函数模型拟合的回归方程为eq \o(y,\s\up6(^))=96.54e-0.2x,ln y与x的相关系数r1=-0.94.参考数据eq \b\lc\(\rc\)(\a\vs4\al\co1(其中ui=\f(1,xi))):(1)用反比例函数模型求y关于x的回归方程;(2)用相关系数判断上述两个模型哪一个拟合效果更好(精确到0.01),并用其估计产量为10千件时每件产品的非原料成本;(3)该企业采取订单生产模式(根据订单数量进行生产,即产品全部售出).根据市场调研数据,若该产品单价定为100元,则签订9千件订单的概率为0.8,签订10千件订单的概率为0.2;若单价定为90元,则签订10千件订单的概率为0.3,签订11千件订单的概率为0.7.已知每件产品的原料成本为10元,根据(2)的结果,企业要想获得更高利润,产品单价应选择100元还是90元,请说明理由.参考公式:对于一组数据(u1,υ1),(u2,υ2),…,(un,υn),其回归直线方程eq \o(υ,\s\up6(^))=eq \o(α,\s\up6(^))+eq \o(β,\s\up6(^))u的斜率和截距的最小二乘估计公式分别为:eq \o(β,\s\up6(^))=eq \f(\o(∑,\s\up6(n),\s\do6(i=1))uiυi-n\o(u,\s\up6(-))\o(υ,\s\up6(-)),\o(∑,\s\up6(n),\s\do6(i=1))u\o\al(2,i)-n\o(u,\s\up6(-))2),eq \o(a,\s\up6(^))=eq \o(υ,\s\up6(-))-eq \o(β,\s\up6(^))eq \o(u,\s\up6(-)),相关系数r=eq \f(\o(∑,\s\up6(n),\s\do6(i=1))uiυi-n\o(u,\s\up6(-))\o(υ,\s\up6(-)),\r(\b\lc\(\rc\)(\a\vs4\al\co1(\o(∑,\s\up6(n),\s\do6(i=1))u\o\al(2,i)-n\o(u,\s\up6(-))2))\b\lc\(\rc\)(\a\vs4\al\co1(\o(∑,\s\up6(n),\s\do6(i=1))υ\o\al(2,i)-n\o(υ,\s\up6(-))2)))).[思路点拨] (1)首先可令u=eq \f(1,x)并将y=a+eq \f(b,x)转化为y=a+bu,然后根据题目所给数据以及线性回归方程的相关公式计算出eq \o(b,\s\up6(^))以及eq \o(a,\s\up6(^)),即可得出结果;(2)计算出反比例函数模型的相关系数r并通过对比即可得出结果;(3)可分别计算出单价为100元和90元时产品的利润,通过对比即可得出结果.[解] (1)令u=eq \f(1,x),则y=a+eq \f(b,x)可转化为y=a+bu,因为eq \o(y,\s\up6(-))=eq \f(360,8)=45,所以eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(8),\s\do6(i=1))uiyi-8\o(u,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(8),\s\do6(i=1))u\o\al(2,i)-8\o(u,\s\up6(-))2)=eq \f(183.4-8×0.34×45,1.53-8×0.115)=eq \f(61,0.61)=100,则eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(u,\s\up6(-))=45-100×0.34=11,所以eq \o(y,\s\up6(^))=11+100u,所以y关于x的回归方程为eq \o(y,\s\up6(^))=11+eq \f(100,x).(2)y与eq \f(1,x)的相关系数为:r2=eq \f(\o(∑,\s\up6(8),\s\do6(i=1))uiyi-8\o(u,\s\up6(-))\o(y,\s\up6(-)),\r(\b\lc\(\rc\)(\a\vs4\al\co1(\o(∑,\s\up6(8),\s\do6(i=1))u\o\al(2,i)-8\o(u,\s\up6(-))2))\b\lc\(\rc\)(\a\vs4\al\co1(\o(∑,\s\up6(8),\s\do6(i=1))y\o\al(2,i)-8\o(y,\s\up6(-))2))))=eq \f(61,\r(0.61×6 185.5))≈0.99.因为|r1|<|r2|,所以用反比例函数模型拟合效果更好,当x=10时,y=eq \f(100,10)+11=21(元),所以当产量为10千件时,每件产品的非原料成本为21元.(3)①当产品单价为100元,设订单数为x千件,因为签订9千件订单的概率为0.8,签订10千件订单的概率为0.2,所以E(x)=9×0.8+10×0.2=9.2,所以企业利润为100×9.2-9.2×eq \b\lc\(\rc\)(\a\vs4\al\co1(\f(100,9.2)+21))=626.8(千元).②当产品单价为90元,设订单数为y千件,因为签订10千件订单的概率为0.3,签订11千件订单的概率为0.7,所以E(y)=10×0.3+11×0.7=10.7,所以企业利润为90×10.7-10.7×eq \b\lc\(\rc\)(\a\vs4\al\co1(\f(100,10.7)+21))=638.3(千元).故企业要想获得更高利润,产品单价应选择90元.非线性回归问题有时并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:[跟进训练]3.二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:下面是z关于x的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;(2)求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少? (eq \o(b,\s\up6(^)),eq \o(a,\s\up6(^))小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?参考数据:eq \o(∑,\s\up6(6),\s\do6(i=1))xiyi=187.4,eq \o(∑,\s\up6(6),\s\do6(i=1))xizi=47.64,eq \o(∑,\s\up6(6),\s\do6(i=1))xeq \o\al(2,i)=139,eq \r(\o(∑,\s\up6(6),\s\do6(i=1)) xi-\o(x,\s\up6(-))2)≈4.18,eq \r(\o(∑,\s\up6(6),\s\do6(i=1)) yi-\o(y,\s\up6(-))2)=13.96,eq \r(\o(∑,\s\up6(6),\s\do6(i=1)) zi-\o(z,\s\up6(-))2)=1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.参考公式:回归直线方程eq \o(y,\s\up6(^))=eq \o(b,\s\up6(^))x+eq \o(a,\s\up6(^))中斜率和截距的最小二乘估计公式分别为:eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))2)=eq \f(\o(∑,\s\up6(n),\s\do6(i=1))xiyi-n\o(x,\s\up6(-))\o(y,\s\up6(-)),\o(∑,\s\up6(n),\s\do6(i=1))x\o\al(2,i)-n\o(x,\s\up6(-))2),eq \o(a,\s\up6(^))=eq \o(y,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(x,\s\up6(-)).r=eq \f(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))yi-\o(y,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))2\o(∑,\s\up6(n),\s\do6(i=1)) yi-\o(y,\s\up6(-))2)),eq \o(x,\s\up6(-)),eq \o(y,\s\up6(-))为样本平均值.[解] (1)由题意,计算eq \o(x,\s\up6(-))=eq \f(1,6)×(2+3+4+5+6+7)=4.5,eq \o(z,\s\up6(-))=eq \f(1,6)×(3+2.48+2.08+1.86+1.48+1.10)=2,且eq \o(∑,\s\up6(6),\s\do6(i=1))xizi=47.64,eq \r(\o(∑,\s\up6(6),\s\do6(i=1)) xi-\o(x,\s\up6(-))2)≈4.18,eq \r(\o(∑,\s\up6(6),\s\do6(i=1)) zi-\o(z,\s\up6(-))2)=1.53,所以r=eq \f(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))zi-\o(z,\s\up6(-)),\r(\o(∑,\s\up6(n),\s\do6(i=1)) xi-\o(x,\s\up6(-))2\o(∑,\s\up6(n),\s\do6(i=1)) zi-\o(z,\s\up6(-))2))=eq \f(47.64-6×4.5×2,4.18×1.53)=-eq \f(6.36,6.395 4)≈-0.99.所以z与x的相关系数大约为-0.99,说明z与x的线性相关程度很高.(2)利用最小二乘估计公式计算eq \o(b,\s\up6(^))=eq \f(\o(∑,\s\up6(n),\s\do6(i=1))xizi-n\o(x,\s\up6(-))\o(z,\s\up6(-)),\o(∑,\s\up6(n),\s\do6(i=1))x\o\al(2,i)-n\o(x,\s\up6(-))2)=eq \f(47.64-6×4.5×2,139-6×4.52)=-eq \f(6.36,17.5)≈-0.36,所以eq \o(a,\s\up6(^))=eq \o(z,\s\up6(-))-eq \o(b,\s\up6(^))eq \o(x,\s\up6(-))=2+0.36×4.5=3.62,所以z关于x的回归直线方程是eq \o(z,\s\up6(^))=-0.36x+3.62,又z=ln y,所以y关于x的回归方程是eq \o(y,\s\up6(^))=e-0.36x+3.62.令x=9,解得eq \o(y,\s\up6(^))=e-0.36×9+3.62≈1.46,即预测某辆A型号二手车当使用年数为9年时售价约1.46万元.(3)当eq \o(y,\s\up6(^))≥0.711 8时,e-0.36x+3.62≥0.711 8=eln 0.711 8=e-0.34,所以-0.36x+3.62≥-0.34,解得x≤11,因此预测在收购该型号二手车时车辆的使用年数不得超过11年.1.两个变量之间的线性相关程度越低,其线性相关系数的数值( )A.越接近于-1 B.越接近于0C.越接近于1 D.越小B [由相关系数的含义可得:两个变量之间的线性相关程度越低,其线性相关系数的数值越接近于0.故选B.]2.如图所示,给出了样本容量均为7的A,B两组样本数据的散点图,已知A组样本数据的相关系数为r1,B组数据的相关系数为r2,则( )A.r1=r2 B.r1<r2 C.r1>r2 D.无法判定C [根据A,B两组样本数据的散点图知,A组样本数据几乎在一条直线上,且成正相关,∴相关系数为r1应最接近1,B组数据分散在一条直线附近,也成正相关,∴相关系数为r2,满足r2
相关资料
更多