(山东专用)2021版高考数学一轮复习第十章统计、统计案例第三讲变量间的相关关系、统计案例学案(含解析)
展开第三讲 变量间的相关关系、统计案例
ZHI SHI SHU LI SHUANG JI ZI CE
知识梳理·双基自测
知识梳理
知识点一 回归分析
(1)相关关系:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种__非确定性关系__.
(2)散点图:表示具有__相关__关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两变量的关系是否可以用线性关系表示.若这些散点有y随x增大而增大的趋势,则称两个变量__正相关__;若这些散点有y随x增大而减小的趋势,则称两个变量__负相关__.
(3)回归方程:=x+,其中=,=__-__,它主要用来估计和预测取值,从而获得对这两个变量之间整体关系的了解.
(4)相关系数:r=
它主要用于相关量的显著性检验,以衡量它们之间的线性相关程度.当r>0时表示两个变量正相关,当r<0时表示两个变量负相关.|r|越接近1,表明两个变量的线性相关性__越强__;当|r|接近0时,表明两个变量间几乎不存在相关关系,相关性__越弱__.
知识点二 独立性检验
(1)2×2列联表
设X,Y为两个分类变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
| y1 | y2 | 总计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
(2)独立性检验
利用随机变量K2(也可表示为X2)=(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
(3)独立性检验的一般步骤
①根据样本数据列出2×2列联表;
②计算随机变量K2的观测值k,查表确定临界值k0:
③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关”.
重要结论
1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
2.独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据K2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.
双基自测
题组一 走出误区
1.(多选题)下列结论中正确的是( AC )
A.“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系
B.两个随机变量的线性相关性越强,相关系数的绝对值越接近于0
C.事件x,y关系越密切,则由观测数据计算得到的K2的观测值越大
D.由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀
题组二 走进教材
2.(P97T2)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( C )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
[解析] “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
3.(P81例1)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x(个) | 10 | 20 | 30 | 40 | 50 |
加工时间y(min) | 62 | 75 | 81 | 89 |
现发现表中有一个数据看不清,请你推断出该数据的值为__68__.
[解析] 由=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a,
则62+a+75+81+89=75×5,∴a=68.
题组三 考题再现
4.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+,已知xi=225,yi=1 600,=4.该班某学生的脚长为24,据此估计其身高为( C )
A.160 B.163
C.166 D.170
[解析] 由题意知=4x+
又=22.5,=160,因此160=22.5×4+,∴=70,因此=4x+70,当x=24时,=4×24+70=166,故选C.
5.(2019·高考全国Ⅰ卷)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
| 满意 | 不满意 |
男顾客 | 40 | 10 |
女顾客 | 30 | 20 |
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:K2=.
P(K2≥k) | 0.050 | 0.010 | 0.001 |
k | 3.841 | 6.635 | 10.828 |
[解析] (1)由调查数据,男顾客中对该商场服务满意的比率为=0.8,
因此男顾客对该商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的比率为=0.6,
因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)由题可得K2=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
[答案] (1)男、女顾客对该商场服务满意的概率的估计值分别为0.8,0.6
(2)有95%的把握认为男、女顾客对该商场服务的评价有差异.
KAO DIAN TU PO HU DONG TAN JIU
考点突破·互动探究
考点一 相关关系的判断——自主练透
例1 (1)(2019·四川资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( B )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
(2)对四组数据进行统计,获得以下关于其相关系数的比较,正确的是( A )
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
[解析] (1)观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.
(2)由相关系数的定义及散点图所表达的含义,可知r2<r4<0<r3<r1.故选A.
名师点拨 ☞
判断两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归直线方程中:>0时,正相关;<0时负相关.
考点二 线性回归分析——师生共研
例2 (2017·课标全国Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
零件尺寸 | 9.95 | 10.12 | 9.96 | 9.96 | 10.01 | 9.92 | 9.98 | 10.04 |
| ||||||||
抽取次序 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 |
零件尺寸 | 10.26 | 9.91 | 10.13 | 10.02 | 9.22 | 10.04 | 10.05 | 9.95 |
经计算得=xi=9.97,s=
=≈0.212,≈18.439, (xi-)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小);
(2)一天内抽检零件中,如果出现了尺寸在(-3s,+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①从这一天抽检的结果看,是否需对当天的生产过程进行检查?
②在(-3s,+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数
r=.≈0.09.
[解析] (1)由样本数据得(xi,i)(i=1,2,…,16)的相关系数为r=
=≈-0.18.
由于|r|<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)①由于=9.97,s≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(-3s,+3s)以外,因此需对当天的生产过程进行检查.
②剔除离群值,即第13个数据,剩下数据的平均数为×(16×9.97-9.22)=10.02,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
x=16×0.2122+16×9.972≈1 591.134,
剔除第13个数据,剩下数据的样本方差为×(1 591.134-9.222-15×10.022)≈0.008,这条生产线当天生产的零件尺寸的标准差的估计值为≈0.09.
例3 (2019·四川省宜宾市诊断)艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(HIV病毒)引起,它把人体免疫系统中最重要的CD4T淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒感染人数统计表:
年份 | 2011 | 2012 | 2013 | 2014 | 2015 | 2016 | 2017 | 2018 |
年份代码x | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
感染者人数y (单位:万人) | 34.3 | 38.3 | 43.3 | 53.8 | 57.7 | 65.4 | 71.8 | 85 |
(1)请根据该统计表,画出这八年我国艾滋病病毒感染人数的折线图;
(2)请用相关系数说明:能用线性回归模型拟合y与x的关系;
(3)建立y关于x的回归方程(系数精确到0.01),预测2019年我国艾滋病病毒感染人数.
参考数据:≈6.48;i=449.6,
iyi=2 319.5,=46.2,
参考公式:相关系数r=,
回归方程=x+中,=,
=- .
[解析] (1)我国艾滋病病毒感染人数的折线图如图所示.
(2)∵=,=56.2,
∴(xi-)(yi-)=iyi-8=296.3,
=×46.2=299.376,
∴r=≈0.99,
故具有强线性相关关系.
(3)∵b==≈7.05,
a=-b=56.2-7.05×4.5≈24.48,
∴y=7.05x+24.48,
当x=9时,y=7.05×9+24.48=87.93.
故预测2019年我国艾滋病感染累积人数为87.93万人.
[答案] (1)见解析;(2)见解析;(3)预测2019年我国艾滋病感染累积人数为87.93万人.
名师点拨 ☞
线性回归分析问题的类型及解题方法
(1)求线性回归方程:
①利用公式,求出回归系数,.
②待定系数法:利用回归直线过样本点中心求系数.
(2)利用回归方程进行预测:
把回归直线方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数.
〔变式训练1〕
(2020·安徽六校教育研究会素质测试)某商场近5个月的销售额和利润额如表所示:
销售额x/千万元 | 3 | 5 | 6 | 7 | 9 |
利润额y/百万元 | 1 | 3 | 3 | 4 | 5 |
(1)画出散点图,观察散点图,说明两个变量有怎样的相关关系;
(2)求出利润额y关于销售额x的回归直线方程;
(3)当销售额为4千万元时,利用(2)的结论估计该商场的利润额(百万元).
==,=-b.
[解析] (1)散点图如图所示:
两个变量正相关,且具有线性相关关系.
(2)易求=6,=3.2,
由公式有
===0.65,
且=3.2-0.65×6=-0.7,
则线性回归方程为=0.65x-0.7,
(3)当x=4时,由(1)可求得=1.9,即利润额约为1.9百万元.
[答案] (1)散点图见解析;(2)=0.65x-0.7;(3)1.9百万元.
考点三 独立性检验——师生共研
例4 (2020·辽宁沈阳东北育才学校模拟)已知学校高三年级有学生1 000名,经调查研究,其中750名同学经常参加体育锻炼(称为A类同学),另外250名同学不经常参加体育锻炼(称为B类同学).现用分层抽样方法(按A类、B类分两层)从该年级学生中共抽查100名同学,测得这100名同学的身高(单位:cm)频率分布直方图如图:
(1)以同一组数据常用该组区间的中点值(例如区间[160,170)的中点值为165)作为代表,计算这100名学生身高数据的平均值;
(2)如果以身高不低于170 cm作为达标的标准,对抽取的100名学生,得到以下列联表:
| 身高达标 | 身高不达标 | 总计 |
积极参加体育锻炼 | 40 |
|
|
不积极参加体育锻炼 |
| 15 |
|
总计 |
|
| 100 |
完成上表,并判断是否有75%的把握认为体育锻炼与身高达标有关系(K2值精确到0.01)?
参考公式:K2=
参考数据:
P(K2≥k) | 0.40 | 0.25 | 0.15 | 0.10 |
k | 0.708 | 1.323 | 2.072 | 2.706 |
[解析] (1)数据的平均值为:145×0.03+155×0.17+165×0.30+175×0.30+185×0.17+195×0.03=170(cm)
(2)
| 身高达标 | 身高不达标 | 总计 |
积极参加体育锻炼 | 40 | 35 | 75 |
不积极参加体育锻炼 | 10 | 15 | 25 |
总计 | 50 | 50 | 100 |
K2=≈1.33,
故有75%把握认为体育锻炼与身高达标有关系.
名师点拨 ☞
解独立性检验的应用问题的关注点
(1)两个明确:
①明确两类主体.②明确研究的两个问题.
(2)两个关键:
①准确列出2×2列联表:②准确理解K2.
注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k值与求得的K2相比较.另外,表中第一行数据表示两个变量没有关联的可能性p,所以其有关联的可能性为1-p.
〔变式训练2〕
(2020·湖北十堰调研)某土特产超市为预估2020年元旦期间游客购买土特产的情况,对2019年元旦期间的90位游客购买情况进行统计,得到如下人数分布表.
购买金额(元) | [0,15) | [15,30) | [30,45) | [45,60) | [60,75) | [75,90] |
人数 | 10 | 15 | 20 | 15 | 20 | 10 |
(1)根据以上数据完成2×2列联表,并判断是否有95%的把握认为购买金额是否少于60元与性别有关;
| 不少于60元 | 少于60元 | 合计 |
男 |
| 40 |
|
女 | 18 |
|
|
合计 |
|
|
|
(2)为吸引游客,该超市推出一种优惠方案,购买金额不少于60元可抽奖3次,每次中奖概率为p(每次中奖互不影响,且p的值等于人数分布表中购买金额不少于60元的频率),中奖1次减5元,中奖2次减10元,中奖3次减15元.若游客甲计划购买80元的土特产,请列出实际付款数X(元)的分布列并求其数学期望.
附:参考公式和数据:
K2=,n=a+b+c+d.
附表:
k0 | 2.072 | 2.706 | 3.841 | 6.635 | 7.879 |
P(K2≥k0) | 0.150 | 0.100 | 0.050 | 0.010 | 0.005 |
[解析] (1)2×2列联表如下:
| 不少于60元 | 少于60元 | 合计 |
男 | 12 | 40 | 52 |
女 | 18 | 20 | 38 |
合计 | 30 | 60 | 90 |
K2==>5>3.841,
因此有95%的把握认为购买金额是否少于60元与性别有关.
(2)X可能取值为65,70,75,80,
且p==,
P(X=65)=C()3=,
P(X=70)=C()2×=,
P(X=75)=C××()2=,
P(X=80)=C()3=,
所以X的分布列为
X | 65 | 70 | 75 | 80 |
P(X) |
E(X)=65×+70×+75×+80×=75.
MING SHI JIANG TAN SU YANG TI SHENG
名师讲坛·素养提升
非线性回归问题
例5 (2019·湖北省调研)数码产品早已走进千家万户的生活,为了节约资源,促进资源循环利用,折旧产品回收行业得到迅猛发展,电脑使用时间越长,回收价值越低,某二手电脑交易市场对2018年回收的折旧电脑交易前使用的时间进行了统计,得到如图所示的频率分布直方图,在如图对使用时间的分组中,将使用时间落入各组的频率视为频率.
根据电脑交易市场往年的数据,得到如图所示的散点图,其中x(单位:年)表示折旧电脑的使用时间,y(单位:百元)表示相应的折旧电脑的平均交易价格.
(1)由散点图判断,可采用y=ea+bx作为该交易市场折旧电脑平均交易价格与使用年限x的回归方程,若t=ln yi,=i,选用如下参考数据,求y关于x的回归方程.
iyi | iti | ||||
5.5 | 8.5 | 1.9 | 301.4 | 79.75 | 385 |
(2)根据回归方程和相关数据,并用各时间组的区间中点值代表该组的值,估算该交易市场收购1 000台折旧电脑所需的费用.
附:参考公式:对于一组数据(ui,vi)(i=1,2,…,n),其回归直线=+u的斜率和截距的最小二乘估计分别为:β=,=-.参考数据:e3.25≈26,e2.56≈14,e2.05≈7.8,e1.45≈4.3,e0.85≈2.3.
[解析] (1)由y=ea+bx得ln y=a+bx,即t=a+bx,
===-0.3,
=1.9-(-0.3)×5.5=3.55,即t=-0.3x+3.55,
所以=e-0.3x+3.55.
(2)根据频率分布直方图对成交的二手折旧电脑使用时间为(0,2],(2,4],(4,6],(6,8],(8,10]上的频率依次为:0.2,0.36,0.28,0,12,0.04;
根据(1)中的回归方程,
在区间(0,2]上折旧电脑价格的预测值为e3.55-0.3×1=e3.25≈26,
在区间(2,4]上折旧电脑价格的预测值为e3.55-0.3×3=e2.65≈14,
在区间(4,6]上折旧电脑价格的预测值为e3.55-0.3×5=e2.05≈7.8,
在区间(6,8]上折旧电脑价格的预测值为e3.55-0.3×7=e1.45≈4.3,
在区间(8,10]上折旧电脑价格的预测值为e3.55-0.3×9=e0.85≈2.3,
于是,可以预测该交易市场一台折旧电脑交易的平均价格为:0.2×26+0.36×14+0.28×7.8+0.12×4.3+0.04×2.3=13.032(百元)
故该交易市场收购1 000台折旧电脑所需的费用为:
1 000×13.032=1 303 200(元).
名师点拨 ☞
非线性相关问题一般通过换元法转化为线性相关(线性回归分析)问题解决.
〔变式训练3〕
某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2 | (wi-)2 | (xi-) (yi-) | (wi-) (yi-) | |||
46.6 | 563 | 6.8 | 289.8 | 1.6 | 1469 | 108.8 |
表中wi=,=wi,
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=-.
[解析] (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于===68.
=- =563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值
=100.6+68=576.6,
年利润z的预报值
=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.