


2021版高考文科数学(北师大版)一轮复习教师用书:第十一章 第3讲 变量间的相关关系、统计案例
展开第3讲 变量间的相关关系、统计案例
一、知识梳理
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线方程叫线性回归方程.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
(3)回归方程为y=bx+a,其中b=,a=y-b.
(4)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.
3.独立性检验
设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=1;变量B:B1,B2=1,通过观察得到下表所示数据:
B A | B1 | B2 | 总 计 |
A1 | a | b | a+b |
A2 | c | d | c+d |
总 计 | a+c | b+d | n=a+b+c+d |
则χ2=,用它的大小来检验变量之间是否独立.
①当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;
②当χ2>2.706时,有90%的把握判定变量A,B有关联;
③当χ2>3.841时,有95%的把握判定变量A,B有关联;
④当χ2>6.635时,有99%的把握判定变量A,B有关联.
常用结论
1.求解线性回归方程的关键是确定回归系数a,b,应充分利用线性回归方程过样本中心点(,).
2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.
3.根据线性回归方程计算的y值,仅是一个预报值,不是真实发生的值.
二、教材衍化
1.已知x与y之间的一组数据如表:
x | 0 | 1 | 2 | 3 |
y | m | 3 | 5.5 | 7 |
已求得y关于x的线性回归方程为y=2.1x+0.85,则m的值为________.
答案:0.5
2.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
| 理科 | 文科 |
男 | 13 | 10 |
女 | 7 | 20 |
已知P(χ2>3.841)≈0.05,P(χ2>6.635)≈0.01.
根据表中数据,得到
χ2=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
解析:χ2≈4.844>3.841,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
答案:5%
一、思考辨析
判断正误(正确的打“√”,错误的打“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )
(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)事件X,Y的关系越密切,由观测数据计算得到的χ2的观测值越大.( )
(5)通过线性回归方程y=bx+a可以估计和观测变量的取值和变化趋势.( )
答案:(1)× (2)√ (3)√ (4)√ (5)√
二、易错纠偏
(1)混淆相关关系与函数关系;
(2)对独立性检验χ2值的意义不清楚;
(3)不知道线性回归直线必过样本点中心.
1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
解析:选D.第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.
2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )
A.0.1% B.1%
C.99% D.99.9%
解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.
3.已知x,y的取值如下表,从散点图可以看出y与x线性相关,且线性回归方程为y=0.95x+a,则a=________.
x | 0 | 1 | 3 | 4 |
y | 2.2 | 4.3 | 4.8 | 6.7 |
解析:由已知得=2,=4.5,因为线性回归方程经过点(,),所以a=4.5-0.95×2=2.6.
答案:2.6
相关关系的判断(师生共研)
已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
【解析】 因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+a,b>0,则z=by+a=-0.1bx+b+a,故x与z负相关.
【答案】 C
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:b>0时,正相关;b<0时,负相关.
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析:选C.由散点图可得两组数据均线性相关,且题图①的线性回归方程斜率为负,题图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
2.对变量x,y有观测数据(xi,yi)(i=1,2,3,4,5),得表1;对变量u,v有观测数据(ui,vi)(i=1,2,3,4,5),得表2.由这两个表可以判断( )
表1:
x | 1 | 2 | 3 | 4 | 5 |
y | 2.9 | 3.3 | 3.6 | 4.4 | 5.1 |
表2:
u | 1 | 2 | 3 | 4 | 5 |
v | 25 | 20 | 21 | 15 | 13 |
A.变量x与y正相关,u与v正相关
B.变量x与y负相关,u与v正相关
C.变量x与y负相关,u与v负相关
D.变量x与y正相关,u与v负相关
解析:选D.由题可知,随着x的增大,对应的y值增大,其散点图呈上升趋势,故x与y正相关;随着u的增大,v减小,其散点图呈下降趋势,故u与v负相关.
线性回归方程及其应用(师生共研)
(2020·江西宜春模拟)随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:
日期 | 2日 | 7日 | 15日 | 22日 | 30日 |
温度x/℃ | 10 | 11 | 13 | 12 | 8 |
产卵数y/个 | 23 | 25 | 30 | 26 | 16 |
科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.
(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
附:线性回归方程的斜率和截距的最小二乘估计公式分别为b=,a=-b.
【解】 (1)由已知数据得=12,=27, (xi-)(yi-)=5, (xi-)2=2.
所以==,
a=-=27-×12=-3.
所以y关于x的线性回归方程为y=x-3.
(2)由(1)知,y关于x的线性回归方程为y=x-3.
当x=10时,y=×10-3=22,|22-23|<2,
当x=8时,y=×8-3=17,|17-16|<2.
所以(1)中所得的线性回归方程y=x-3是可靠的.
线性回归分析问题的类型及解题方法
(1)求线性回归方程
①利用公式,求出回归系数b,a;
②待定系数法:利用线性回归方程过样本点的中心求系数.
(2)样本数据的相关系数
r=,
反映样本数据的相关程度,|r|越大,则相关性越强.
1.对两个变量x,y进行线性回归分析,计算得到相关系数r=-0.996 2,则下列说法中正确的是( )
A.x与y正相关
B.x与y具有较强的线性相关关系
C.x与y几乎不具有线性相关关系
D.x与y的线性相关关系还需进一步确定
解析:选B.因为相关系数r=-0.996 2,所以x与y负相关,因为|r|=0.996 2,非常接近1,所以相关性很强,故选B.
2.(2020·成都第一次诊断性检测)在2018年俄罗斯世界杯期间,莫斯科的部分餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x与销售单价y(单位:元)之间的关系,经统计得到如下数据:
等级代码数值x | 38 | 48 | 58 | 68 | 78 | 88 |
销售单价y/元 | 16.8 | 18.8 | 20.8 | 22.8 | 24 | 25.8 |
(1)已知销售单价y与等级代码数值x之间存在线性相关关系,求y关于x的线性回归方程(系数精确到0.1);
(2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?
参考公式:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其线性回归方程y=bx+a的斜率和截距的最小二乘估计分别为b=,a=-b.
参考数据:xiyi=8 440,x=25 564.
解:(1)由题意,得==63,
==21.5,
b==≈0.2,
a=-b=21.5-0.2×63=8.9.
故所求线性回归方程为y=0.2x+8.9.
(2)由(1),知当x=98时,y=0.2×98+8.9=28.5.
所以估计该等级的中国小龙虾销售单价为28.5元.
独立性检验(师生共研)
(2019·高考全国卷Ⅰ改编)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
| 满意 | 不满意 |
男顾客 | 40 | 10 |
女顾客 | 30 | 20 |
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:χ2=.
P(χ2>k) | 0.050 | 0.010 | 0.001 |
k | 3.841 | 6.635 | 10.828 |
【解】 (1)由调查数据知,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.
女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)χ2=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
(1)独立性检验的一般步骤
①根据样本数据制成2×2列联表;
②根据公式χ2=计算χ2的值;
③查表比较χ2与临界值的大小关系,作出统计判断.
(2)解独立性检验的应用问题的关注点
①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题;
②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解χ2.
(2020·陕西渭南模拟考试)为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查,已知该校共有学生960人,其中男生560人,从全校学生中抽取了容量为n的样本,得到一周参加社区服务时间的统计数据如下表:
| 超过1小时 | 不超过1小时 |
男 | 20 | 8 |
女 | 12 | m |
(1)求m,n的值;
(2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关?
附:
P(χ2>k) | 0.050 | 0.010 | 0.001 |
k | 3.841 | 6.635 | 10.828 |
χ2=
解:(1)由已知,该校有女生400人,故=,得m=8,
从而n=20+8+12+8=48.
(2)作出2×2列联表如下:
| 超过1小时的人数 | 不超过1小时的人数 | 总计 |
男 | 20 | 8 | 28 |
女 | 12 | 8 | 20 |
合计 | 32 | 16 | 48 |
χ2==≈0.685 7<3.841.
所以没有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关.
[基础题组练]
1.(2020·陕西西安陕师大附中等八校联考)设两个变量x和y之间具有线性相关关系,它们的相关系数为r,y关于x的线性回归方程为y=kx+b,则( )
A.k与r的符号相同 B.b与r的符号相同
C.k与r的符号相反 D.b与r的符号相反
解析:选A.因为相关系数r为正,表示正相关,回归直线方程上升,r为负,表示负相关,回归直线方程下降,所以k与r的符号相同.故选A.
2.在一次对性别与说谎是否相关的调查中,得到如下数据:
| 说谎 | 不说谎 | 总计 |
男 | 6 | 7 | 13 |
女 | 8 | 9 | 17 |
总计 | 14 | 16 | 30 |
根据表中数据,得到如下结论正确的一项是( )
A.在此次调查中有95%的把握认为是否说谎与性别有关
B.在此次调查中有99%的把握认为是否说谎与性别有关
C.在此次调查中有99.5%的把握认为是否说谎与性别有关
D.在此次调查中没有充分的证据显示说谎与性别有关
解析:选D.由已知得χ2=≈0.002<0.455,所以在犯错误的概率不超过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关.
3.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的回归直线方程:=0.245x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:x变为x+1,y=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.
答案:0.245
4.如图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x之间的线性回归方程为y=bx+1,则b=________.
解析:由题图知==2,
==2.6,
将(2,2.6)代入y=bx+1中,解得b=0.8.
答案:0.8
5.(2020·陕西汉中略阳天津高级中学等12校联考)某市为了了解民众对开展创建文明城市工作以来的满意度,随机调查了40名群众,并将他们随机分成A,B两组,每组20人,A组群众给第一阶段的创文工作评分,B组群众给第二阶段的创文工作评分,根据两组群众的评分绘制了如图所示的茎叶图.
(1)根据茎叶图比较群众对两个阶段的创文工作满意度评分的平均值和集中数据(不要求计算出具体值,给出结论即可);
(2)完成下面的2×2列联表,并通过计算判断是否有99%的把握认为民众对两个阶段创文工作的满意度存在差异?
| 低于70分 | 不低于70分 | 总计 |
第一阶段 |
|
|
|
第二阶段 |
|
|
|
总计 |
|
|
|
参考公式:χ2=,n=a+b+c+d.
P(χ2>k) | 0.050 | 0.010 | 0.001 |
k | 3.841 | 6.635 | 10.828 |
解:(1)根据题中茎叶图可以看出,B组群众给第二阶段创文工作满意度评分的平均值高于A组群众给第一阶段创文工作满意度评分的平均值,且给分相对于A组更集中些.
(2)填写2×2列联表如下:
| 低于70分 | 不低于70分 | 总计 |
第一阶段 | 11 | 9 | 20 |
第二阶段 | 3 | 17 | 20 |
总计 | 14 | 26 | 40 |
所以χ2=≈7.033>6.635.
所以有99%的把握认为民众对两个阶段创文工作的满意度存在差异.
6.某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x个月)和市场占有率(y%)的几组相关对应数据:
x | 1 | 2 | 3 | 4 | 5 |
y | 0.02 | 0.05 | 0.1 | 0.15 | 0.18 |
(1)根据上表中的数据,用最小二乘法求出y关于x的线性回归方程;
(2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精准到月).
解:(1)根据表中数据,
计算=×(1+2+3+4+5)=3,
=×(0.02+0.05+0.1+0.15+0.18)=0.1,
所以b=
=0.042,
所以a=0.1-0.042×3=-0.026,
所以线性回归方程为y=0.042x-0.026.
(2)由上面的线性回归方程可知,上市时间与市场占有率正相关,
即上市时间每增加1个月,市场占有率都增加0.042个百分点;
由y=0.042x-0.026>0.5,解得x≥13;
预计上市13个月时,该款旗舰机型市场占有率能超过0.5%.
[综合题组练]
1.(2020·兰州市诊断考试改编)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:
平均每周进行长跑训练天数 | 不大于2 | 3或4 | 不少于5 |
人数 | 30 | 130 | 40 |
若某人平均每周进行长跑训练天数不少于5,则称其为“热烈参与者”,否则称为“非热烈参与者”.
(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数;
(2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?
| 热烈参与者 | 非热烈参与者 | 总计 |
男 |
|
| 140 |
女 |
| 55 |
|
总计 |
|
|
|
附:χ2=(n为样本容量)
P(χ2>k) | 0.500 | 0.400 | 0.250 | 0.150 | 0.100 | 0.050 | 0.025 | 0.010 | 0.005 | 0.001 |
k | 0.455 | 0.708 | 1.323 | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
解:(1)以200人中“热烈参与者”的频率作为概率,则该市“热烈参与者”的人数约为20 000×=4 000.
(2)2×2列联表为
| 热烈参与者 | 非热烈参与者 | 总计 |
男 | 35 | 105 | 140 |
女 | 5 | 55 | 60 |
总计 | 40 | 160 | 200 |
χ2=≈7.292>6.635.
故能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关.
2.(2020·鹰潭市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如下表:
月份 | 1 | 2 | 3 | 4 | 5 | 6 |
广告投入量/万元 | 2 | 4 | 6 | 8 | 10 | 12 |
收益/万元 | 14.21 | 20.31 | 31.8 | 31.18 | 37.83 | 44.67 |
他们用两种模型①y=bx+a,②y=aebx分别进行拟合,得到相应的线性回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:
xiyi | x | ||
7 | 30 | 1 464.24 | 364 |
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除.
①剔除异常数据后,求出(1)中所选模型的线性回归方程;
②广告投入量x=18时,(1)中所选模型收益的预报值是多少?
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其线性回归方程y=bx+a的斜率和截距的最小二乘估计分别为:b==,a=-b.
解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,线性回归方程的预报精度高.
(2)①剔除异常数据,即3月份的数据后,得
=×(7×6-6)=7.2,
=×(30×6-31.8)=29.64.
xiyi=1 464.24-6×31.8=1 273.44,
x=364-62=328.
b====3,
a=-b=29.64-3×7.2=8.04.
所以y关于x的线性回归方程为y=3x+8.04.
②把x=18代入(ⅰ)中所求线性回归方程得y=3×18+8.04=62.04.
故预报值为62.04万元.