2020版新一线高考文科数学(北师大版)一轮复习教学案:第9章第4节 变量间的相关关系、统计案例
展开第四节 变量间的相关关系、统计案例
[考纲传真] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.
1.相关性
(1)线性相关
若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的.
(2)非线性相关
若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关的.
(3)不相关
如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.
2.最小二乘估计
(1)最小二乘法
如果有n个点(x1,y1),(x2,y2),…,(xn,yn)可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2.
使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法.
(2)线性回归方程
方程y=bx+a是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的线性回归方程,其中a,b是待定参数.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn)中,(,)称为样本点的中心.
(3)相关系数r
①r=;
②当r>0时,称两个变量正相关.
当r<0时,称两个变量负相关.
当r=0时,称两个变量线性不相关.
4.独立性检验
若一个2×2列联表为:
B A | B1 | B2 | 总计 |
A1 | a | b | a+b |
A2 | c | d | c+d |
总计 | a+c | b+d | n=a+b+c+d |
则统计量χ2为:
χ2=.
(1)当χ2≤2.706时,可以认为变量A,B是没有关联的;
(2)当χ2>2.706时,有90%的把握判定变量A,B有关联;
(3)当χ2>3.841时,有95%的把握判定变量A,B有关联;
(4)当χ2>6.635时,有99%的把握判定变量A,B有关联.
1.线性回归方程y=bx+a一定过样本点的中心(,).
2.由回归直线求出的数据是估算值,不是精确值.
[基础自测]
1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ( )
(2)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程y=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮. ( )
(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验. ( )
(4)若事件A,B关系越密切,则由观测数据计算得到的χ2的值越小. ( )
[答案] (1)√ (2)× (3)× (4)×
2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
C [“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.]
3.(教材改编)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是( )
A.y=0.4x+2.3 B.y=2x-2.4
C.y=-2x+9.5 D.y=-0.3x+4.4
A [因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5) 在回归直线上,排除B,选项A满足.]
4.下面是2×2列联表:则表中a,b的值分别为( )
| y1 | y2 | 合计 |
x1 | a | 21 | 73 |
x2 | 22 | 25 | 47 |
合计 | b | 46 | 120 |
A.94,72 B.52,50
C.52,74 D.74,52
C [∵a+21=73,∴a=52.又a+22=b,∴b=74.]
5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”. ( )
附:
P(χ2≥x0) | 0.100 | 0.050 | 0.025 | 0.010 | 0.001 |
x0 | 2.706 | 3.841 | 5.024 | 6.635 | 10.828 |
A.0.1% B.1% C.99% D.99.9%
C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]
相关关系的判断 |
1.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
C [因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+a,b>0,则z=by+a=-0.1bx+b+a,故x与z负相关.]
2.(2019·广州模拟)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的条形统计图. 以下结论不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
D [从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;
2007年二氧化硫排放量较2006年降低了很多,B选项正确;
虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;
自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误, 故选D.]
3.(2019·日照模拟)变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5),变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
参考公式:线性相关系数r=
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r1=r2
C [由己知中的数据可知:
第一组数据正相关,则相关系数大于零,
第二组数据负相关,则相关系数小于零,故选C.]
[规律方法] 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:b>0时,正相关;b<0时,负相关.
线性回归分析及应用 |
【例1】 (2018·全国卷Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:y=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:y=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为
y=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势,2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
[规律方法] 线性回归分析问题的类型及解题方法
(1)求线性回归方程:
①利用公式,求出回归系数b,a.
②待定系数法:利用回归直线过样本点中心求系数.
(2)利用回归方程进行预测:
把回归直线方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关:
决定正相关还是负相关的是系数b.
(2016·全国卷Ⅲ)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,
回归方程y=a+bt中斜率和截距的最小二乘估计公式分别为:b=,a=-b.
[解] (1)由折线图中数据和附注中参考数据得
=4, (ti-)2=28,=0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,
r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
b==≈0.103,
a=-b≈1.331-0.103×4≈0.92.
所以,y关于t的回归方程为y=0.92+0.10t.
将2016年对应的t=9代入回归方程得
y=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.
独立性检验及应用 |
【例2】 (2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
| 箱产量<50 kg | 箱产量≥50 kg |
旧养殖法 |
|
|
新养殖法 |
|
|
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(χ2≥x0) | 0.050 | 0.010 | 0.001 |
x0 | 3.841 | 6.635 | 10.828, |
χ2=.
[解] (1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
| 箱产量<50 kg | 箱产量≥50 kg |
旧养殖法 | 62 | 38 |
新养殖法 | 34 | 66 |
则χ2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
[规律方法] 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式χ2=,计算χ2的值;
(3)查表比较χ2与临界值的大小关系,作统计判断.
(2019·合肥质检)某校在高一年级学生中,对自然科学类、社会科学类校本选修课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.
(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?
(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?
| 选择自然科学类 | 选择社会科学类 | 合计 |
男生 |
|
|
|
女生 |
|
|
|
合计 |
|
|
|
附:χ2=,其中n=a+b+c+d.
P(χ2 ≥x0) | 0.500 | 0.400 | 0.250 | 0.150 | 0.100 | 0.050 | 0.025 | 0.010 | 0.005 | 0.001 |
x0 | 0.455 | 0.708 | 1.323 | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
[解] (1)从高一年级学生中随机抽取1人,抽到男生的概率约为=.
(2)根据统计数据,可得2×2列联表如下:
| 选择自然科学类 | 选择社会科学类 | 合计 |
男生 | 60 | 45 | 105 |
女生 | 30 | 45 | 75 |
合计 | 90 | 90 | 180 |
则χ2==≈5.142 9>5.024,
所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.
(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
| 超过m | 不超过m |
第一种生产方式 |
|
|
第二种生产方式 |
|
|
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:χ2=,
P(χ2≥x0) | 0.050 | 0.010 | 0.001 |
x0 | 3.841 | 6.635 | 10.828 |
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)
(2)由茎叶图知m==80.
列联表如下:
| 超过m | 不超过m |
第一种生产方式 | 15 | 5 |
第二种生产方式 | 5 | 15 |
(3)由于χ2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.