2020版高考新创新一轮复习数学(理)通用版讲义:第十章第二节 变量的相关性与统计案例
展开
第二节 变量的相关性与统计案例
[考纲要求]
1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).
3.了解回归分析的思想、方法及其简单应用.
4.了解独立性检验的思想、方法及其初步应用.
突破点一 回归分析
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.两个变量的线性相关
回归直线
从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线
回归方程
回归方程为=x+,其中=, =-
最小二乘法
通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法
相关系数
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性
一、判断题(对的打“√”,错的打“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )
(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
答案:(1)× (2)√ (3)√
二、填空题
1.已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为=0.95x+,则=________.
x
0
1
3
4
y
2.2
4.3
4.8
6.7
答案:2.6
2.两个变量y与x的回归模型中,分别选择了4个不同模型,经计算得到它们的相关系数r的值如下表,其中拟合效果最好的模型是________.
模型
模型1
模型2
模型3
模型4
r
0.98
0.80
0.50
0.25
答案:模型1
3.已知变量x,y之间具有线性相关关系,其回归方程为=-3+x,若i=17, i=4,则的值为________.
答案:2
考法一 相关关系的判断
[例1] (1)(2019·福建泉州月考)在下列各图中,两个变量具有相关关系的图是( )
A.①② B.①③
C.②③ D.②④
(2)(2019·昆明一中一模)若对于变量x的取值为3,4,5,6,7时,变量y对应的值依次分别为4.0,2.5,-0.5,-1,-2;若对于变量u的取值为1,2,3,4时,变量v对应的值依次分别为2,3,4,6,则变量x和y,变量u和v的相关关系是( )
A.变量x和y是正相关,变量u和v是正相关
B.变量x和y是正相关,变量u和v是负相关
C.变量x和y是负相关,变量u和v是负相关
D.变量x和y是负相关,变量u和v是正相关
[解析] (1)①为函数关系;②为正相关关系;③为负相关关系;④没有明显相关性.
(2)变量x增加,变量y减少,所以变量x和y是负相关;变量u增加,变量v增加,所以变量u和v是正相关,故选D.
[答案] (1)C (2)D
[方法技巧]
判断相关关系的2种方法
(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,|r|越趋近于1相关性越强.
考法二 线性回归分析
[例2] (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)
[方法技巧]
1.回归直线方程中系数的2种求法
(1)公式法:利用公式,求出回归系数,.
(2)待定系数法:利用回归直线过样本点中心(,)求系数.
2.回归分析的2种策略
(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.
(2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数.
1.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
解析:选D 正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为①④.
2.二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:
使用年数x
2
3
4
5
6
7
售价y
20
12
8
6.4
4.4
3
z=ln y
3.00
2.48
2.08
1.86
1.48
1.10
z关于x的折线图,如图所示:
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;
(2)求y关于x的回归方程,并预测某辆A型号二手车当使用年数为9年时售价约为多少.(,小数点后保留两位有效数字)
参考公式:==,=-,
r= .
参考数据:iyi=187.4,izi=47.64,=139,
=4.18, =13.96,
=1.53,ln 1.46≈0.38.
解:(1)由题意,知=×(2+3+4+5+6+7)=4.5,
=×(3+2.48+2.08+1.86+1.48+1.10)=2,
又izi=47.64,=4.18,
=1.53,
∴r==-≈-0.99,
∴z与x的相关系数大约为-0.99,说明z与x的线性相关程度很高.
(2)==-≈-0.36,
∴=-=2+0.36×4.5=3.62,
∴z与x的线性回归方程是=-0.36x+3.62,
又z=ln y,∴y关于x的回归方程是=e-0.36x+3.62.
令x=9,得=e-0.36×9+3.62=e0.38,
∵ln 1.46≈0.38,∴=1.46,
即预测某辆A型号二手车当使用年数为9年时售价约为1.46万元.
突破点二 独立性检验
1.分类变量
变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
2.列联表
列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
K2=(其中n=a+b+c+d为样本容量),可利用独立性检验判断表来判断“X与Y的关系”.
一、判断题(对的打“√”,错的打“×”)
(1)事件X,Y关系越密切,则由观测数据计算得到的K2的值越大.( )
(2)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )
答案:(1)√ (2)×
二、填空题
1.下面是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中a,b的值分别为________.
解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.
答案:52,74
2.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
答案:5%
3.(2019·阜阳质检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:
认为作业多
认为作业不多
总计
喜欢玩电脑游戏
12
8
20
不喜欢玩电脑游戏
2
8
10
总计
14
16
30
该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过________.
答案:0.05
[典例] (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可得分)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)因为K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
[方法技巧]
(1)独立性检验的关键是正确列出2×2列联表,并计算出K2的值.
(2)独立性检验是对两个变量有关系的可信程度的判断,而不是对它们是否有关系的判断.
[针对训练]
1.(2019·安徽黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )
A.若K2的观测值为k=6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌
B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌
C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误
D.以上三种说法都不正确
解析:选C 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.故选C.
2.(2019·池州模拟)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图所示.规定80分以上者晋级成功,否则晋级失败(满分为100分).
(1)求图中a的值;
(2)估计该次考试的平均分(同一组中的数据用该组的区间中点值代表);
(3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.
晋级成功
晋级失败
总计
男
16
女
50
总计
P(K2≥k)
0.40
0.25
0.15
0.10
0.05
0.025
k
0.708
1.323
2.072
2.706
3.841
5.024
解:(1)由频率分布直方图中各小长方形面积总和为1,得(2a+0.020+0.030+0.040)×10=1,解得a=0.005.
(2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95,
对应的频率分别为0.05,0.30,0.40,0.20,0.05,
则估计该次考试的平均分为=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分).
(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,故晋级成功的人数为100×0.25=25,填写2×2列联表如下:
晋级成功
晋级失败
总计
男
16
34
50
女
9
41
50
总计
25
75
100
K2=≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.
[课时跟踪检测]
1.(2019·广雅中学期中)为研究变量x和y的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线l1和l2两人计算知相同,也相同,下列正确的是( )
A.l1与l2重合 B.l1与l2一定平行
C.l1与l2相交于点(,) D.无法判断l1和l2是否相交
解析:选C 由于线性回归直线一定经过样本点的中心(,),所以l1与l2相交于点(,),故选C.
2.(2018·邵阳二模)假设有两个分类变量X和Y的2×2列联表如下:
Y
X
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
60
40
100
对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( )
A.a=45,c=15 B.a=40,c=20
C.a=35,c=25 D.a=30,c=30
解析:选A 根据2×2列联表与独立性检验可知,当与相差越大时,X与Y有关系的可能性越大,即a,c相差越大,与相差越大,故选A.
3.(2019·太原一模)已知某产品的广告费用x(单位:万元)与销售额y(单位:万元)具有线性相关关系,其统计数据如下表:
x
3
4
5
6
y
25
30
40
45
由上表可得线性回归方程=x+,据此模型预测广告费用为8万元时的销售额是( )
A.59.5万元 B.52.5万元
C.56万元 D.63.5万元
解析:选A 由表可知=4.5,=35,所以计算得=7,=3.5,所以线性回归方程为=7x+3.5,所以广告费用为8万元时销售额的预测值为59.5万元,故选A.
4.(2019·商丘第一中学一模)某医疗所为了检查新开发的流感疫苗对甲型H1N1流感的预防作用,把1 000名注射疫苗的人与另外1 000名未注射疫苗的人半年的感冒记录作比较,提出假设H0:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算得P(K2≥6.635)≈0.01,则下列说法正确的是( )
A.这种疫苗能起到预防甲型H1N1流感的有效率为1%
B.若某人未使用疫苗则他在半年中有99%的可能性得甲型H1N1流感
C.有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”
D.有1%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”
解析:选C 因为P(K2≥6.635)≈0.01,这说明假设不合理的程度为99%,即这种疫苗不能起到预防甲型H1N1流感的作用不合理的程度约为99%,所以有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”,故选C.
5.(2019·柳州高中一模)根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到了回归方程=bx+a,则( )
A.a>0,b>0 B.a<0,b>0
C.a>0,b<0 D.a<0,b<0
解析:选C 由表格数据可知y与x是负相关关系,所以b<0,且当x=0时,y>0,所以a>0,故选C.
6.(2019·四川石室中学月考)统计显示,目前我国中型规模以上工业、企业的用能量占全社会能源消耗的70%左右.其中,用能量占全社会用能量60%以上的企业是仅占全国企业的高耗能企业.某厂进行节能降耗技术改造后,下面是该厂节能降耗技术改造后连续五年的生产利润:
第x年
1
2
3
4
5
年生产利润y(单位:千万元)
0.6
0.8
0.9
1.2
1.5
预测第7年该厂的生产利润约为( )
A.1.88千万元 B.2.22千万元
C.1.56千万元 D.2.35千万元
解析:选A 由所给数据计算得=×(1+2+3+4+5)=3,=×(0.6+0.8+0.9+1.2+1.5)=1,==0.22,=- =1-0.22×3=0.34,则所求的线性回归方程为=0.22x+0.34,当x=7时,=0.22×7+0.34=1.88,于是预测第7年该厂的生产利润约为1.88千万元.故选A.
7.(2019·山西实验中学一模)某电子产品的成本价格由两部分组成,一是固定成本,二是可变成本,为确定该产品的成本,进行5次试验,收集到的数据如表:
产品数x个
10
20
30
40
50
产品总成本(元)
62
a
75
81
89
由最小二乘法得到回归方程=0.67x+54.9,则a=________.
解析:计算可得,=30,=,所以=0.67×30+54.9,解得a=68.
答案:68
8.(2019·湖南师大附中月考)在西非肆虐的“埃博拉病毒”的传播速度很快,已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:
感染
未感染
总计
服用
10
40
50
未服用
20
30
50
总计
30
70
100
参考公式:K2=
P(K2>k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参照附表,在犯错误的概率最多不超过________(填百分比)的前提下,可认为“该种疫苗有预防埃博拉病毒感染的效果”.
解析:由题意可得,K2=≈4.762>3.841,参照附表可得,在犯错误的概率不超过5%的前提下,可认为“该种疫苗有预防埃博拉病毒感染的效果”.
答案:5%
9.某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m与年销售额t(单位:百万元)进行了初步统计,得到下列表格中的数据:
年广告支出m
2
4
5
6
8
年销售额t
30
40
p
50
70
经测算,年广告支出m与年销售额t满足线性回归方程=6.5m+17.5,则p=________.
解析:由于回归直线过样本点的中心,=5,=,代入=6.5m+17.5,解得p=60.
答案:60
10.(2019·河南豫南豫北联考)某老师对全班50名学生学习积极性和参加社团活动情况进行调查,统计数据如下所示:
参加社团活动
不参加社团活动
总计
学习积极性高
25
学习积极性一般
5
总计
28
50
(1)请把表格数据补充完整;
(2)若从不参加社团活动的28人中按照分层抽样的方法选取7人,再从所选出的7人中随机选取2人作为代表发言,求至少有一人学习积极性高的概率;
(3)运用独立性检验的思想方法分析,请你判断是否有99.9%的把握认为学生的学习积极性与参与社团活动有关系?
附:K2=,n=a+b+c+d.
P(K2≥k0)
0.05
0.01
0.001
k0
3.841
6.635
10.828
解:(1)
参加社团活动
不参加社团活动
总计
学习积极性高
17
8
25
学习积极性一般
5
20
25
总计
22
28
50
(2)28人中选7人,由分层抽样可知7人中学习积极性高的有2人,学习积极性一般的有5人,将其中学习积极性高的2人记为A,B,学习积极性一般的5人记为1,2,3,4,5,从A,B,1,2,3,4,5这7人中任选2人,共有以下21个等可能性基本事件:AB,A1,A2,A3,A4,A5,B1,B2,B3,B4,B5,12,13,14,15,23,24,25,34,35,45,则至少有一人学习积极性高的事件有11个,所以至少有一人学习积极性高的概率P=.
(3)因为K2=≈11.688>10.828,所以有99.9%的把握认为学生的学习积极性与参与社团活动有关系.
11.(2019·成都高三摸底测试)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:
指标
1号
小白鼠
2号
小白鼠
3号
小白鼠
4号
小白鼠
5号
小白鼠
A
5
7
6
9
8
B
2
2
3
4
4
(1)若通过数据分析,得知A项指标数据与B项指标数据具有线性相关关系.试根据上表,求B项指标数据y关于A项指标数据x的线性回归方程=x+;
(2)现要从这5只小白鼠中随机抽取3只,求其中至少有一只小白鼠的B项指标数据高于3的概率.
解:(1)由题意,可得=7,=3,
iyi=110,=255,==.
∵=- ,∴=-.
∴所求线性回归方程为=x-.
(2)设1号至5号小白鼠依次为a1,a2,a3,a4,a5,则在这5只小白鼠中随机抽取3只的抽取情况有a1a2a3,a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共10种.
随机抽取的3只小白鼠中至少有一只的B项指标数据高于3的情况有a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共9种.
∴从这5只小白鼠中随机抽取3只,其中至少有一只小白鼠的B项指标数据高于3的概率为.