所属成套资源:2020高考人教版A版理科数学数学一轮复习讲义
2020版高考数学(理)新创新一轮复习通用版讲义:第十一章第四节变量间的相关关系、统计案例
展开
第四节变量间的相关关系、统计案例
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为=x+❶,其中==, =-.
(3)通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.❷
3.独立性检验
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
K2=(其中n=a+b+c+d为样本容量).
相关关系与函数关系异同点
共同点:二者都是指两个变量间的关系.
不同点:函数关系是一种确定性关系,体现的是因果关系;而相关关系是一种非确定性关系,体现的不一定是因果关系,可能是伴随关系.
回归直线=x+必过样本点的中心(,),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.
r的符号表明两个变量是正相关还是负相关;|r|的大小表示线性相关性的强弱.
独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
[小题查验基础]
一、判断题(对的打“√”,错的打“×”)
(1)散点图是判断两个变量是否相关的一种重要方法和手段.( )
(2)回归直线方程=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
(3)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( )
(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( )
答案:(1)√ (2)× (3)× (4)√
二、选填题
1.已知变量x,y之间具有线性相关关系,其散点图如图所示,回归直线l的方程为=x+,则下列说法正确的是( )
A.>0,<0
B.>0,>0
C.<0,<0
D.<0,>0
解析:选D 由题图可知,回归直线的斜率是正数,即>0;回归直线在y轴上的截距是负数,即<0,故选D.
2.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是( )
A.l1和l2必定平行
B.l1与l2必定重合
C.l1和l2一定有公共点(s,t)
D.l1与l2相交,但交点不一定是(s,t)
解析:选C 注意到回归直线必经过样本中心点.
3.下面是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中a,b的值分别为________,________.
解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.
答案:52 74
4.已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为=0.95x+,则=________.
x
0
1
3
4
y
2.2
4.3
4.8
6.7
解析:∵回归直线必过样本点的中心(,),又=2,=4.5,代入回归方程,得=2.6.
答案:2.6
[题组练透]
1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )
A.①②③ B.②③①
C.②①③ D.①③②
解析:选D 第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.
2.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析:选C 因为y=-0.1x+1的斜率小于0,
故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
解析:选D 所有样本点均在同一条斜率为正数的直线上,则样本相关系数最大,为1,故选D.
4.变量X与Y相应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2<r1<0 B.0<r2<r1
C.r2<0<r1 D.r2=r1
解析:选C 对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.
[名师微点]
判断相关关系的2种方法
(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.
[典例精析]
下图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量.
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=- .
[解] (1)由折线图中的数据和附注中的参考数据得
=4,(ti-)2=28, =0.55,
(ti-)(yi-)=iyi-i=40.17-4×9.32=2.89,
∴r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103.
=- ≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2019年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以,预测2019年我国生活垃圾无害化处理量约为1.82亿吨.
[解题技法]
1.线性回归分析问题的类型及解题方法
(1)求线性回归方程
①利用公式,求出回归系数,.
②待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
2.模型拟合效果的判断
(1)残差平方和越小,模型的拟合效果越好.
(2)相关指数R2越大,模型的拟合效果越好.
(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
[过关训练]
1.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.
(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:
周光照量X/小时
30<X<50
50≤X≤70
X>70
光照控制仪运行台数
3
2
1
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.
参考数据:≈0.55,≈0.95.
解:(1)由已知数据可得==5,
==4.
因为(xi-)(yi-)=(-3)×(-1)+0+0+0+3×1=6,
==2,
==,
所以相关系数r=== ≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
(2)由条件可得在过去50周里,
当X>70时,共有10周,此时只有1台光照控制仪运行,
每周的周总利润为1×3 000-2×1 000=1 000(元).
当50≤X≤70时,共有35周,此时有2台光照控制仪运行,
每周的周总利润为2×3 000-1×1 000=5 000(元).
当30<X<50时,共有5周,此时3台光照控制仪都运行,
每周的周总利润为3×3 000=9 000(元).
所以过去50周的周总利润的平均值为
=4 600(元),
所以商家在过去50周的周总利润的平均值为4 600元.
2.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.
(xi-)2
(xi-)(yi-)
(ui-)2
(ui-)(yi-)
15.25
3.63
0.269
2 085.5
-230.3
0.787
7.049
表中ui=,=i.
(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01).
(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)
附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其回归直线=+ω的斜率和截距的最小二乘估计分别为=,=-.
解:(1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程.
(2)令u=,先建立y关于u的线性回归方程,
由于==≈8.957≈8.96,
∴=-·=3.63-8.957×0.269≈1.22,
∴y关于u的线性回归方程为=1.22+8.96u,
∴y关于x的回归方程为=1.22+.
(3)假设印刷x千册,
依题意得10x-x≥78.840,
解得x≥10,
∴至少印刷10 000册才能使销售利润不低于78 840元.
[典例精析]
(2019·河北名校联考)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:
甲厂:
分组
[29.86,29.90)
[29.90,29.94)
[29.94,29.98)
[29.98,30.02)
频数
12
63
86
182
分组
[30.02,30.06)
[30.06,30.10)
[30.10,30.14]
频数
92
61
4
乙厂:
分组
[29.86,29.90)
[29.90,29.94)
[29.94,29.98)
[29.98,30.02)
频数
29
71
85
159
分组
[30.02,30.06)
[30.06,30.10)
[30.10,30.14]
频数
76
62
18
(1)试分别估计两个分厂生产的零件的优质品率;
(2)由以上统计数据完成下面2×2列联表,并判断是否有99%的把握认为“两个分厂生产的零件的质量有差异”.
甲厂
乙厂
总计
优质品
非优质品
总计
[解] (1)甲厂抽查的500件产品中有360件优质品,从而估计甲厂生产的零件的优质品率为×100%=72%;
乙厂抽查的500件产品中有320件优质品,从而估计乙厂生产的零件的优质品率为×100%=64%.
(2)完成的2×2列联表如下:
甲厂
乙厂
总计
优质品
360
320
680
非优质品
140
180
320
总计
500
500
1 000
由表中数据计算得,
K2=≈7.353>6.635,
所以有99%的把握认为“两个分厂生产的零件的质量有差异”.
[解题技法]
独立性检验的一般步骤
(1)根据样本数据列出2×2列联表.
(2)计算随机变量K2的观测值k,查下表确定临界值k0:
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关”.
[过关训练]
(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
解:(1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间高于80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间低于79 min.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)因为K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
一、题点全面练
1.根据如下样本数据:
x
3
4
5
6
7
8
y
4.0
2.5
0.5
0.5
0.4
0.1
得到的线性回归方程为=x+,则( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
解析:选B 根据给出的数据可发现:整体上y与x呈现负相关,所以<0,由样本点(3,4.0)及(4,2.5)可知>0,故选B.
2.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
由K2=,
得K2=≈9.616.
参照下表,
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
正确的结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
解析:选C ∵K2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”,故选C.
3.(2018·哈尔滨一模)千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计:
年份/届
2014
2015
2016
2017
学科竞赛获省级一等奖及以上的学生人数x
51
49
55
57
被清华、北大等世界名校录取的学生人数y
103
96
108
107
根据上表可得回归方程=x+中的为1.35,该校2018届同学在学科竞赛中获省级一等奖及以上的学生人数为63,据此模型预测该校今年被清华、北大等世界名校录取的学生人数为( )
A.111 B.117
C.118 D.123
解析:选B 因为=53,=103.5,所以=-=103.5-1.35×53=31.95,所以回归直线方程为=1.35x+31.95.当x=63时,代入解得=117,故选B.
4.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且线性回归方程为=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )
A.66% B.67%
C.79% D.84%
解析:选D ∵y与x具有线性相关关系,且满足回归方程=0.6x+1.2,该城市居民人均工资为=5,∴可以估计该城市的职工人均消费水平=0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为=84%.
5.某炼钢厂废品率x(%)与成本y(元/吨)的线性回归直线方程为=105.492+42.569x.当成本控制在176.5元/吨时,可以预计生产的1 000吨钢中,约有________吨钢是废品(结果保留两位小数).
解析:因为176.5=105.492+42.569x,解得x≈1.668,即当成本控制在176.5元/吨时,废品率约为1.668%,所以生产的1 000吨钢中,约有1 000×1.668%=16.68吨是废品.
答案:16.68
6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)
学生的编号i
1
2
3
4
5
数学成绩x
80
75
70
65
60
物理成绩y
70
66
68
64
62
现已知其线性回归方程为=0.36x+,则根据此线性回归方程估计数学得90分的同学的物理成绩为________.
(四舍五入到整数)
解析:==70,
==66,
所以66=0.36×70+,即=40.8,
即线性回归方程为=0.36x+40.8.
当x=90时,=0.36×90+40.8=73.2≈73.
答案:73
7.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的线性回归直线方程:=0.245x+0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析:x变为x+1,=0.245(x+1)+0.321=0.245x+0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.
答案:0.245
8.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学成绩
60
65
70
75
80
85
90
95
物理成绩
72
77
80
84
88
90
93
95
给出散点图如下:
根据以上信息,判断下列结论:
①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.
其中正确的个数为________.
解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.综上,正确的个数为1.
答案:1
9.(2019·泉州一模)某测试团队为了研究“饮酒”对“驾车安全”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试,测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外情况到车子停下所需要的距离),无酒状态与酒后状态下的试验数据分别列于下表.
表1
停车距离d(米)
(10,20]
(20,30]
(30,40]
(40,50]
(50,60]
频数
26
a
b
8
2
表2
平均每毫升血液酒精含量x(毫克)
10
30
50
70
90
平均停车距离y(米)
30
50
60
70
90
已知表1数据的中位数估计值为26,回答以下问题.
(1)求a,b的值,并估计驾驶员无酒状态下停车距离的平均数;
(2)根据最小二乘法,由表2的数据计算y关于x的回归方程=x+;
(3)该测试团队认为:若驾驶员酒后驾车的平均“停车距离”y大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请根据(2)中的回归方程,预测当每毫升血液酒精含量大于多少毫克时为“醉驾”?
附:回归方程=x+中,=,=-.
解:(1)依题意,得a=50-26,解得a=40.
又a+b+36=100,解得b=24,故停车距离的平均数为
15×+25×+35×+45×+55×=27.
(2)依题意,可知=50,=60,
iyi=10×30+30×50+50×60+70×70+90×90=17 800,
=102+302+502+702+902=16 500,
所以==0.7,=60-0.7×50=25,
所以回归直线方程为=0.7x+25.
(3)由(1)知当y>81时,认定驾驶员是“醉驾”.
令>81,得0.7x+25>81,解得x>80,
则当每毫升血液酒精含量大于80毫克时认定为“醉驾”.
10.(2018·豫南九校联考)下表为2015年至2018年某百货零售企业的线下销售额(单位:万元),其中年份代码x=年份—2014.
年份代码x
1
2
3
4
线下销售额y
95
165
230
310
(1)已知y与x具有线性相关关系,求y关于x的线性回归方程,并预测2019年该百货零售企业的线下销售额;
(2)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀疑,某调查平台为了解顾客对该百货零售企业的线下销售额持续增长的看法,随机调查了55位男顾客、50位女顾客(每位顾客从“持乐观态度”和“持不乐观态度”中任选一种),其中对该百货零售企业的线下销售额持续增长持乐观态度的男顾客有10人、女顾客有20人,能否在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关?
参考公式及数据:
=,=-,
K2=,n=a+b+c+d.
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
k0
2.706
3.841
5.024
6.635
7.879
解:(1)由题意得=2.5,=200,=30,iyi=2 355,所以===71,
所以=-=200-71×2.5=22.5,
所以y关于x的线性回归方程为=71x+22.5.
由于2 019-2 014=5,所以当x=5时,=71×5+22.5=377.5,所以预测2019年该百货零售企业的线下销售额为377.5万元.
(2)由题可得2×2列联表如下:
持乐观态度
持不乐观态度
总计
男顾客
10
45
55
女顾客
20
30
50
总计
30
75
105
故K2=≈6.109.
由于6.109>5.024,所以可以在犯错误的概率不超过0.025的前提下认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关.
二、专项培优练
(一)易错专练——不丢怨枉分
1.(2019·济南诊断)某中学学生会为了调查爱好游泳运动与性别是否有关,通过随机询问110名性别不同的高中生是否爱好游泳运动,得到如下的列联表.由K2=并参照附表,得到的正确结论是( )
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
A.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别无关”
C.有99.9%的把握认为“爱好游泳运动与性别有关”
D.有99.9%的把握认为“爱好游泳运动与性别无关”
解析:选A 因为K2=≈7.822>6.635,所以有99%的把握认为“爱好游泳运动与性别有关”,所以在犯错误的概率不超过1%的前提下,认为“爱好游泳运动与性别有关”.
2.已知x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得的线性回归方程为=x+.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b′x+a′,则以下结论正确的是( )
A.>b′,>a′ B.>b′,<a′
C.< b′,>a′ D.<b′,<a′
解析:选C 由两组数据(1,0)和(2,2)可求得直线方程为y=2x-2,b′=2,a′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得===,=-=-×=-,所以<b′,>a′.
3.为了研究某班学生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其线性回归方程为=x+.已知i=225,i=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163
C.166 D.170
解析:选C ∵i=225,∴=i=22.5.
∵i=1 600,∴=i=160.
又=4,∴=-=160-4×22.5=70.
∴线性回归方程为=4x+70.
将x=24代入上式,得=4×24+70=166.
(二)素养专练——学会更学通
4.[数学运算]某高中学校对全体学生进行体育达标测试,每人测试A,B两个项目,每个项目满分均为60分.从全体学生中随机抽取了100人,分别统计他们A,B两个项目的测试成绩,得到A项目测试成绩的频率分布直方图和B项目测试成绩的频数分布表如下:
B项目测试成绩频数分布表
分数区间
频数
[0,10)
2
[10,20)
3
[20,30)
5
[30,40)
15
[40,50)
40
[50,60]
35
将学生的成绩划分为三个等级,如下表:
分数
[0,30)
[30,50)
[50,60]
等级
一般
良好
优秀
(1)在抽取的100人中,求A项目等级为优秀的人数;
(2)已知A项目等级为优秀的学生中女生有14人,A项目等级为一般或良好的学生中女生有34人,试完成下列2×2列联表,并分析是否有95%以上的把握认为“A项目等级为优秀”与性别有关?
优秀
一般或良好
总计
男生
女生
总计
(3)将样本的概率作为总体的概率,并假设A项目和B项目测试成绩互不影响,现从该校学生中随机抽取1人进行调查,试估计其A项目等级比B项目等级高的概率.
参考数据:
P(K2≥k0)
0.10
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
参考公式K2=,其中n=a+b+c+d.
解:(1)由A项目测试成绩频率分布直方图,得A项目等级为优秀的频率为0.04×10=0.4,
所以A项目等级为优秀的人数为0.4×100=40.
(2)由(1)知A项目等级为优秀的学生中,女生数为14人,男生数为26人.A项目等级为一般或良好的学生中,女生数为34人,男生数为26人.
作出如下2×2列联表:
优秀
一般或良好
总计
男生
26
26
52
女生
14
34
48
总计
40
60
100
则K2=≈4.514.
由于4.514>3.841,所以有95%以上的把握认为“A项目等级为优秀”与性别有关.
(3)设“A项目等级比B项目等级高”为事件C.
记“A项目等级为良好”为事件A1,“A项目等级为优秀”为事件A2,“B项目等级为一般”为事件B0,“B项目等级为良好”为事件B1.
于是P(A1)=(0.02+0.02)×10=0.4,P(A2)=0.4.由频率估计概率得P(B0)==0.1,P(B1)==0.55.
因为事件Ai与Bj相互独立,其中i=1,2,j=0,1,所以P(C)=P(A1B0+A2B0+A2B1)=0.4×0.1+0.4×0.1+0.4×0.55=0.3.
所以随机抽取一名学生,其A项目等级比B项目等级高的概率为0.3.
5.[数据分析]下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,学生答出其中任意一种或其他合理理由均可得分)