高中数学高考11 3 变量间的相关关系与统计案例
展开
这是一份高中数学高考11 3 变量间的相关关系与统计案例,共15页。试卷主要包含了变量间的相关关系,两个变量的线性相关,回归直线方程,回归分析,分类变量,10 B,2+84=92等内容,欢迎下载使用。
11.3 变量间的相关关系与统计案例
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是确定性的函数关系,另一类是________;与函数关系不同,相关关系是一种________关系,带有随机性.
2.两个变量的线性相关
(1)如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有____________,这条直线叫________.
(2)从散点图上看,如果点分布在从左下角到右上角的区域内,那么两个变量的这种相关关系称为________;如果点分布在从左上角到右下角的区域内,那么两个变量的这种相关关系称为________.
(3)相关系数r=
当r>0时,表示两个变量正相关;当r<0时,表示两个变量负相关.r的绝对值越接近________,表示两个变量的线性相关性越强;r的绝对值越接近________,表示两个变量的线性相关性越弱.通常当r的绝对值大于0.75时,认为两个变量具有很强的线性相关关系.
3.回归直线方程
(1)通过求Q(α,β)=的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做 .该式取最小值时的α,β的值即分别为,.
(2)两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为,则
其中=,=,____________称为样本点的中心.
4.回归分析
(1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)线性回归模型用y=bx+a+e表示,其中a和b为模型的未知参数,e称为____________.它的均值满足E(e)=__________,D(e)=σ2,σ2越小,精度越________.
(3)残差:= 称为相应于点(,)的残差,残差平方和为 .
(4)相关指数R2= . R2越大,说明残差平方和 ,即模型的拟合效果 ;R2越小,残差平方和 ,即模型的拟合效果 .在线性回归模型中,R2表示解释变量对于预报变量变化的 ,R2越接近于1,表示回归的效果 .
5. 独立性检验
(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为___________.
(2)像下表所示列出两个分类变量的频数表,称为___________.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2 },其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=___________,
其中n=a+b+c+d为样本容量.
如果K2的观测值k≥k0,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的k0为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过P(K2≥k0).上面这种利用随机变量K2来判断“两个分类变量有关系”的方法称为___________.
自查自纠:
1.相关关系 非确定性
2.(1)线性相关关系 回归直线
(2)正相关 负相关 (3)1 0
3.(1)最小二乘法 (2)(,)
4. (2) 随机误差 0 高
(3)
(4)1- 越小 越好 越大 越差 贡献率 越好
5.(1)分类变量
(2)列联表
独立性检验
()在下列由x,y两个变量数据绘制成的散点图中,相关关系最强的是
( )
解:对于A,图中各点成带状分布,这组变量具有较强的线性相关关系.对于B、C、D,散点图中样本点成片状分布,所以两个变量的线性相关关系相对较弱些.故选A.
()某校学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查了100人,得到如下数据.
不关注
关注
总计
男生
30
15
45
女生
45
10
55
总计
75
25
100
根据表中数据,通过计算统计量K2=,并参考以下临界数值:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
k0
2.072
2.706
3.841
5.024
6.635
若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过
( )
A.0.10 B.0.05 C.0.025 D.0.01
解:根据表中数据,计算统计量
K2=≈3.03>2.706,
参考临界数据知,认为“学生对2018年俄罗斯世界杯的关注与性别有关”,此结论出错的概率不超过0.10.故选A.
()已知四个命题:
①在回归分析中,R2可以用来刻画回归效果,R2的值越大,模型的拟合效果越好;
②在独立性检验中,随机变量K2的值越大,说明两个分类变量有关系的可能性越大;
③在回归方程=0.2x+12中,当解释变量x每增加1个单位时,预报变量y^平均增加1个单位;
④两个随机变量相关性越弱,则相关系数的绝对值越接近于1.
其中真命题是 ( )
A.①④ B.②④ C.①② D.②③
解:①相关指数R2表示解释变量对预报变量的贡献率,R2的值越大,说明回归模型的拟合效果越好,故①正确.
②由K2的计算公式可知,对分类变量X与Y的随机变量K2的观测值k来说,k越小,判断“X与Y有关系”的把握越小,随机变量K2的值越大,说明两个分类变量有关系的可能性越大,故②正确.
③在回归直线方程=0.2x+12中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位,故③错误.
④两个随机变量相关性越强,则相关系数的绝对值越接近于1;两个随机变量相关性越弱,则相关系数的绝对值越接近于0,故④不正确.故选C.
()为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为.已知=225,=1600,=4.该班某学生的脚长为24,据此估计其身高为________厘米.
解:由已知得=22.5,=160,则= 160-4×22.5=70,当x=24时,=4×24+70=166,故填166.
()某工厂为研究某种产品产量x(吨)与所需某种原材料y(吨)的相关性,在生产过程中收集4组对应数据(x,y)如下表所示.(残差=真实值-预测值)
x
3
4
5
6
y
2.5
3
4
m
根据表中数据,得出y关于x的线性回归方程为:=0.7x+a.据此计算出在样本(4,3)处的残差为-0.15,则表中m的值为________.
解:由题意可得=3.15,则在(4,3)处3.15=0.7×4+a,所以a=0.35.
产量x的平均值=(3+4+5+6)=4.5,
则=0.7 +0.35,即(9.5+m)=0.7×4.5+0.35,
解得m=4.5.故填4.5.
类型一 相关关系的判断
下列变量间的关系,是相关关系的为
( )
①正方体的体积与棱长之间的关系;
②一块农田的水稻产量与施肥量之间的关系;
③商品销售收入与其广告费支出之间的关系;
④人体内的脂肪含量与年龄之间的关系.
A.①②③ B.②③④
C.①②④ D.①③④
解:①由正方体的棱长和体积的公式可知,正方体的体积等于棱长的立方,所以①是确定的函数关系(此时可排除A、C、D,选B).易知②③④中变量间的关系均为不确定的相关关系.故选B.
点 拨:
要注意函数关系与相关关系的区别:函数关系是确定性关系,而相关关系是随机的、不确定的.
()儿子的身高和父亲的身高是 ( )
A.确定性关系 B.相关关系
C.函数关系 D.无任何关系
解:由于儿子的身高和父亲的身高是不确定的关系,所以是相关关系.故选B.
()下列说法中正确的是________.(填序号)
①相关关系是一种确定性关系;
②变量间的线性相关系数r的取值范围为[-1,1];
③变量间的线性相关系数r的绝对值越近接0,则变量间的线性相关程度越低;
④相关系数r与回归系数始终同号.
解:根据题意,依次分析四个说法:
对于①,在回归分析中,变量间的相关关系非函数关系,是一种不确定的关系,①错误;
对于②,相关系数r满足|r|≤1,②正确;
对于③,根据相关系数的性质:|r|≤1,且|r|越接近1,相关程度越大;|r|越接近0,相关程度越小,③正确;
对于④,由r与b的计算公式知相关系数r与回归系数始终同号,④正确.故填②③④.
点 拨:
用相关系数r可以衡量两个变量之间的相关关系的强弱,r的绝对值越接近于1,表示两个变量的线性相关性越强,且r的正负即表示两个变量相关性的正负.相关系数的取值范围是[-1,1].
()下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明.
附注:
参考数据:=9.32,=40.17,
=0.55,≈2.646.
参考公式:
相关系数r=.
解:由折线图中数据和附注中参考数据得
=4,=28,=0.55,
=40.17-4×9.32=2.89,
r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
类型二 散点图
()某中学的兴趣小组在某座山上测得海拔高度(km)、气压(kPa)和沸点(℃)的六组数据绘制成的散点图如图所示,则下列说法错误的是 ( )
A.沸点与海拔高度呈正相关
B.沸点与气压呈正相关
C.沸点与海拔高度呈负相关
D.沸点与海拔高度、沸点与气压的相关性都很强
解:由图1知气压随海拔高度的增加而减小,由图2知沸点随气压的升高而升高,所以沸点与气压呈正相关,B正确;沸点与海拔高度呈负相关,C正确,A错误;由于两个散点图中的点都成线性分布,所以沸点与海拔高度、沸点与气压的相关性都很强,D正确.故选A.
点 拨:
除了相关系数外,散点图也可以判断两个变量的相关关系.点分布在从左下角到右上角的区域时,两个变量呈现正相关;点分布在从左上角到右下角的区域时,两个变量呈负相关.
()某次考试,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理分数对应如下表.
学生编号
1
2
3
4
5
6
7
8
数学分数x
60
65
70
75
80
85
90
95
物理分数y
72
77
80
84
88
90
93
95
绘出散点图如下.
根据以上信息,判断下列结论:
①根据此散点图,可以判断数学成绩与物理成绩具有线性相关关系;
②根据此散点图,可以判断数学成绩与物理成绩具有一次函数关系;
③甲同学数学考了80分,那么,他的物理成绩一定比数学只考了60分的乙同学的物理成绩要高.
其中正确的个数为 ( )
A.0 B.1 C.2 D.3
解:对于①,根据此散点图知,各点都分布在一条直线附近,可以判断数学成绩与物理成绩具有较强的线性相关关系,①正确;
对于②,根据此散点图,可以判断数学成绩与物理成绩具有较强的线性相关关系,不是一次函数关系,②错误;
对于③,甲同学数学考了80分,他的物理成绩可能比数学只考了60分的乙同学的物理成绩低,所以③错误.
综上,正确的结论是①,只有1个.故选B.
类型三 线性回归方程
()已知变量x,y之间的线性回归方程为=-0.7x+10.3,且变量x,y之间的一组相关数据如表所示,则下列说法错误的是 ( )
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间呈现负相关关系
B.可以预测,当x=20时,y=-3.7
C.m=4
D.由表格数据可知,该回归直线必过点(9,4)
解:对于A:根据b的正负即可判断正负相关关系,b=-0.7<0,负相关.
对于B,当x=20时,代入可得y=-3.7.
对于C,根据表中数据:=(6+8+10+12)=9,可得=-0.7×9+10.3=4,即(6+m+3+2)=4,解得m=5.
对于D,线性回归方程一定过点(,),即(9,4).故选C.
点 拨:
回归方程一定通过样本点的中心(,);中心相同的样本点的回归方程不一定相同.
()如果在一次试验中,测得(x,y)的四组数值分别是A(1,3),B(2,3.8),C(3,5.2),D(4,6),则y与x之间的回归直线方程可能为 ( )
A.=-x+7
B.=1.04x+1.9
C.=1.9x+1.04
D.=1.05x-0.9
解:因为==2.5,==4.5,所以这组数据的样本中心点是(2.5,4.5),又x与y呈正相关,所以只有B符合.故选B.
()某商家欲将购进的一批成本价为4元/件的商品卖出,为了对这种产品制定合理售价,将该产品按事先拟定的价格进行试销,得到如下6组数据.
单价x/元
8
8.2
8.4
8.6
8.8
9
销量y/件
90
84
83
80
75
68
(1)若90≤x+y<100,就说产品“定价合理”,现从这6组数据中任意抽取2组数据,求这2组数据均为“定价合理”的概率;
(2)求出y关于x的线性回归方程=x+,预计在今后的销售中,销量与单价仍服从此关系,为了获得最大利润,该产品的销售单价应定为多少元?(利润=销售收入-成本,精确到0.1元)
参考公式:
==,
=-.
解:(1)从这6组数据中任意抽取2组数据有15种情况,“定价合理”的有:8+90=98,8.2+84=92.2,8.4+83=91.4,从中任取2组有3种情况,
则所求概率P==.
(2)因为=8.5,=80,
=0.7,=-14,
则==-20,=-=250.
则y关于x的线性回归方程是y=-20x+250,
利润函数L(x)=x(-20x+250)-4(-20x+250)=-20x2+330x-1 000,
当x=-=8.25时,L(x)取得最大值361.25,
故当单价定为8.2元或8.3元时,可获得最大利润.
点 拨:
牢记求线性回归方程的步骤:第一步,列表;第二步,计算x,y,,或,;第三步,代入公式求,再利用=-求;第四步,写出回归方程.
(2017重庆高三学业质量调研)某科技兴趣小组对昼夜温差的大小与小麦新品种发芽多少之间的关系进行了研究,记录了2017年12月1日至12月5日五天的昼夜温差与相应每天100颗种子的发芽数得到了如下数据:
日期
12月
1日
12月
2日
12月
3日
12月
4日
12月
5日
温差x(℃)
9
11
10
12
13
发芽数y(颗)
21
34
26
36
40
现从这5组数据中任选两组,用余下的三组数据求回归直线方程,再对被选取的两组数据进行检验.
(1)求选取的两组数据恰好是不相邻的两天的概率;
(2)若选取的是12月1日和12月5日的两组数据,请根据余下的三组数据,求出y与x的回归直线方程=x+;
(3)若由回归直线方程得到的估计值与所选出的两组实际数据的误差均不超过两颗,则认为得到的回归直线方程是可靠的,试判断(2)中得到的回归直线方程是否可靠.
附:在回归方程=x+中,=.
解:(1)设五组数据依次是A1,A2,A3,A4,A5,则取出的两组数据构成:Ω={A1A2,A1A3,A1A4,A1A5,A2A3,A2A4,A2A5,A3A4,A3A5,A4A5},共有10个元素.
则选取的两组数据恰好不相邻这一事件为:
A={A1A3,A1A4,A1A5,A2A4,A2A5,A3A5},有6个元素.
所以所求概率P==.
(2)因为x(—)==11,y(—)==32,
所以==5,
又因为x+=y,5×11+=32,即=-23,所以线性回归方程为=5x-23,
(3)所以当x=9时,=5×9-23=22,这与实际值y=21比较,误差没有超过两颗,又当x=13时,=5×13-23=42,而实际值y=40,误差也没有超过两颗,
所以(2)中得到的线性回归方程=5x-23是可靠的.
类型四 回归分析
()某种农作物可以生长在滩涂和盐碱地,它的灌溉是将海水稀释后进行灌溉.某实验基地为了研究海水浓度x(%)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
海水浓度x(%)
3
4
5
6
7
亩产量y(吨)
0.57
0.53
0.44
0.36
0.30
残差e^i
-0.01
0.02
m
n
0
绘制散点图发现,可以用线性回归模型拟合亩产量y(吨)与海水浓度x(%)之间的相关关系,用最小二乘法计算得y与x之间的线性回归方程为= -0.07x+.
(1)求,m,n的值;
(2)统计学中常用相关指数R2来刻画回归效果,R2越大,回归效果越好,如假设R2=0.85,就说明预报变量y的差异有85%是解释变量x引起的.请计算相关指数R2(精确到0.01),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?
附:残差=yi-,相关指数R2=1-,其中=0.051.
解:(1)因为=(3+4+5+6+7)=5.
=(0.57+0.53+0.44+0.36+0.30)=0.44.
所以0.44=-0.07×5+,即=0.79.
所以线性回归方程为y^=-0.07x+0.79,
所以=-0.07×5+0.79=0.44,
m=y3-=0.44-0.44=0.
=-0.07×6+0.79=0.37,
n=y4-=0.36-0.37=-0.01.
(2) =(-0.01)2+0.022+02+ (-0.01)2+02=0.000 6.
所以相关指数R2=1-≈0.99.
故亩产量的变化有99%是由海水浓度引起的.
点 拨:
用相关指数R2来刻画回归效果,R2越大,说明模型拟合的效果越好.另外,计算也不能出错.
()下列关于回归分析的说法中错误的个数是 ( )
①残差图中残差点所在的水平带状区域越宽,则回归方程的预报精确度越高;
②回归直线一定过样本中心(,);
③两个模型中残差平方和越小的模型拟合的效果越好;
④甲、乙两个模型的R2分别约为0.88和0.80,则模型乙的拟合效果更好.
A.4 B.3 C.2 D.1
解:对于①,残差图中残差点所在的水平带状区域越窄,则回归方程的预报精确度越高,所以①错误;
对于②,回归直线一定过样本中心(,),正确;
对于③,两个模型中残差平方和越小的模型拟合的效果越好,正确;
对于④,R2越大,则模型的拟合效果越好,所以④错误.
综上,错误的命题是①、④,共2个.故选C.
类型五 独立性检验
下列说法中正确的是 ( )
①独立性检验的基本思想是带有概率性质的反证法;
②独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断;
③独立性检验一定能给出明确的结论.
A.①② B.①③ C.②③ D.①②③
解:假设检验的基本思想是:“在一次试验中,小概率事件不可能发生”,若小概率事件发生了,则有理由认为原假设不成立,故①②正确,当小概率事件没有发生,则不能拒绝原假设但也不能够肯定原假设,此时结论不明确,③不正确.故选A.
点 拨:
独立性检验得出的结果是带有概率性质的,只能说结论成立的概率有多大,而不能下确定性结论.
某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算的K2≈3.918,经查临界值表知P(K2≥3.841)=0.05,则下列表述中正确的是
( )
A.有95%的把握认为“这种血清能起到预防感冒的作用”
B.若有人未使用该血清,那么他在一年中有95%的可能性得感冒
C.这种血清预防感冒的有效率为95%
D.这种血清预防感冒的有效率为5%
解:由题意有3.918>3.841,这样得出有95%的把握认为“这种血清能起到预防感冒的作用”.故选A.
()近年来我国电子商务行业迎来发展的新机遇,与此同时,相关管理部门推出了针对电商商品和服务的评价体系.现从评价系统中选出200次成功的交易,并对其评价进行统计,对商品好评率为,对服务好评率为,其中对商品和服务都做出好评的交易为80次.
(1)是否可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关?
(2)若针对商品的好评率,采用分层抽样的方式从这200次交易中取出5次交易,并从中选择2次交易进行客户回访,求只有1次好评的概率.
附:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:
K2=,n=a+b+c+d.
解:(1)由题意可得关于商品评价和服务评价的2×2列联表:
对服务好评
对服务不满意
合计
对商品好评
80
40
120
对商品不满意
70
10
80
合计
150
50
200
所以K2=≈11.111>10.828,
所以可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关.
(2)若针对商品的好评率,采用分层抽样的方式从这200次交易中取出5次交易,则好评的交易次数为3,不满意的次数为2.
因此,只有1次好评的概率为==.
点 拨:
本题重点考查独立性检验、分层抽样及古典概型,这类题型在近年各地模拟题中出现频次较高.
()为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示.
阅读时间
[0,20)
[20,40)
[40,60)
[60,80)
[80,100)
[100,120]
人数
8
10
12
11
7
2
若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条形图.
(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表);
(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?
男生
女生
总计
阅读达人
非阅读达人
总计
附:参考公式
K2=,其中n=a+b+c+d.
临界值表:
P(K2≥k)
0.100
0.050
0.010
0.001
k
2.706
3.841
6.635
10.828
解:(1)该校学生的每天平均阅读时间为:
10×+30×+50×+70×+90×+110×=52(分).
(2)由频数分布表得,“阅读达人”的人数是11+7+2=20人,根据等高条形图作出2×2列联表如下:
男生
女生
总计
阅读达人
6
14
20
非阅读达人
18
12
30
总计
24
26
50
计算K2==≈4.327.
由4.327<6.635,故没有99%的把握认为“阅读达人”跟性别有关.
1.用散点图判断相关关系
(1)如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.
(2)如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系.
(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
2.回归分析中应注意的问题
(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则无意义.
(2)根据回归方程进行的估计仅是一个预测值,而不是真实发生的值.
(3)用最小二乘法求回归方程,关键在于正确求出系数,,由于,的计算量较大,计算应仔细小心.
3.线性回归分析的方法、步骤
(1)画出两个变量的散点图;
(2)求相关系数r,并确定两个变量的相关程度的高低;
(3)用最小二乘法求回归直线方程=x+,
(4)利用回归直线方程进行预报.
注:①对于非线性(可线性化)的回归分析,一般是利用条件及我们熟识的函数模型,将题目中的非线性关系转化为线性关系进行分析,最后还原.②利用相关指数R2=1-刻画回归效果时,R2越大,意味着残差平方和越小,模型的拟合效果越好.
4.独立性检验的一般步骤
(1)假设两个分类变量x与y没有关系.
(2)计算出K2的观测值,其中
K2=.
(3)把K2的值与临界值比较,作出合理的判断.
5.独立性检验的注意事项
(1)在列联表中注意事件的对应及相关值的确定,不可混淆.
(2)在实际问题中,独立性检验的结论仅是一种数学关系表述,得到的结论有一定的概率出错.
(3)对判断结果进行描述时,注意对象的选取要准确无误.
1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并由回归分析法分别求得相关指数R2与残差平方和m如下表.
甲
乙
丙
丁
R2
0.85
0.78
0.69
0.82
m
103
106
124
115
则哪位同学的试验结果体现A,B两变量更强的线性相关性 ( )
A.甲 B.乙 C.丙 D.丁
解:因为相关指数R2越大,残差平方和m越小,拟合效果越好.故选A.
2.()已知两个随机变量x,y之间的相关关系如表所示.
x
-4
-2
1
2
4
y
3
1
-0.5
-1
-2
根据上述数据得到的回归方程为=x+,则大致可以判断 ( )
A.>0,<0 B.<0,<0
C.>0,>0 D.<0,>0
解:根据随机变量x,y在表格中的数据可以看出,y随x的增大而减小,因此<0,由于=0.2,=0.1,=-=0.1-0.2>0.故选A.
3.()某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:吨)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
有下列5个曲线类型:①y=bx+a;②y=c+d;③y=p+qlnx;④y=k1+ek2x;⑤y=c1x2+c2,则较适宜作为年销售量y关于年宣传费x的回归方程的是 ( )
A.①② B.②③ C.②④ D.③⑤
解:从散点图知,样本点分布在开口向右的抛物线(上支)附近或对数曲线(在x轴上方部分)的附近,所以y=c+d或y=p+qlnx较适宜.故选B.
4.()在两个分类变量的独立性检验过程中有如下表格.
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
已知两个分类变量X和Y,如果在犯错误的概率不超过0.05的前提下认为X和Y有关系,则随机变量K2的观测值可以位于的区间是 ( )
A.(0.05,0.10) B.(0.025,0.05)
C.(2.706,3.841) D.(3.841,5.024)
解:根据题意,在犯错误的概率不超过0.05的前提下认为X和Y有关系,则随机变量K2的观测值k应满足:3.841<k<5.024,即(3.841,5.024).故选D.
5.()已知一组数据(1,2),(3,5),(6,8),(x0,y0)的线性回归方程为=x+2,则x0-y0的值为 ( )
A.-5 B.-3 C.-2 D.-1
解:由题意知=(10+x0),=(15+y0),
因为线性回归方程为=x+2,
所以(15+y0)=(10+x0)+2,
解得x0-y0=-3.故选B.
6.()某同学用收集到的6组数据对(xi,yi)(i=1,2,3,4,5,6)制作成如图所示的散点图(点旁的数据为该点坐标),并由最小二乘法计算得到回归直线l1的方程:
=+,相关系数为r1,相关指数为R;经过残差分析确定点E为“离群点”(对应残差过大的点),把它去掉后,再用剩下的5组数据计算得到回归直线l2的方程:=+,相关系数为r2,相关指数为R.则以下结论中,不正确的是( )
A.r1>0,r2>0 B.>0,>0
C.> D.R>R
解:从散点图中可以看出,两个变量是正相关,所以选项A是正确的;从图中可以看出,回归直线的斜率是正数,所以选项B和C是正确的;R2值越大,说明残差的平方和越小,也就是说模型的拟合效果越好,所以选项D是错误的.故选D.
7.()博鳌亚洲论坛2018年年会于4月8日至11日在海南博鳌举行.为了搞好对外宣传工作,设会务组选聘了50名记者担任对外翻译工作,则在下面“性别与会俄语”的2×2列联表中,a-b+d=________.
会俄语
不会俄语
总计
男
a
b
20
女
6
d
总计
1850
解:由2×2列联表得a+6=18,所以a=12,因为a+b=20,所以b=8,因为6+d=30,所以d=24,所以a-b+d=12-8+24=28.故填28.
8.()已知一组数据确定的回归直线方程为=-1.5x+1,且y=4,发现两组数据(-1.7,2.9),(-2.3,5.1)误差较大,去掉这两组数据后,重新求得回归直线的斜率为-1,则此时,当x=-3,=________.
解:数据的样本中心点为(-2,4),
去掉(-1.7,2.9),(-2.3,5.1)后,样本中心不变,
重新求得的回归直线的斜率为-1,
回归直线方程设为=-x+,代入(-2,4),求得=2,
所以回归直线的方程为=-x+2,
将x=-3代入回归直线方程求得=5.故填5.
9.()下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解:利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(Ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(Ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
以上给出了两种理由,写出其中任意一种或其他合理理由均可.
10.() PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5的数据如下表.
时间
周一
周二
周三
周四
周五
车流量x(万辆)
50
51
54
57
58
PM2.5的浓度y(微克/立方米)
69
70
74
78
79
(1)根据上表数据,请在所给的坐标系中画出散点图;
(2)根据上表数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)若周六同一时间段的车流量是25万辆,试根据(2)求出的线性回归方程,预测此时PM2.5的浓度为多少?(保留整数)
参考公式:由最小二乘法所得回归直线的方程是:=x+,其中=,
=-.
解:(1)散点图如下图所示.
(2)因为==54,
==74,
=4×5+3×4+3×4+4×5= 64,=(-4)2+(-3)2+33+44=50,
==1.28,=y-x=74-1.28×54=4.88,
故y关于x的线性回归方程是:=1.28x+4.88.
(3)当x=25时,y=1.28×25+4.88=36.88≈37.
所以可以预测此时PM2.5的浓度约为37微克/立方米.
11.()海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下.
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量
相关试卷
这是一份高中数学高考课后限时集训64 变量间的相关关系与统计案例 作业,共11页。试卷主要包含了选择题,填空题,解答题等内容,欢迎下载使用。
这是一份高中数学高考课后限时集训62 变量间的相关关系、统计案例 作业,共12页。试卷主要包含了选择题,填空题,解答题等内容,欢迎下载使用。
这是一份高中数学高考第63讲 变量间的相关关系、统计案例(讲)(学生版),共12页。试卷主要包含了变量间的相关关系,两个变量的线性相关,独立性检验等内容,欢迎下载使用。