还剩21页未读,
继续阅读
所属成套资源:2020高考人教通用版理科数学新增分一轮讲义
成套系列资料,整套一键下载
2020版高考数学(理)新增分大一轮人教通用版讲义:第十一章 算法、统计与统计案例11.4
展开
§11.4 变量的相关性
最新考纲
考情考向分析
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
3.了解独立性检验的基本思想、方法及其初步应用.
4.了解回归分析的基本思想、方法及简单应用.
回归分析,独立性检验是全国卷高考重点考查的内容,必考一个解答题,选择、填空题中也会出现.主要考查回归方程,相关系数,利用回归方程进行预测,独立性检验的应用等.
1.变量间的相关关系
2.散点图
以一个变量的取值为横坐标,另一个变量的相应取值为纵坐标,在直角坐标系中描点,这样的图形叫做散点图.
3.回归直线方程与回归分析
(1)直线方程 =a+bx,叫做Y对x的回归直线方程,b叫做回归系数.要确定回归直线方程,只要确定a与回归系数b.
(2)用最小二乘法求回归直线方程中的a,b有下列公式
=, =- ,其中的 , 表示是由观察值按最小二乘法求得的a,b的估计值.
(3)相关性检验
①计算相关系数r,r具有以下性质:|r|≤1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱;
②|r|>r0.05,表明有95%的把握认为x与Y之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.
4.独立性检验
(1)2×2列联表:
B
合计
A
n11
n12
n1+
n21
n22
n2+
合计
n+1
n+2
n
其中n1+=n11+n12,n2+=n21+n22,n+1=n11+n21,n+2=n12+n22,n=n11+n12+n21+n22.
(2)χ2统计量:
χ2=.
(3)两个临界值:3.841与6.635
当χ2>3.841时,有95%的把握说事件A与B有关;
当χ2>6.635时,有99%的把握说事件A与B有关;
当χ2≤3.841时,认为事件A与B是无关的.
概念方法微思考
1.变量的相关关系与变量的函数关系有什么区别?
提示 相同点:两者均是指两个变量的关系.
不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.如何判断两个变量间的线性相关关系?
提示 散点图中点的分布从整体上看大致在一条直线附近,或者通过计算相关系数作出判断.
3.独立性检验的基本步骤是什么?
提示 列出2×2列联表,计算χ2值,根据临界值表得出结论.
4.回归直线方程是否都有实际意义?根据回归直线方程进行预报是否一定准确?
提示 (1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.
(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
题组一 思考辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × )
(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )
(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归直线方程=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.( × )
(5)事件X,Y关系越密切,则由观测数据计算得到的χ2的值越大.( √ )
题组二 教材改编
2.为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.期望与方差
C.独立性检验 D.概率
答案 C
解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
3.下面是2×2列联表:
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
答案 C
解析 ∵a+21=73,∴a=52.
又a+22=b,∴b=74.
4.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x (个)
10
20
30
40
50
加工时间y (min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
答案 68
解析 由=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a,
则62+a+75+81+89=75×5,∴a=68.
题组三 易错自纠
5.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和χ2统计量研究患肺病是否与吸烟有关.计算得χ2=4.453,经查阅临界值表知P(χ2>3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
答案 C
解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.
6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)
学生的编号i
1
2
3
4
5
数学成绩x
80
75
70
65
60
物理成绩y
70
66
68
64
62
现已知其回归直线方程为=0.36x+,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数)
答案 73
解析 ==70,
==66,
所以66=0.36×70+,=40.8,
即回归直线方程为=0.36x+40.8.
当x=90时,=0.36×90+40.8=73.2≈73.
题型一 相关关系的判断
例1 (1)观察下列各图形,
其中两个变量x,y具有相关关系的图是( )
A.①② B.①④ C.③④ D.②③
答案 C
解析 由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.
(2)(2018·沈阳质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
答案 D
解析 从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;
2007年二氧化硫排放量较2006年降低了很多,B选项正确;
虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;
自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误,故选D.
思维升华 判定两个变量正,负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:当r>0时,正相关;当r<0时,负相关.
(3)回归直线方程中:当 >0时,正相关;当 <0时,负相关.
跟踪训练1 在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C.- D.1
答案 A
解析 完全的线性关系,且为负相关,故其相关系数为-1,故选A.
题型二 回归分析
命题点1 线性回归分析
例2 下图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2011~2017.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量.
附注:
参考数据:i=9.32,iyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为:=,=- .
解 (1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28, =0.55.
(ti-)(yi-)=iyi-i
=40.17-4×9.32=2.89,
所以r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.10,
=-≈1.331-0.10×4≈0.93.
所以y关于t的回归方程为=0.93+0.10t.
将2019年对应的t=9代入回归方程得
=0.93+0.10×9=1.83.
所以预测2019年我国生活垃圾无害化处理量约为1.83亿吨.
命题点2 非线性回归
例3 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)·(yi-)
(wi-)·(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+ u的斜率和截距的最小二乘估计分别为
=,=- .
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于
===68,
=- =563-68×6.8=100.6,
所以y关于w的回归直线方程为 =100.6+68w,
因此y关于x的回归方程为 =100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值 =100.6+68=576.6,
年利润z的预报值 =576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时, 取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
思维升华 回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数.
③待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
跟踪训练2 (2018·全国Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①: =-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②: =99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预报值;
(2)你认为用哪个模型得到的预报值更可靠?并说明理由.
解 (1)利用模型①,可得该地区2018年的环境基础设施投资额的预报值为 =-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预报值为 =99+17.5×9=256.5(亿元).
(2)利用模型②得到的预报值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型 =99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预报值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预报值226.1亿元的增幅明显偏低,而利用模型②得到的预报值的增幅比较合理,说明利用模型②得到的预报值更可靠.
题型三 独立性检验
例4 (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:
P(χ2≥k0)
0.050
0.010
k0
3.841
6.635
χ2=.
解 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知,P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)根据箱产量的频率分布直方图得列联表如下:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
χ2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为50+≈52.35 (kg).
思维升华 (1)比较几个分类变量有关联的可能性大小的方法
①通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.
②通过计算|n11n22-n12n21|的大小判断:|n11n22-n12n21|越大,两变量有关联的可能性越大.
(2)独立性检验的一般步骤
①根据样本数据制成2×2列联表.
②根据公式χ2=计算χ2.
③比较χ2与临界值的大小关系,作统计推断.
跟踪训练3 (2018·沈阳检测)某企业生产的某种产品被检测出其中一项质量指标存在问题.该企业为了检查生产该产品的甲、乙两条流水线的生产情况,随机地从这两条流水线上生产的大量产品中各抽取50件产品作为样本,测出它们的这一项质量指标值.若该项质量指标值落在(195,210]内,则为合格品,否则为不合格品.甲流水线样本的频数分布表和乙流水线样本的频率分布直方图如下:
甲流水线样本的频数分布表
质量指标值
频数
(190,195]
9
(195,200]
10
(200,205]
17
(205,210]
8
(210,215]
6
乙流水线样本频率分布直方图
(1)根据乙流水线样本频率分布直方图,估计乙流水线生产产品的该项质量指标值的中位数;
(2)若将频率视为概率,某个月内甲、乙两条流水线均生产了5 000件产品,则甲,乙两条流水线分别生产出不合格品约多少件?
(3)根据已知条件完成下面2×2列联表,并回答是否有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”?
甲生产线
乙生产线
合计
合格品
不合格品
合计
附:
P(χ2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
χ2=.
解 (1)设乙流水线生产产品的该项质量指标值的中位数为x,
因为(0.012+0.032+0.052)×5=0.48<0.5
<(0.012+0.032+0.052+0.076)×5=0.86,
则(0.012+0.032+0.052)×5+0.076×(x-205)=0.5,
解得x=.
(2)由甲、乙两条流水线各抽取的50件产品可得,
甲流水线生产的不合格品有15件,
则甲流水线生产的产品为不合格品的概率为P甲==;
乙流水线生产的产品为不合格品的概率为P乙=(0.012+0.028)×5=.
于是,若某个月内甲、乙两条流水线均生产了5 000件产品,则甲、乙两条流水线生产的不合格品件数分别为5 000×=1 500,5 000×=1 000.
(3)2×2列联表:
甲生产线
乙生产线
合计
合格品
35
40
75
不合格品
15
10
25
合计
50
50
100
则χ2=
=≈1.3,
∵1.3<2.072,
∴没有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”.
回归直线方程及其应用
数据分析是指针对研究对象获得相关数据,运用统计方法对数据中的有用信息进行分析和推断,形成知识的过程.主要包括:收集数据、整理数据、提取信息、构建模型对信息进行分析、推断、获得结论.
例 某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2006
2008
2010
2012
2014
需求量/万吨
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的回归直线方程=x+;
(2)利用(1)中所求出的回归直线方程预测该地2019年的粮食需求量.
解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.
年份-2010
-4
-2
0
2
4
需求-257
-21
-11
0
19
29
对处理的数据,容易算得=0,=3.2,
===6.5,
=- =3.2.
由上述计算结果,知所求回归直线方程为
-257=6.5(x-2010)+3.2,
即=6.5(x-2010)+260.2.
(2)利用所求得的回归直线方程,可预测2019年的粮食需求量大约为6.5×(2019-2010)+260.2=6.5×9+260.2=318.7(万吨).
素养提升 例题中利用所给数据求回归方程的过程体现的就是数据分析素养.
1.已知变量x和y满足关系=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
答案 C
解析 因为 =-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设 = y+ ( >0),所以 =-0.1 x+ + ,-0.1 <0,所以x与z负相关.故选C.
2.下表提供了某工厂节能降耗技术改造后,一种产品的产量x(单位:吨)与相应的生产能耗y(单位:吨)的几组对应数据:
x/吨
3
4
5
6
y/吨
2.5
t
4
4.5
根据上表提供的数据,求得y关于x的回归直线方程为=0.7x+0.35,那么表格中t的值为( )
A.3 B.3.15 C.3.25 D.3.5
答案 A
解析 ==4.5,
==,
回归直线方程过样本点的中心(,),
所以=0.7×4.5+0.35,
解得t=3.
3.下表是我国某城市在2017年1月份至10月份期间各月最低温度与最高温度(单位:℃)的数据一览表.
月份
1
2
3
4
5
6
7
8
9
10
最高温度/℃
5
9
9
11
17
24
27
30
31
21
最低温度/℃
-12
-3
1
-2
7
17
19
23
25
10
已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是( )
A.最低温度与最高温度为正相关
B.每月最高温度与最低温度的平均值在前8个月逐月增加
C.月温差(最高温度减最低温度)的最大值出现在1月
D.1月至4月的月温差(最高温度减最低温度)相对于7月至10月,波动性更大
答案 B
解析 将最高温度、最低温度、温差列表如下:
月份
1
2
3
4
5
6
7
8
9
10
最高温度/℃
5
9
9
11
17
24
27
30
31
21
最低温度/℃
-12
-3
1
-2
7
17
19
23
25
10
温差度/℃
17
12
8
13
10
7
8
7
6
11
由表格可知,最低温度大致随最高温度的升高而升高,A正确;
每月最高温度与最低温度的平均值在前8个月不是逐月增加,B错误;
月温差的最大值出现在1月,C正确;
1月至4月的月温差相对于7月至10月,波动性更大,D正确.
4.对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其回归直线方程是=x+,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数的值是( )
A. B. C. D.
答案 B
解析 依题意可知样本点的中心为,
则=×+ ,解得 =.
5.为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计数据表:
购买食品的年支出费用x/万元
2.09
2.15
2.50
2.84
2.92
购买水果和牛奶的年支出费用y/万元
1.25
1.30
1.50
1.70
1.75
根据上表可得回归直线方程=x+,其中=0.59,=-,据此估计该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用为( )
A.1.795 万元 B.2.555 万元
C.1.915 万元 D.1.945 万元
答案 A
解析 ==2.50(万元),
==1.50(万元),
又 =0.59,
所以 =- =0.025, =0.59x+0.025,
故年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为 =0.59×3.00+0.025=1.795(万元).
6.(2018·开封模拟)下列说法错误的是( )
A.回归直线过样本点的中心(,)
B.线性回归方程对应的直线= x+至少经过其样本数据点(x1,y1),(x2,y2),…,(xn,yn)中的一个点
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好
答案 B
解析 回归直线必过样本点的中心,A正确;由残差分析可知残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C正确;在回归分析中,R2越接近于1,模拟效果越好,D正确;线性回归方程对应的直线= x+ 一定经过样本点的中心(,),但不一定经过样本的数据点,所以B错误,故选B.
7.某市居民2010~2014年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:
年份
2010
2011
2012
2013
2014
收入x
11.5
12.1
13
13.3
15
支出y
6.8
8.8
9.8
10
12
根据统计资料,居民家庭年平均收入的中位数是______,家庭年平均收入与年平均支出有________相关关系.(填“正”或“负”)
答案 13 正
解析 中位数是13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.
8.某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m与年销售额t(单位:百万元)进行了初步统计,得到下列表格中的数据:
年广告支出m
2
4
5
6
8
年销售额t
30
40
p
50
70
经测算,年广告支出m与年销售额t满足回归直线方程=6.5m+17.5,则p=________.
答案 60
解析 由于回归直线过样本点的中心,=5,=,
代入=6.5m+17.5,解得p=60.
9.以下四个命题,其中正确的序号是________.
①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③在回归直线方程=0.2x+12中,当解释变量x每增加一个单位时,预报变量平均增加0.2个单位;
④对分类变量X与Y的统计量χ2来说,χ2越小,“X与Y有关系”的把握程度越大.
答案 ②③
解析 ①是系统抽样;对于④,统计量χ2越小,说明两个相关变量有关系的把握程度越小.
10.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:
理科
文科
合计
男
13
10
23
女
7
20
27
合计
20
30
50
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.根据表中数据,得到χ2=≈4.844,则有________的把握认为选修文科与性别有关.
答案 95%
解析 由题意,χ2=≈4.844,因为5.024>4.844>3.841,所以有95%的把握认为选修文科与性别有关.
11.某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如下表.
x
1
2
3
4
y
12
28
42
56
(1)在图中画出表中数据的散点图;
(2)根据散点图选择合适的回归模型拟合y与x的关系(不必说明理由);
(3)建立y关于x的回归方程,预测第5年的销售量.
参考公式:回归直线的斜率和截距的最小二乘估计分别为
==, =- .
解 (1)作出的散点图如图所示:
(2)根据散点图可知,可以用线性回归模型拟合y与x的关系.
(3)观察(1)中散点图可知各点大致分布在一条直线附近,列出表格:
i
xi
yi
x
xiyi
1
1
12
1
12
2
2
28
4
56
3
3
42
9
126
4
4
56
16
224
∑
10
138
30
418
可得=,=,
所以 ===.
=-=-×=-2,
所以所求回归直线方程为 =x-2.
将x=5代入所求回归直线方程,得 =×5-2=71.
故预测第5年的销售量为71万件.
12.某省会城市地铁将于2019年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入(单位:百元)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
赞成定价者人数
1
2
3
5
3
4
认为价格偏高者人数
4
8
12
5
2
1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
月收入不低于55百元的人数
月收入低于55百元的人数
合计
认为价格偏高者
赞成定价者
合计
附:χ2=.
解 (1)“赞成定价者”的月平均收入为
x1=≈50.56.
“认为价格偏高者”的月平均收入为
x2==38.75,
∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).
(2)根据条件可得2×2列联表如下:
月收入不低于55百元的人数
月收入低于55百元的人数
合计
认为价格偏高者
3
29
32
赞成定价者
7
11
18
合计
10
40
50
χ2=≈6.272<6.635,
∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
13.中央政府为了应对因人口老龄化而造成的劳动力短缺问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:
年龄
[15,25)
[25,35)
[35,45)
[45,55)
[55,65]
支持“延迟退休”的人数
15
5
15
28
17
(1)由以上统计数据填写2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;
45岁以下
45岁及45岁以上
合计
支持
不支持
合计
(2)若以45岁为分界点,从不支持“延迟退休年龄政策”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽2人,求至少有1人是45岁及45岁以上的概率.
参考数据:
P(χ2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
χ2=.
解 (1)2×2列联表如下:
45岁以下
45岁及45岁以上
合计
支持
35
45
80
不支持
15
5
20
合计
50
50
100
因为χ2===6.25>3.841,
所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.
(2)从不支持“延迟退休年龄政策”的人中按分层抽样的方法抽取8人,则45岁以下的应抽6人,45岁及45岁以上的应抽2人.
则8人中随机抽2人共有C=28种抽法,
至少有1人是45岁及45岁以上共有CC+C=13(种)抽法,故所求概率为.
14.如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图.
注:年份代码1~7分别对应年份2010~2016.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程,预测2019年该企业的污水净化量.
参考数据:=54,(ti-)(yi-)=21,≈3.74,
(yi-i)2=.
参考公式:相关系数r=,
回归直线方程=+t,=,=- .
解 (1)由折线图中的数据得,
=4, (ti-)2=28, (yi-)2=18,
所以r=≈0.94.
因为y与t的相关系数近似为0.94,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系.
(2)因为=54,===,
所以=- =54-×4=51,
所以y关于t的回归直线方程为=t+ =t+51.
将2019年对应的t=10代入得 =×10+51=58.5,
所以预测2019年该企业污水净化量约为58.5吨.
15.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=12,yi=14,x=23,则实数b的值为________.
答案
解析 令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,此时==,==,代入y=bt-,得=b×-,解得b=.
16.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的,男生喜欢韩剧的人数占男生人数的,女生喜欢韩剧的人数占女生人数的.若有95%的把握认为是否喜欢韩剧和性别有关,求男生至少有多少人.
P(χ2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解 设男生人数为x,由题意可得列联表如下:
喜欢韩剧
不喜欢韩剧
合计
男生
x
女生
合计
若有95%的把握认为是否喜欢韩剧和性别有关,
则χ2>3.841,
即χ2==>3.841,
解得x>12.697.
因为各部分人数均为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有18人.
最新考纲
考情考向分析
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
3.了解独立性检验的基本思想、方法及其初步应用.
4.了解回归分析的基本思想、方法及简单应用.
回归分析,独立性检验是全国卷高考重点考查的内容,必考一个解答题,选择、填空题中也会出现.主要考查回归方程,相关系数,利用回归方程进行预测,独立性检验的应用等.
1.变量间的相关关系
2.散点图
以一个变量的取值为横坐标,另一个变量的相应取值为纵坐标,在直角坐标系中描点,这样的图形叫做散点图.
3.回归直线方程与回归分析
(1)直线方程 =a+bx,叫做Y对x的回归直线方程,b叫做回归系数.要确定回归直线方程,只要确定a与回归系数b.
(2)用最小二乘法求回归直线方程中的a,b有下列公式
=, =- ,其中的 , 表示是由观察值按最小二乘法求得的a,b的估计值.
(3)相关性检验
①计算相关系数r,r具有以下性质:|r|≤1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱;
②|r|>r0.05,表明有95%的把握认为x与Y之间具有线性相关关系,回归直线方程有意义;否则寻找回归直线方程毫无意义.
4.独立性检验
(1)2×2列联表:
B
合计
A
n11
n12
n1+
n21
n22
n2+
合计
n+1
n+2
n
其中n1+=n11+n12,n2+=n21+n22,n+1=n11+n21,n+2=n12+n22,n=n11+n12+n21+n22.
(2)χ2统计量:
χ2=.
(3)两个临界值:3.841与6.635
当χ2>3.841时,有95%的把握说事件A与B有关;
当χ2>6.635时,有99%的把握说事件A与B有关;
当χ2≤3.841时,认为事件A与B是无关的.
概念方法微思考
1.变量的相关关系与变量的函数关系有什么区别?
提示 相同点:两者均是指两个变量的关系.
不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.如何判断两个变量间的线性相关关系?
提示 散点图中点的分布从整体上看大致在一条直线附近,或者通过计算相关系数作出判断.
3.独立性检验的基本步骤是什么?
提示 列出2×2列联表,计算χ2值,根据临界值表得出结论.
4.回归直线方程是否都有实际意义?根据回归直线方程进行预报是否一定准确?
提示 (1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.
(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
题组一 思考辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( × )
(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )
(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归直线方程=-2.352x+147.767,则气温为2℃时,一定可卖出143杯热饮.( × )
(5)事件X,Y关系越密切,则由观测数据计算得到的χ2的值越大.( √ )
题组二 教材改编
2.为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.期望与方差
C.独立性检验 D.概率
答案 C
解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
3.下面是2×2列联表:
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
答案 C
解析 ∵a+21=73,∴a=52.
又a+22=b,∴b=74.
4.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x (个)
10
20
30
40
50
加工时间y (min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
答案 68
解析 由=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a,
则62+a+75+81+89=75×5,∴a=68.
题组三 易错自纠
5.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和χ2统计量研究患肺病是否与吸烟有关.计算得χ2=4.453,经查阅临界值表知P(χ2>3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
答案 C
解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.
6.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)
学生的编号i
1
2
3
4
5
数学成绩x
80
75
70
65
60
物理成绩y
70
66
68
64
62
现已知其回归直线方程为=0.36x+,则根据此线性回归方程估计数学得90分的同学的物理成绩为______.(四舍五入到整数)
答案 73
解析 ==70,
==66,
所以66=0.36×70+,=40.8,
即回归直线方程为=0.36x+40.8.
当x=90时,=0.36×90+40.8=73.2≈73.
题型一 相关关系的判断
例1 (1)观察下列各图形,
其中两个变量x,y具有相关关系的图是( )
A.①② B.①④ C.③④ D.②③
答案 C
解析 由散点图知③中的点都分布在一条直线附近.④中的点都分布在一条曲线附近,所以③④中的两个变量具有相关关系.
(2)(2018·沈阳质检)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)的柱形图.以下结论不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
答案 D
解析 从2006年,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;
2007年二氧化硫排放量较2006年降低了很多,B选项正确;
虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,C选项正确;
自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误,故选D.
思维升华 判定两个变量正,负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:当r>0时,正相关;当r<0时,负相关.
(3)回归直线方程中:当 >0时,正相关;当 <0时,负相关.
跟踪训练1 在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C.- D.1
答案 A
解析 完全的线性关系,且为负相关,故其相关系数为-1,故选A.
题型二 回归分析
命题点1 线性回归分析
例2 下图是我国2011年至2017年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2011~2017.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2019年我国生活垃圾无害化处理量.
附注:
参考数据:i=9.32,iyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为:=,=- .
解 (1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28, =0.55.
(ti-)(yi-)=iyi-i
=40.17-4×9.32=2.89,
所以r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.10,
=-≈1.331-0.10×4≈0.93.
所以y关于t的回归方程为=0.93+0.10t.
将2019年对应的t=9代入回归方程得
=0.93+0.10×9=1.83.
所以预测2019年我国生活垃圾无害化处理量约为1.83亿吨.
命题点2 非线性回归
例3 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)·(yi-)
(wi-)·(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=i.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+ u的斜率和截距的最小二乘估计分别为
=,=- .
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于
===68,
=- =563-68×6.8=100.6,
所以y关于w的回归直线方程为 =100.6+68w,
因此y关于x的回归方程为 =100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值 =100.6+68=576.6,
年利润z的预报值 =576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时, 取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
思维升华 回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数.
③待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
跟踪训练2 (2018·全国Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①: =-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②: =99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预报值;
(2)你认为用哪个模型得到的预报值更可靠?并说明理由.
解 (1)利用模型①,可得该地区2018年的环境基础设施投资额的预报值为 =-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预报值为 =99+17.5×9=256.5(亿元).
(2)利用模型②得到的预报值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型 =99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预报值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预报值226.1亿元的增幅明显偏低,而利用模型②得到的预报值的增幅比较合理,说明利用模型②得到的预报值更可靠.
题型三 独立性检验
例4 (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:
P(χ2≥k0)
0.050
0.010
k0
3.841
6.635
χ2=.
解 (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知,P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)根据箱产量的频率分布直方图得列联表如下:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
χ2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为50+≈52.35 (kg).
思维升华 (1)比较几个分类变量有关联的可能性大小的方法
①通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.
②通过计算|n11n22-n12n21|的大小判断:|n11n22-n12n21|越大,两变量有关联的可能性越大.
(2)独立性检验的一般步骤
①根据样本数据制成2×2列联表.
②根据公式χ2=计算χ2.
③比较χ2与临界值的大小关系,作统计推断.
跟踪训练3 (2018·沈阳检测)某企业生产的某种产品被检测出其中一项质量指标存在问题.该企业为了检查生产该产品的甲、乙两条流水线的生产情况,随机地从这两条流水线上生产的大量产品中各抽取50件产品作为样本,测出它们的这一项质量指标值.若该项质量指标值落在(195,210]内,则为合格品,否则为不合格品.甲流水线样本的频数分布表和乙流水线样本的频率分布直方图如下:
甲流水线样本的频数分布表
质量指标值
频数
(190,195]
9
(195,200]
10
(200,205]
17
(205,210]
8
(210,215]
6
乙流水线样本频率分布直方图
(1)根据乙流水线样本频率分布直方图,估计乙流水线生产产品的该项质量指标值的中位数;
(2)若将频率视为概率,某个月内甲、乙两条流水线均生产了5 000件产品,则甲,乙两条流水线分别生产出不合格品约多少件?
(3)根据已知条件完成下面2×2列联表,并回答是否有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”?
甲生产线
乙生产线
合计
合格品
不合格品
合计
附:
P(χ2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
χ2=.
解 (1)设乙流水线生产产品的该项质量指标值的中位数为x,
因为(0.012+0.032+0.052)×5=0.48<0.5
<(0.012+0.032+0.052+0.076)×5=0.86,
则(0.012+0.032+0.052)×5+0.076×(x-205)=0.5,
解得x=.
(2)由甲、乙两条流水线各抽取的50件产品可得,
甲流水线生产的不合格品有15件,
则甲流水线生产的产品为不合格品的概率为P甲==;
乙流水线生产的产品为不合格品的概率为P乙=(0.012+0.028)×5=.
于是,若某个月内甲、乙两条流水线均生产了5 000件产品,则甲、乙两条流水线生产的不合格品件数分别为5 000×=1 500,5 000×=1 000.
(3)2×2列联表:
甲生产线
乙生产线
合计
合格品
35
40
75
不合格品
15
10
25
合计
50
50
100
则χ2=
=≈1.3,
∵1.3<2.072,
∴没有85%的把握认为“该企业生产的这种产品的该项质量指标值与甲、乙两条流水线的选择有关”.
回归直线方程及其应用
数据分析是指针对研究对象获得相关数据,运用统计方法对数据中的有用信息进行分析和推断,形成知识的过程.主要包括:收集数据、整理数据、提取信息、构建模型对信息进行分析、推断、获得结论.
例 某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份
2006
2008
2010
2012
2014
需求量/万吨
236
246
257
276
286
(1)利用所给数据求年需求量与年份之间的回归直线方程=x+;
(2)利用(1)中所求出的回归直线方程预测该地2019年的粮食需求量.
解 (1)由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.
年份-2010
-4
-2
0
2
4
需求-257
-21
-11
0
19
29
对处理的数据,容易算得=0,=3.2,
===6.5,
=- =3.2.
由上述计算结果,知所求回归直线方程为
-257=6.5(x-2010)+3.2,
即=6.5(x-2010)+260.2.
(2)利用所求得的回归直线方程,可预测2019年的粮食需求量大约为6.5×(2019-2010)+260.2=6.5×9+260.2=318.7(万吨).
素养提升 例题中利用所给数据求回归方程的过程体现的就是数据分析素养.
1.已知变量x和y满足关系=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
答案 C
解析 因为 =-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设 = y+ ( >0),所以 =-0.1 x+ + ,-0.1 <0,所以x与z负相关.故选C.
2.下表提供了某工厂节能降耗技术改造后,一种产品的产量x(单位:吨)与相应的生产能耗y(单位:吨)的几组对应数据:
x/吨
3
4
5
6
y/吨
2.5
t
4
4.5
根据上表提供的数据,求得y关于x的回归直线方程为=0.7x+0.35,那么表格中t的值为( )
A.3 B.3.15 C.3.25 D.3.5
答案 A
解析 ==4.5,
==,
回归直线方程过样本点的中心(,),
所以=0.7×4.5+0.35,
解得t=3.
3.下表是我国某城市在2017年1月份至10月份期间各月最低温度与最高温度(单位:℃)的数据一览表.
月份
1
2
3
4
5
6
7
8
9
10
最高温度/℃
5
9
9
11
17
24
27
30
31
21
最低温度/℃
-12
-3
1
-2
7
17
19
23
25
10
已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是( )
A.最低温度与最高温度为正相关
B.每月最高温度与最低温度的平均值在前8个月逐月增加
C.月温差(最高温度减最低温度)的最大值出现在1月
D.1月至4月的月温差(最高温度减最低温度)相对于7月至10月,波动性更大
答案 B
解析 将最高温度、最低温度、温差列表如下:
月份
1
2
3
4
5
6
7
8
9
10
最高温度/℃
5
9
9
11
17
24
27
30
31
21
最低温度/℃
-12
-3
1
-2
7
17
19
23
25
10
温差度/℃
17
12
8
13
10
7
8
7
6
11
由表格可知,最低温度大致随最高温度的升高而升高,A正确;
每月最高温度与最低温度的平均值在前8个月不是逐月增加,B错误;
月温差的最大值出现在1月,C正确;
1月至4月的月温差相对于7月至10月,波动性更大,D正确.
4.对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其回归直线方程是=x+,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数的值是( )
A. B. C. D.
答案 B
解析 依题意可知样本点的中心为,
则=×+ ,解得 =.
5.为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计数据表:
购买食品的年支出费用x/万元
2.09
2.15
2.50
2.84
2.92
购买水果和牛奶的年支出费用y/万元
1.25
1.30
1.50
1.70
1.75
根据上表可得回归直线方程=x+,其中=0.59,=-,据此估计该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用为( )
A.1.795 万元 B.2.555 万元
C.1.915 万元 D.1.945 万元
答案 A
解析 ==2.50(万元),
==1.50(万元),
又 =0.59,
所以 =- =0.025, =0.59x+0.025,
故年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为 =0.59×3.00+0.025=1.795(万元).
6.(2018·开封模拟)下列说法错误的是( )
A.回归直线过样本点的中心(,)
B.线性回归方程对应的直线= x+至少经过其样本数据点(x1,y1),(x2,y2),…,(xn,yn)中的一个点
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好
答案 B
解析 回归直线必过样本点的中心,A正确;由残差分析可知残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C正确;在回归分析中,R2越接近于1,模拟效果越好,D正确;线性回归方程对应的直线= x+ 一定经过样本点的中心(,),但不一定经过样本的数据点,所以B错误,故选B.
7.某市居民2010~2014年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:
年份
2010
2011
2012
2013
2014
收入x
11.5
12.1
13
13.3
15
支出y
6.8
8.8
9.8
10
12
根据统计资料,居民家庭年平均收入的中位数是______,家庭年平均收入与年平均支出有________相关关系.(填“正”或“负”)
答案 13 正
解析 中位数是13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.
8.某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m与年销售额t(单位:百万元)进行了初步统计,得到下列表格中的数据:
年广告支出m
2
4
5
6
8
年销售额t
30
40
p
50
70
经测算,年广告支出m与年销售额t满足回归直线方程=6.5m+17.5,则p=________.
答案 60
解析 由于回归直线过样本点的中心,=5,=,
代入=6.5m+17.5,解得p=60.
9.以下四个命题,其中正确的序号是________.
①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③在回归直线方程=0.2x+12中,当解释变量x每增加一个单位时,预报变量平均增加0.2个单位;
④对分类变量X与Y的统计量χ2来说,χ2越小,“X与Y有关系”的把握程度越大.
答案 ②③
解析 ①是系统抽样;对于④,统计量χ2越小,说明两个相关变量有关系的把握程度越小.
10.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:
理科
文科
合计
男
13
10
23
女
7
20
27
合计
20
30
50
已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025.根据表中数据,得到χ2=≈4.844,则有________的把握认为选修文科与性别有关.
答案 95%
解析 由题意,χ2=≈4.844,因为5.024>4.844>3.841,所以有95%的把握认为选修文科与性别有关.
11.某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如下表.
x
1
2
3
4
y
12
28
42
56
(1)在图中画出表中数据的散点图;
(2)根据散点图选择合适的回归模型拟合y与x的关系(不必说明理由);
(3)建立y关于x的回归方程,预测第5年的销售量.
参考公式:回归直线的斜率和截距的最小二乘估计分别为
==, =- .
解 (1)作出的散点图如图所示:
(2)根据散点图可知,可以用线性回归模型拟合y与x的关系.
(3)观察(1)中散点图可知各点大致分布在一条直线附近,列出表格:
i
xi
yi
x
xiyi
1
1
12
1
12
2
2
28
4
56
3
3
42
9
126
4
4
56
16
224
∑
10
138
30
418
可得=,=,
所以 ===.
=-=-×=-2,
所以所求回归直线方程为 =x-2.
将x=5代入所求回归直线方程,得 =×5-2=71.
故预测第5年的销售量为71万件.
12.某省会城市地铁将于2019年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入(单位:百元)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
赞成定价者人数
1
2
3
5
3
4
认为价格偏高者人数
4
8
12
5
2
1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
月收入不低于55百元的人数
月收入低于55百元的人数
合计
认为价格偏高者
赞成定价者
合计
附:χ2=.
解 (1)“赞成定价者”的月平均收入为
x1=≈50.56.
“认为价格偏高者”的月平均收入为
x2==38.75,
∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).
(2)根据条件可得2×2列联表如下:
月收入不低于55百元的人数
月收入低于55百元的人数
合计
认为价格偏高者
3
29
32
赞成定价者
7
11
18
合计
10
40
50
χ2=≈6.272<6.635,
∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
13.中央政府为了应对因人口老龄化而造成的劳动力短缺问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:
年龄
[15,25)
[25,35)
[35,45)
[45,55)
[55,65]
支持“延迟退休”的人数
15
5
15
28
17
(1)由以上统计数据填写2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异;
45岁以下
45岁及45岁以上
合计
支持
不支持
合计
(2)若以45岁为分界点,从不支持“延迟退休年龄政策”的人中按分层抽样的方法抽取8人参加某项活动.现从这8人中随机抽2人,求至少有1人是45岁及45岁以上的概率.
参考数据:
P(χ2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
χ2=.
解 (1)2×2列联表如下:
45岁以下
45岁及45岁以上
合计
支持
35
45
80
不支持
15
5
20
合计
50
50
100
因为χ2===6.25>3.841,
所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.
(2)从不支持“延迟退休年龄政策”的人中按分层抽样的方法抽取8人,则45岁以下的应抽6人,45岁及45岁以上的应抽2人.
则8人中随机抽2人共有C=28种抽法,
至少有1人是45岁及45岁以上共有CC+C=13(种)抽法,故所求概率为.
14.如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图.
注:年份代码1~7分别对应年份2010~2016.
(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程,预测2019年该企业的污水净化量.
参考数据:=54,(ti-)(yi-)=21,≈3.74,
(yi-i)2=.
参考公式:相关系数r=,
回归直线方程=+t,=,=- .
解 (1)由折线图中的数据得,
=4, (ti-)2=28, (yi-)2=18,
所以r=≈0.94.
因为y与t的相关系数近似为0.94,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系.
(2)因为=54,===,
所以=- =54-×4=51,
所以y关于t的回归直线方程为=t+ =t+51.
将2019年对应的t=10代入得 =×10+51=58.5,
所以预测2019年该企业污水净化量约为58.5吨.
15.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=12,yi=14,x=23,则实数b的值为________.
答案
解析 令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,此时==,==,代入y=bt-,得=b×-,解得b=.
16.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的,男生喜欢韩剧的人数占男生人数的,女生喜欢韩剧的人数占女生人数的.若有95%的把握认为是否喜欢韩剧和性别有关,求男生至少有多少人.
P(χ2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解 设男生人数为x,由题意可得列联表如下:
喜欢韩剧
不喜欢韩剧
合计
男生
x
女生
合计
若有95%的把握认为是否喜欢韩剧和性别有关,
则χ2>3.841,
即χ2==>3.841,
解得x>12.697.
因为各部分人数均为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有18人.
相关资料
更多