还剩21页未读,
继续阅读
所属成套资源:2021高考数学人教版一轮创新教学案
成套系列资料,整套一键下载
2021届高考数学人教版一轮创新教学案:第9章第3讲 变量间的相关关系与统计案例
展开
第3讲 变量间的相关关系与统计案例
[考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)
2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.
[考向预测] 从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2021年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.
1.相关关系与回归方程
(1)相关关系的分类
①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;
②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2.
(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(3)回归方程
①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则==,=- .其中,是回归方程的斜率,是在y轴上的截距,=xi,=yi,(,)称为样本点的中心.
说明:回归直线=x+必过样本点的中心(,),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.
(4)样本相关系数
r=,用它来衡量两个变量间的线性相关关系.
①当r>0时,表明两个变量正相关;
②当r<0时,表明两个变量负相关;
③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.
2.残差分析
(1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为i=yi-i=yi-xi-,i=1,2,…,n,i称为相应于点(xi,yi)的残差.
(2)残差平方和为 (yi-i)2.
(3)相关指数:R2=1-.
3.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
1.概念辨析
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )
(2)“名师出高徒”可以解释为教师的教学水平与学生水平成正相关关系.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( )
(5)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )
答案 (1)× (2)√ (3)√ (4)√ (5)×
2.小题热身
(1)设回归方程为=3-5x,则变量x增加一个单位时( )
A.y平均增加3个单位 B.y平均减少5个单位
C.y平均增加5个单位 D.y平均减少3个单位
答案 B
解析 因为-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.故选B.
(2)在下列各图中,两个变量具有相关关系的图是( )
A.①② B.①③
C.②④ D.②③
答案 D
解析 ①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性.
(3)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
算得K2=≈9.616.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
答案 C
解析 因为K2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关”.
(4)已知变量x,y具有线性相关关系,它们之间的一组数据如下表所示,若y关于x的回归方程为=1.3x-1,则m=________.
x
1
2
3
4
y
0.1
1.8
m
4
答案 3.1
解析 由已知得=×(1+2+3+4)=2.5,
=(0.1+1.8+m+4)=×(5.9+m).
因为(,)在直线=1.3x-1上,
所以=1.3×2.5-1=2.25,
所以×(5.9+m)=2.25,解得m=3.1.
题型一 相关关系的判断
1.下列两变量中不存在相关关系的是( )
①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.
A.①②⑤ B.①③⑥
C.④⑤⑥ D.②⑥
答案 A
解析 根据相关关系的定义知,①②⑤中两个变量不存在相关关系.
2.下列命题中正确的为( )
A.线性相关系数r越大,两个变量的线性相关性越强
B.线性相关系数r越小,两个变量的线性相关性越弱
C.残差平方和越小的模型,模型拟合的效果越好
D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
答案 C
解析 线性相关系数r的绝对值越接近于1,两个变量的线性相关性越强,故A,B错误;残差平方和越小,相关指数R2越大,越接近于1,拟合效果越好,故C正确,D错误.
3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2
C.r4
答案 A
解析 易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r2
1.判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.|r|越趋近于1相关性越强.见举例说明3.
(3)线性回归直线方程中:>0时,正相关;<0时,负相关.
2.判断拟合效果的两个方法
(1)残差平方和越小,拟合效果越好.见举例说明2.
(2)相关指数R2越大,越接近于1,拟合效果越好.
1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
答案 D
解析 所有点均在直线上,则样本相关系数最大即为1,故选D.
2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
答案 D
解析 由回归方程=x+知当>0时,y与x正相关,当<0时,y与x负相关,∴①④一定错误.
题型二 回归分析
角度1 线性回归方程及应用
1.某汽车的使用年数x与所支出的维修总费用y的统计数据如表:
使用年数x/年
1
2
3
4
5
维修总费用y/万元
0.5
1.2
2.2
3.3
4.5
根据上表可得y关于x的线性回归方程=x-0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( )
A.8年 B.9年
C.10年 D.11年
答案 D
解析 由y关于x的线性回归直线=x-0.69过样本点的中心(3,2.34),得=1.01,即线性回归方程为=1.01x-0.69,令=1.01x-0.69=10,得x≈10.6,所以预测该汽车最多可使用11年.故选D.
2.(2019·东北三省三校三模)现代社会,“鼠标手”已成为常见病.一次实验中,10名实验对象进行160分钟的连续鼠标点击游戏,每位实验对象完成的游戏关卡一样,鼠标点击频率平均为180次/分钟,实验研究人员测试了实验对象使用鼠标前后的握力变化,前臂表面肌电频率(sEMG)等指标.
(1)10名实验对象实验前、后握力(单位:N)测试结果如下:
实验前:346,357,358,360,362,362,364,372,373,376.
实验后:313,321,322,324,330,332,334,343,350,361.
完成茎叶图,并计算实验后握力平均值比实验前握力的平均值下降了多少N?
(2)实验过程中测得时间t(分)与10名实验对象前臂表面肌电频率(sEMG)的中位数y(Hz)的九组对应数据(t,y)为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),(120,76),(140,77),(160,75).建立y 关于时间t的线性回归方程;
(3)若肌肉肌电水平显著下降,提示肌肉明显进入疲劳状态,根据(2)中9组数据分析,使用鼠标多少分钟就该进行休息了?
参考数据: (ti-)(yi-)=-1800;
参考公式:回归方程= t+中斜率和截距的最小二乘估计公式分别为:=,=-
解 (1)根据题意得到茎叶图如下图所示:
由图中数据可得1=×(346+357+358+360+362+362+364+372+373+376)=363,
2=×(313+321+322+324+330+332+334+343+350+361)=333,
∴1-2=363-333=30(N),
∴故实验前后握力的平均值下降了30 N.
(2)由题意得=×(0+20+40+60+80+100+120+140+160)=80,
=×(87+84+86+79+78+78+76+77+75)=80,
(ti-)2=(0-80)2+(20-80)2+(40-80)2+(60-80)2+(80-80)2+(100-80)2+(120-80)2+(140-80)2+(160-80)2=24000,
又 (ti-)(yi-)=-1800,
∴===-0.075,
∴=-=80-(-0.075)×80=86,
∴y关于时间t的线性回归方程为=-0.075t+86.
(3)九组数据中40分钟到60分钟y的下降幅度最大,提示60分钟时肌肉已经进入疲劳状态,故使用鼠标60分钟就该休息了.
角度2 非线性回归模型的应用
3.(2019·莆田二模)某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量xi(单位:亿元)对年销售额yi(单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y=α+βx2,②y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数.
现该公司收集了近12年的年研发资金投入量xi和年销售额yi的数据,i=1,2,…,12,并对这些数据作了初步处理,得到了如下的散点图及一些统计量的值.
令ui=x2,vi=ln yi(i=1,2,…,12),经计算得如下数据:
(xi-)2
(yi-)2
20
66
770
200
460
4.20
(ui-)2
(ui-)·(yi-)
(vi-)2
(xi-)·(vi-)
3125000
21500
0.308
14
(1)设{ui}和{yi}的相关系数为r1,{xi}和{vi}的相关系数为r2,请从相关系数的角度,选择一个拟合程度更好的模型;
(2)①根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
②若下一年销售额y需达到90亿元,预测下一年的研发资金投入量x是多少亿元?
附:相关系数r=,
回归直线=+x中斜率和截距的最小二乘估计公式分别为=,=- ;
参考数据:308=4×77,≈9.4868,e4.4998≈90.
解 (1)由题意,r1=
====0.86,
r2==
==≈0.91,
则|r1|<|r2|,因此从相关系数的角度,模型y=eλx+t的拟合程度更好.
(2)①先建立v关于x的线性回归方程,
由y=eλx+t,得ln y=t+λx,即v=t+λx;
由于λ==≈0.018,
t=-λ=4.20-0.018×20=3.84,
所以v关于x的线性回归方程为=0.02x+3.84,
所以ln =0.02x+3.84,
则=e0.02x+3.84.
②下一年销售额y需达到90亿元,即y=90,
代入=e0.02x+3.84,得90=e0.02x+3.84,
又e4.4998≈90,所以4.4998≈0.02x+3.84,
所以x≈=32.99,
所以预测下一年的研发资金投入量约是32.99亿元.
1.利用线性回归方程时的关注点
(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程=x+必过样本点中心(,).见举例说明1.
(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
2.非线性回归方程的求法
(1)根据原始数据(x,y)作出散点图.
(2)根据散点图选择恰当的拟合函数.
(3)作恰当的变换,将其转化成线性函数,求线性回归方程.
(4)在(3)的基础上通过相应变换,即可得非线性回归方程.见举例说明3.
1.(2019·南宁二模)一汽车销售公司对开业4年来某种型号的汽车“五一”优惠金额与销售量之间的关系进行分析研究并做了记录,得到如下资料.
日期
第1年
第2年
第3年
第4年
优惠金额x(千元)
10
11
13
12
销售量y(辆)
22
24
31
27
经过统计分析(利用散点图)可知x,y线性相关.
(1)用最小二乘法求出y关于x的线性回归方程=x+;
(2)若第5年优惠金额为8.5千元,估计第5年的销售量y(辆)的值.
参考公式:==,=- .
解 (1)由题意,得=11.5,=26,iyi=1211,=534,
∴====3,
则=- =26-3×11.5=-8.5.∴=3x-8.5.
(2)当x=8.5时,=17,∴第5年优惠金额为8.5千元时,销售量估计为17辆.
2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y=bx+a,②y=cedx拟合,得到回归方程分别为(1)=0.24x-8.81,(2)=1.70e0.022x,作残差分析,如下表:
身高x(cm)
60
70
80
90
100
110
体重y(kg)
6
8
10
14
15
18
(1)
0.41
0.01
1.21
-0.19
0.41
(2)
-0.36
0.07
0.12
1.69
-0.34
-1.12
(1)求表中空格内的值;
(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;
(3)若残差大于1 kg的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为=,=- .
解 (1)根据残差分析,把x=80代入(1)=0.24x-8.81中,得(1)=10.39.
∵10-10.39=-0.39,
∴表中空格内的值为-0.39.
(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62,
模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7.
∵2.62<3.7,
∴模型①的拟合效果比较好,选择模型①.
(3)残差大于1 kg的样本点被剔除后,剩余的数据如下表:
身高x(cm)
60
70
80
100
110
体重y(kg)
6
8
10
15
18
(1)
0.41
0.01
-0.39
-0.19
0.41
由公式=,=- ,
得回归方程为=0.24x-8.76.
题型三 独立性检验
1.假设有两个分类变量X和Y的2×2列联表如下:
Y
X
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
60
40
100
对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( )
A.a=45,c=15 B.a=40,c=20
C.a=35,c=25 D.a=30,c=30
答案 A
解析 根据2×2列联表与独立性检验可知,当与相差越大时,X与Y有关系的可能性越大,即a,c相差越大,与相差越大.故选A.
2.(2019·南昌三模)某校高三文科(1)班共有学生45人,其中男生15人,女生30人.在一次地理考试后,对成绩作了数据分析(满分100分),成绩为85分以上的同学称为“地理之星”,得到了如下列联表:
地理之星
非地理之星
合计
男生
7
女生
合计
如果从全班45人中任意抽取1人,抽到“地理之星”的概率为.
(1)完成“地理之星”与性别的2×2列联表,并回答是否有90%以上的把握认为获得“地理之星”与“性别”有关?
(2)若已知此次考试中获得“地理之星”的同学的成绩平均值为90,方差为7.2,请你判断这些同学中是否有得到满分的同学,并说明理由.(得分均为整数分)
参考公式:K2=,其中n=a+b+c+d.
临界值表:
P(K2≥k0)
0.10
0.05
0.010
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
解 (1)根据题意知“地理之星”总人数为45×=15,填写列联表如下:
地理之星
非地理之星
合计
男生
7
8
15
女生
8
22
30
合计
15
30
45
根据表中数据,计算K2==1.8<2.706,所以没有90%的把握认为获得“地理之星”与性别有关.
(2)没有得满分的同学,记各个分值由高到低分别为x1,x2,…,x15;
①若有2个以上的满分,则s2=×[(100-90)2+(100-90)2+…+(x15-90)2]>>7.2,不符合题意.
②若恰有1个满分,为使方差最小,则其他分值需集中分布在平均数90的附近,且为保证平均值为90,则有10个得分为89,其余4个得分为90,此时方差取得最小值,
∴s=×[(100-90)2+4×(90-90)2+10×(89-90)2]=>7.2,与题意方差为7.2不符合,
所以这些同学中没有得满分的同学.
独立性检验的一般步骤
(1)根据样本数据列出2×2列联表;
(2)计算随机变量K2的观测值k,查表确定临界值k0;
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.
1.学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:
不关注
关注
总计
男生
30
15
45
女生
45
10
55
总计
75
25
100
根据表中数据,通过计算统计量
K2=,并参考以下临界数据:
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过( )
A.0.10 B.0.05
C.0.025 D.0.01
答案 A
解析 由题意可得K2=≈3.030>2.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”出错的概率不超过0.10.故选A.
2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解 (1)第二种生产方式的效率更高.理由如下:
①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可)
(2)由茎叶图知m==80.列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2的观测值k==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
组 基础关
1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2
C.r2<0
答案 C
解析 对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.
2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩 B.视力
C.智商 D.阅读量
答案 D
解析 K=,令=m,则K=82m,同理,K=m×(4×20-12×16)2=1122m,K=m×(8×24-8×12)2=962m,K=m×(14×30-6×2)2=4082m,∴K>K>K>K,则与性别有关联的可能性最大的变量是阅读量.故选D.
3.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=11,yi=13,x=21,则实数b的值为________.
答案
解析 令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,此时==,==,代入y=bt-,得=b×-,解得b=.
4.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的,男生喜欢韩剧的人数占男生人数的,女生喜欢韩剧的人数占女生人数的.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
答案 12
解析 设男生人数为x,由题意可得列联表如下:
喜欢韩剧
不喜欢韩剧
总计
男生
x
女生
总计
x
若有95%的把握认为是否喜欢韩剧和性别有关,则k>3.841,即k==>3.841,解得x>10.243.
因为,为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.
5.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可)
组 能力关
1.某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图(如图所示),规定80分及以上者晋级成功,否则晋级失败(满分为100分).
(1)求图中a的值;
(2)估计该次考试的平均分(同一组中的数据用该组的区间中点值代表);
(3)根据已知条件完成下面的2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.
晋级成功
晋级失败
合计
男
16
女
50
合计
参考公式:
P(K2≥k0)
0.40
0.25
0.15
0.10
0.05
0.025
k0
0.780
1.323
2.072
2.706
3.841
5.024
K2=,其中n=a+b+c+d.
解 (1)由频率分布直方图中各小长方形的面积总和为1,可知(2a+0.020+0.030+0.040)×10=1,故a=0.005.
(2)由频率分布直方图知各小组的区间中点值分别为55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,
故可估计平均数=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74.
(3)由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25,
故晋级成功的人数为100×0.25=25,故填表如下:
晋级成功
晋级失败
合计
男
16
34
50
女
9
41
50
合计
25
75
100
K2=≈2.613>2.072,
所以有85%的把握认为“晋级成功”与性别有关.
2.(2019·银川一中模拟)某餐厅通过查阅了最近5次食品交易会参会人数x(万人)与餐厅所用原材料数量y(袋),得到如下统计表:
第一次
第二次
第三次
第四次
第五次
参会人数
x(万人)
13
9
8
10
12
原材料y(袋)
32
23
18
24
28
(1)根据所给5组数据,求出y关于x的线性回归方程y=x+;
(2)已知购买原材料的费用C(元)与数量t(袋)的关系为C=投入使用的每袋原材料相应的销售收入为700元,多余的原材料只能无偿返还,据悉本次交易大会大约有15万人参加.根据(1)中求出的线性回归方程,预测餐厅应购买多少袋原材料,才能获得最大利润,最大利润是多少?(注:利润L=销售收入-原材料费用)
参考公式:==,
=- .
参考数据:iyi=1343,=558,=3237.
解 (1)由所给数据,得
==10.4,==25,
===2.5,=- =25-2.5×10.4=-1,则y关于x的线性回归方程为=2.5-1.
(2)由(1)中求出的线性回归方程知,当x=15时,y=36.5,即预计需要原材料36.5袋,
因为C=
所以当t<36时,利润L=700t-(400t-20)=300t+20,
当t=35时,利润L=300×35+20=10520;
当t≥36时,利润L=700t-380t,
当t=36时,利润L=700×36-380×36=11520,
因为预计需要原材料36.5袋,且多余的原材料只能无偿返还,所以当t=37时,利润L=700×36.5-380×37=11490.
综上所述,餐厅应该购买36袋原材料,才能使利润获得最大,最大利润为11520元.
第3讲 变量间的相关关系与统计案例
[考纲解读] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系;根据最小二乘法求出回归直线方程.(重点)
2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.
[考向预测] 从近三年高考情况来看,本讲是高考中的一个热点考查内容.预测2021年将会考查:①回归直线方程的判断、求解及相关系数的意义,并用其解决实际问题;②独立性检验思想在实际问题中的应用.试题以解答题的形式呈现,难度为中等.此外,也可能出现在客观题中,此时试题难度不大,属中、低档题型.
1.相关关系与回归方程
(1)相关关系的分类
①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;
②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2.
(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(3)回归方程
①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则==,=- .其中,是回归方程的斜率,是在y轴上的截距,=xi,=yi,(,)称为样本点的中心.
说明:回归直线=x+必过样本点的中心(,),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.
(4)样本相关系数
r=,用它来衡量两个变量间的线性相关关系.
①当r>0时,表明两个变量正相关;
②当r<0时,表明两个变量负相关;
③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.
2.残差分析
(1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为i=yi-i=yi-xi-,i=1,2,…,n,i称为相应于点(xi,yi)的残差.
(2)残差平方和为 (yi-i)2.
(3)相关指数:R2=1-.
3.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
1.概念辨析
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )
(2)“名师出高徒”可以解释为教师的教学水平与学生水平成正相关关系.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( )
(5)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )
答案 (1)× (2)√ (3)√ (4)√ (5)×
2.小题热身
(1)设回归方程为=3-5x,则变量x增加一个单位时( )
A.y平均增加3个单位 B.y平均减少5个单位
C.y平均增加5个单位 D.y平均减少3个单位
答案 B
解析 因为-5是斜率的估计值,说明x每增加一个单位,y平均减少5个单位.故选B.
(2)在下列各图中,两个变量具有相关关系的图是( )
A.①② B.①③
C.②④ D.②③
答案 D
解析 ①为函数关系;②显然成正相关;③显然成负相关;④没有明显相关性.
(3)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
算得K2=≈9.616.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”
C.有99%以上的把握认为“生育意愿与城市级别有关”
D.有99%以上的把握认为“生育意愿与城市级别无关”
答案 C
解析 因为K2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关”.
(4)已知变量x,y具有线性相关关系,它们之间的一组数据如下表所示,若y关于x的回归方程为=1.3x-1,则m=________.
x
1
2
3
4
y
0.1
1.8
m
4
答案 3.1
解析 由已知得=×(1+2+3+4)=2.5,
=(0.1+1.8+m+4)=×(5.9+m).
因为(,)在直线=1.3x-1上,
所以=1.3×2.5-1=2.25,
所以×(5.9+m)=2.25,解得m=3.1.
题型一 相关关系的判断
1.下列两变量中不存在相关关系的是( )
①人的身高与视力;②曲线上的点与该点的坐标之间的关系;③某农田的水稻产量与施肥量;④某同学考试成绩与复习时间的投入量;⑤匀速行驶的汽车的行驶距离与时间;⑥商品的销售额与广告费.
A.①②⑤ B.①③⑥
C.④⑤⑥ D.②⑥
答案 A
解析 根据相关关系的定义知,①②⑤中两个变量不存在相关关系.
2.下列命题中正确的为( )
A.线性相关系数r越大,两个变量的线性相关性越强
B.线性相关系数r越小,两个变量的线性相关性越弱
C.残差平方和越小的模型,模型拟合的效果越好
D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
答案 C
解析 线性相关系数r的绝对值越接近于1,两个变量的线性相关性越强,故A,B错误;残差平方和越小,相关指数R2越大,越接近于1,拟合效果越好,故C正确,D错误.
3.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2
解析 易知题中图①与图③是正相关,图②与图④是负相关,且图①与图②中的样本点集中分布在一条直线附近,则r2
1.判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.|r|越趋近于1相关性越强.见举例说明3.
(3)线性回归直线方程中:>0时,正相关;<0时,负相关.
2.判断拟合效果的两个方法
(1)残差平方和越小,拟合效果越好.见举例说明2.
(2)相关指数R2越大,越接近于1,拟合效果越好.
1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
答案 D
解析 所有点均在直线上,则样本相关系数最大即为1,故选D.
2.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得线性回归方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中一定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
答案 D
解析 由回归方程=x+知当>0时,y与x正相关,当<0时,y与x负相关,∴①④一定错误.
题型二 回归分析
角度1 线性回归方程及应用
1.某汽车的使用年数x与所支出的维修总费用y的统计数据如表:
使用年数x/年
1
2
3
4
5
维修总费用y/万元
0.5
1.2
2.2
3.3
4.5
根据上表可得y关于x的线性回归方程=x-0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( )
A.8年 B.9年
C.10年 D.11年
答案 D
解析 由y关于x的线性回归直线=x-0.69过样本点的中心(3,2.34),得=1.01,即线性回归方程为=1.01x-0.69,令=1.01x-0.69=10,得x≈10.6,所以预测该汽车最多可使用11年.故选D.
2.(2019·东北三省三校三模)现代社会,“鼠标手”已成为常见病.一次实验中,10名实验对象进行160分钟的连续鼠标点击游戏,每位实验对象完成的游戏关卡一样,鼠标点击频率平均为180次/分钟,实验研究人员测试了实验对象使用鼠标前后的握力变化,前臂表面肌电频率(sEMG)等指标.
(1)10名实验对象实验前、后握力(单位:N)测试结果如下:
实验前:346,357,358,360,362,362,364,372,373,376.
实验后:313,321,322,324,330,332,334,343,350,361.
完成茎叶图,并计算实验后握力平均值比实验前握力的平均值下降了多少N?
(2)实验过程中测得时间t(分)与10名实验对象前臂表面肌电频率(sEMG)的中位数y(Hz)的九组对应数据(t,y)为(0,87),(20,84),(40,86),(60,79),(80,78),(100,78),(120,76),(140,77),(160,75).建立y 关于时间t的线性回归方程;
(3)若肌肉肌电水平显著下降,提示肌肉明显进入疲劳状态,根据(2)中9组数据分析,使用鼠标多少分钟就该进行休息了?
参考数据: (ti-)(yi-)=-1800;
参考公式:回归方程= t+中斜率和截距的最小二乘估计公式分别为:=,=-
解 (1)根据题意得到茎叶图如下图所示:
由图中数据可得1=×(346+357+358+360+362+362+364+372+373+376)=363,
2=×(313+321+322+324+330+332+334+343+350+361)=333,
∴1-2=363-333=30(N),
∴故实验前后握力的平均值下降了30 N.
(2)由题意得=×(0+20+40+60+80+100+120+140+160)=80,
=×(87+84+86+79+78+78+76+77+75)=80,
(ti-)2=(0-80)2+(20-80)2+(40-80)2+(60-80)2+(80-80)2+(100-80)2+(120-80)2+(140-80)2+(160-80)2=24000,
又 (ti-)(yi-)=-1800,
∴===-0.075,
∴=-=80-(-0.075)×80=86,
∴y关于时间t的线性回归方程为=-0.075t+86.
(3)九组数据中40分钟到60分钟y的下降幅度最大,提示60分钟时肌肉已经进入疲劳状态,故使用鼠标60分钟就该休息了.
角度2 非线性回归模型的应用
3.(2019·莆田二模)某芯片公司为制定下一年的研发投入计划,需了解年研发资金投入量xi(单位:亿元)对年销售额yi(单位:亿元)的影响.该公司对历史数据进行对比分析,建立了两个函数模型:①y=α+βx2,②y=eλx+t,其中α,β,λ,t均为常数,e为自然对数的底数.
现该公司收集了近12年的年研发资金投入量xi和年销售额yi的数据,i=1,2,…,12,并对这些数据作了初步处理,得到了如下的散点图及一些统计量的值.
令ui=x2,vi=ln yi(i=1,2,…,12),经计算得如下数据:
(xi-)2
(yi-)2
20
66
770
200
460
4.20
(ui-)2
(ui-)·(yi-)
(vi-)2
(xi-)·(vi-)
3125000
21500
0.308
14
(1)设{ui}和{yi}的相关系数为r1,{xi}和{vi}的相关系数为r2,请从相关系数的角度,选择一个拟合程度更好的模型;
(2)①根据(1)的选择及表中数据,建立y关于x的回归方程(系数精确到0.01);
②若下一年销售额y需达到90亿元,预测下一年的研发资金投入量x是多少亿元?
附:相关系数r=,
回归直线=+x中斜率和截距的最小二乘估计公式分别为=,=- ;
参考数据:308=4×77,≈9.4868,e4.4998≈90.
解 (1)由题意,r1=
====0.86,
r2==
==≈0.91,
则|r1|<|r2|,因此从相关系数的角度,模型y=eλx+t的拟合程度更好.
(2)①先建立v关于x的线性回归方程,
由y=eλx+t,得ln y=t+λx,即v=t+λx;
由于λ==≈0.018,
t=-λ=4.20-0.018×20=3.84,
所以v关于x的线性回归方程为=0.02x+3.84,
所以ln =0.02x+3.84,
则=e0.02x+3.84.
②下一年销售额y需达到90亿元,即y=90,
代入=e0.02x+3.84,得90=e0.02x+3.84,
又e4.4998≈90,所以4.4998≈0.02x+3.84,
所以x≈=32.99,
所以预测下一年的研发资金投入量约是32.99亿元.
1.利用线性回归方程时的关注点
(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.
(2)回归直线方程=x+必过样本点中心(,).见举例说明1.
(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.
2.非线性回归方程的求法
(1)根据原始数据(x,y)作出散点图.
(2)根据散点图选择恰当的拟合函数.
(3)作恰当的变换,将其转化成线性函数,求线性回归方程.
(4)在(3)的基础上通过相应变换,即可得非线性回归方程.见举例说明3.
1.(2019·南宁二模)一汽车销售公司对开业4年来某种型号的汽车“五一”优惠金额与销售量之间的关系进行分析研究并做了记录,得到如下资料.
日期
第1年
第2年
第3年
第4年
优惠金额x(千元)
10
11
13
12
销售量y(辆)
22
24
31
27
经过统计分析(利用散点图)可知x,y线性相关.
(1)用最小二乘法求出y关于x的线性回归方程=x+;
(2)若第5年优惠金额为8.5千元,估计第5年的销售量y(辆)的值.
参考公式:==,=- .
解 (1)由题意,得=11.5,=26,iyi=1211,=534,
∴====3,
则=- =26-3×11.5=-8.5.∴=3x-8.5.
(2)当x=8.5时,=17,∴第5年优惠金额为8.5千元时,销售量估计为17辆.
2.对某地区儿童的身高与体重的一组数据,我们用两种模型①y=bx+a,②y=cedx拟合,得到回归方程分别为(1)=0.24x-8.81,(2)=1.70e0.022x,作残差分析,如下表:
身高x(cm)
60
70
80
90
100
110
体重y(kg)
6
8
10
14
15
18
(1)
0.41
0.01
1.21
-0.19
0.41
(2)
-0.36
0.07
0.12
1.69
-0.34
-1.12
(1)求表中空格内的值;
(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;
(3)若残差大于1 kg的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立回归方程.(结果保留到小数点后两位)
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为=,=- .
解 (1)根据残差分析,把x=80代入(1)=0.24x-8.81中,得(1)=10.39.
∵10-10.39=-0.39,
∴表中空格内的值为-0.39.
(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62,
模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7.
∵2.62<3.7,
∴模型①的拟合效果比较好,选择模型①.
(3)残差大于1 kg的样本点被剔除后,剩余的数据如下表:
身高x(cm)
60
70
80
100
110
体重y(kg)
6
8
10
15
18
(1)
0.41
0.01
-0.39
-0.19
0.41
由公式=,=- ,
得回归方程为=0.24x-8.76.
题型三 独立性检验
1.假设有两个分类变量X和Y的2×2列联表如下:
Y
X
y1
y2
总计
x1
a
10
a+10
x2
c
30
c+30
总计
60
40
100
对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( )
A.a=45,c=15 B.a=40,c=20
C.a=35,c=25 D.a=30,c=30
答案 A
解析 根据2×2列联表与独立性检验可知,当与相差越大时,X与Y有关系的可能性越大,即a,c相差越大,与相差越大.故选A.
2.(2019·南昌三模)某校高三文科(1)班共有学生45人,其中男生15人,女生30人.在一次地理考试后,对成绩作了数据分析(满分100分),成绩为85分以上的同学称为“地理之星”,得到了如下列联表:
地理之星
非地理之星
合计
男生
7
女生
合计
如果从全班45人中任意抽取1人,抽到“地理之星”的概率为.
(1)完成“地理之星”与性别的2×2列联表,并回答是否有90%以上的把握认为获得“地理之星”与“性别”有关?
(2)若已知此次考试中获得“地理之星”的同学的成绩平均值为90,方差为7.2,请你判断这些同学中是否有得到满分的同学,并说明理由.(得分均为整数分)
参考公式:K2=,其中n=a+b+c+d.
临界值表:
P(K2≥k0)
0.10
0.05
0.010
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
解 (1)根据题意知“地理之星”总人数为45×=15,填写列联表如下:
地理之星
非地理之星
合计
男生
7
8
15
女生
8
22
30
合计
15
30
45
根据表中数据,计算K2==1.8<2.706,所以没有90%的把握认为获得“地理之星”与性别有关.
(2)没有得满分的同学,记各个分值由高到低分别为x1,x2,…,x15;
①若有2个以上的满分,则s2=×[(100-90)2+(100-90)2+…+(x15-90)2]>>7.2,不符合题意.
②若恰有1个满分,为使方差最小,则其他分值需集中分布在平均数90的附近,且为保证平均值为90,则有10个得分为89,其余4个得分为90,此时方差取得最小值,
∴s=×[(100-90)2+4×(90-90)2+10×(89-90)2]=>7.2,与题意方差为7.2不符合,
所以这些同学中没有得满分的同学.
独立性检验的一般步骤
(1)根据样本数据列出2×2列联表;
(2)计算随机变量K2的观测值k,查表确定临界值k0;
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.
1.学生会为了调查学生对2018年俄罗斯世界杯的关注是否与性别有关,抽样调查100人,得到如下数据:
不关注
关注
总计
男生
30
15
45
女生
45
10
55
总计
75
25
100
根据表中数据,通过计算统计量
K2=,并参考以下临界数据:
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
若由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”,则此结论出错的概率不超过( )
A.0.10 B.0.05
C.0.025 D.0.01
答案 A
解析 由题意可得K2=≈3.030>2.706,由此认为“学生对2018年俄罗斯世界杯的关注与性别有关”出错的概率不超过0.10.故选A.
2.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解 (1)第二种生产方式的效率更高.理由如下:
①由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
②由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
③由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可)
(2)由茎叶图知m==80.列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2的观测值k==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
组 基础关
1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2
解析 对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.
2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
成绩
性别
不及格
及格
总计
男
6
14
20
女
10
22
32
总计
16
36
52
表2
视力
性别
好
差
总计
男
4
16
20
女
12
20
32
总计
16
36
52
表3
智商
性别
偏高
正常
总计
男
8
12
20
女
8
24
32
总计
16
36
52
表4
阅读量
性别
丰富
不丰富
总计
男
14
6
20
女
2
30
32
总计
16
36
52
A.成绩 B.视力
C.智商 D.阅读量
答案 D
解析 K=,令=m,则K=82m,同理,K=m×(4×20-12×16)2=1122m,K=m×(8×24-8×12)2=962m,K=m×(14×30-6×2)2=4082m,∴K>K>K>K,则与性别有关联的可能性最大的变量是阅读量.故选D.
3.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=11,yi=13,x=21,则实数b的值为________.
答案
解析 令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,此时==,==,代入y=bt-,得=b×-,解得b=.
4.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的,男生喜欢韩剧的人数占男生人数的,女生喜欢韩剧的人数占女生人数的.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有________人.
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
答案 12
解析 设男生人数为x,由题意可得列联表如下:
喜欢韩剧
不喜欢韩剧
总计
男生
x
女生
总计
x
若有95%的把握认为是否喜欢韩剧和性别有关,则k>3.841,即k==>3.841,解得x>10.243.
因为,为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.
5.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可)
组 能力关
1.某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图(如图所示),规定80分及以上者晋级成功,否则晋级失败(满分为100分).
(1)求图中a的值;
(2)估计该次考试的平均分(同一组中的数据用该组的区间中点值代表);
(3)根据已知条件完成下面的2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.
晋级成功
晋级失败
合计
男
16
女
50
合计
参考公式:
P(K2≥k0)
0.40
0.25
0.15
0.10
0.05
0.025
k0
0.780
1.323
2.072
2.706
3.841
5.024
K2=,其中n=a+b+c+d.
解 (1)由频率分布直方图中各小长方形的面积总和为1,可知(2a+0.020+0.030+0.040)×10=1,故a=0.005.
(2)由频率分布直方图知各小组的区间中点值分别为55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,
故可估计平均数=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74.
(3)由频率分布直方图知,晋级成功的频率为0.20+0.05=0.25,
故晋级成功的人数为100×0.25=25,故填表如下:
晋级成功
晋级失败
合计
男
16
34
50
女
9
41
50
合计
25
75
100
K2=≈2.613>2.072,
所以有85%的把握认为“晋级成功”与性别有关.
2.(2019·银川一中模拟)某餐厅通过查阅了最近5次食品交易会参会人数x(万人)与餐厅所用原材料数量y(袋),得到如下统计表:
第一次
第二次
第三次
第四次
第五次
参会人数
x(万人)
13
9
8
10
12
原材料y(袋)
32
23
18
24
28
(1)根据所给5组数据,求出y关于x的线性回归方程y=x+;
(2)已知购买原材料的费用C(元)与数量t(袋)的关系为C=投入使用的每袋原材料相应的销售收入为700元,多余的原材料只能无偿返还,据悉本次交易大会大约有15万人参加.根据(1)中求出的线性回归方程,预测餐厅应购买多少袋原材料,才能获得最大利润,最大利润是多少?(注:利润L=销售收入-原材料费用)
参考公式:==,
=- .
参考数据:iyi=1343,=558,=3237.
解 (1)由所给数据,得
==10.4,==25,
===2.5,=- =25-2.5×10.4=-1,则y关于x的线性回归方程为=2.5-1.
(2)由(1)中求出的线性回归方程知,当x=15时,y=36.5,即预计需要原材料36.5袋,
因为C=
所以当t<36时,利润L=700t-(400t-20)=300t+20,
当t=35时,利润L=300×35+20=10520;
当t≥36时,利润L=700t-380t,
当t=36时,利润L=700×36-380×36=11520,
因为预计需要原材料36.5袋,且多余的原材料只能无偿返还,所以当t=37时,利润L=700×36.5-380×37=11490.
综上所述,餐厅应该购买36袋原材料,才能使利润获得最大,最大利润为11520元.
相关资料
更多