资料中包含下列文件,点击文件名可预览资料内容
还剩17页未读,
继续阅读
所属成套资源:2021届新课改地区高三数学一轮专题复习知识及练习
成套系列资料,整套一键下载
第62讲 统计案例与线性回归分析-2021届新课改地区高三数学一轮专题复习
展开
第62讲:统计案例与线性回归分析
一、 课程标准
1、 会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.
2、 了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
3、了解独立性检验的基本思想、方法及其简单应用,能通过计算判断两个变量的相关程度.
二、 基础知识回顾
1. 变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2. 两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为y^=b^x+a^_,其中其中a^,b^是待定参数,(yi-bxi-a)2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3. 独立性检验
(1)2×2列联表
设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(2)独立性检验
利用随机变量K2(也可表示为χ2)的观测值k=(其中n=a+b+
c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
常用结论
(1)求解回归方程的关键是确定回归系数a^,b^,应充分利用回归直线过样本中心点 (x-,y-).
(2)根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
(3)根据回归方程计算的b^值,仅是一个预报值,不是真实发生的值.
三、 自主热身、归纳总结
1、根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为y=bx+a,则( )
A. a>0,b>0 B. a>0,b<0
C. a<0,b>0 D. a<0,b<0
【答案】 B
【解析】 由表中数据画出散点图,如图.
由散点图可知b<0,a>0,选B.
2、为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程y=bx+a,其中b=0.76,a=y--bx-.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A. 11.4万元 B. 11.8万元
C. 12.0万元 D. 12.2万元
【答案】 B
【解析】 x-==10,y-==8,
∴a=8-0.76×10=0.4,
∴当x=15时,y=0.76×15+0.4=11.8(万元).
3、已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为y∧=0.95x+a∧,则a∧=
x
0
1
3
4
y
2.2
4.3
4.8
6.7
【答案】 2.6
【解析】 因为回归直线必过样本点的中心(x,y),又x=2,y=4.5,代入回归方程,得a∧=2.6.
5、为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025. 根据表中数据,得到K2的观测值k=≈4.844,则认为选修文科与性别有关系出错的可能性为
【答案】 5%
【解析】 K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
四、 例题选讲
考点一 线性回归方程
例1、已知变量与正相关,且由观测数据算得样本平均数,,则由该观测的数据算得的线性回归方程可能是
A. B.
C. D.
【答案】A
【解析】因为与正相关,排除选项C、D,又因为线性回归方程恒过样本点的中心,故排除选项B;故选A.
变式1、有下列数据:
下列四个函数中,模拟效果最好的为( )
A. B. C. D.
【答案】A
【解析】将,,代入四个选项,可得A模拟效果最好.
故选:A.
变式2、某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响.对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
有下列5个曲线类型:①;②;③;④;⑤,则较适宜作为年销售量关于年宣传费的回归方程的是( )
A.①② B.②③ C.②④ D.③⑤
【答案】B
【解析】
从散点图知,样本点分布在开口向右的抛物线(上支)附近或对数曲线(上部分)的附近,所以y=或y=p+qlnx较适宜,故选B.
变式3、对具有线性相关关系的两个变量和,测得一组数据如下表所示:根据表格,利用最小二乘法得到回归直线方程为,则( )
2
4
5
6
8
20
40
60
70
A.85.5 B.80 C.85 D.90
【答案】B
【解析】∵=5,回归直线方程为y=10.5x+1.5,
∴=54,
∴55×4=20+40+60+70+m,
∴m=80,
故选:B.
方法总结:数据处理,要求结合散点图,初步建立线性回归的直观感知;
(1)依托数据,结合公式准确计算线性回归方程的相关系数值;
(2)根据线性回归方程,正确使用回归方程进行估计.
考点二 独立性检验
例2、在对人们休闲方式的一次调查中,根据数据建立如下的列联表:
看书
运动
合计
男
8
20
28
女
16
12
28
合计
24
32
56
根据表中数据,得到,所以我们至少有( )的把握判定休闲方式与性别有关系.(参考数据:,)
A.99% B.95% C.1% D.5%
【答案】B
【解析】结合题意和独立性检验的结论,由
,,
故这种判断出错的可能性至多为,即,
故我们至少有95%的把握判定休闲方式与性别有关系.
故选:B
变式1、某研究性学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如表
(参考公式:,其中.)
附表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
则下列选项正确的是( )
A.有的把握认为使用智能手机对学习有影响
B.有的把握认为使用智能手机对学习无影响
C.有的把握认为使用智能手机对学习有影响
D.有的把握认为使用智能手机对学习无影响
【答案】A
【解析】根据卡方公式求得,
,
该研究小组有的把握认为中学生使用智能手机对学生有影响,故选A.
变式2、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
A.若的观测值为=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;
C.若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;
D.以上三种说法都不正确.
【答案】C
【解析】要正确认识观测值的意义,观测值同临界值进行比较得到一个概率,这个概率是推断出错误的概率,若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推判出现错误,故选C.
变式3、为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:
未发病
发病
总计
未注射疫苗
20
x
A
注射疫苗
30
y
B
总计
50
50
100
现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为.
(1)求2×2列联表中的数据x,y,A,B的值.
(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?
(3)能否在犯错误的概率不超过0.001的前提下认为疫苗有效?
附:K2=,n=a+b+c+d.
临界值表:
P(K2≥k0)
0.05
0.01
0.005
0.001
k0
3.841
6.635
7.879
10.828
【解析】 (1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件M,
由已知得P(M)==,
所以y=10,则B=40,x=40,A=60.
(2)未注射疫苗发病率为=≈0.67,
注射疫苗发病率为==0.25.
发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.
(3)∵K2=≈16.67>10.828.
所以能在犯错误的概率不超过0.001的前提下认为疫苗有效.
方法总结:(1)根据题意完善2×2列联表,再计算观测值K2,对照临界值表即可得出结论;
(2)理解K2的运算过程以及在实际问题中的统计学意义.
考点三、统计案例与线性回归分析的综合
例3、某大学餐饮中心为了了解新生的饮食习惯,在某学院大一年级名学生中进行了抽样调查,发现喜欢甜品的占.这名学生中南方学生共人。南方学生中有人不喜欢甜品.(1)完成下列列联表:
喜欢甜品
不喜欢甜品
合计
南方学生
北方学生
合计
(2)根据表中数据,问是否有的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;
(3)已知在被调查的南方学生中有名数学系的学生,其中名不喜欢甜品;有名物理系的学生,其中名不喜欢甜品.现从这两个系的学生中,各随机抽取人,记抽出的人中不喜欢甜品的人数为,求的分布列和数学期望.
附:.
0.15
0.100
0.050
0.025
0.010
2.072
2.706
3.841
5.024
6.635
【解析】(1)
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
(2)由题意,
,
∴有的把握认为“南方学生和北方学生在选甜品的饮食习惯方面有差异”.
(3)的所有可能取值为0,1,2,3,
,
,
,
,
则的分布列为
0
1
2
3
所以的数学期望.
变式1、【吉林省梅河口市第五中学2017-2018学年高二下学期期末】某中学一名数学老师对全班50名学生某次考试成绩分男女生进行统计,其中120分(含120分)以上为优秀,绘制了如图所示的两个频率分布直方图:
(1)根据以上两个直方图完成下面的列联表:
性别 成绩
优秀
不优秀
总计
男生
女生
总计
(2)根据(1)中表格的数据计算,你有多大把握认为学生的数学成绩与性别之间有关系?
2.072
2.706
3.841
5.024
6.635
7.879
10.828
0.15
0.10
0.05
0.025
0.010
0.005
0.001
附:,其中.
【解析】(1)
性别 成绩
优秀
不优秀
总计
男生
13
10
23
女生
7
20
27
总计
20
30
50
(2)由(1)中表格的数据知,,
∵ ,∴ 有95%的把握认为学生的数学成绩与性别之间有关系.
变式2、(2020届山东省德州市高三上期末)某公司为了了解年研发资金投人量(单位:亿元)对年销售额(单位:亿元)的影响.对公司近年的年研发资金投入量和年销售额的数据,进行了对比分析,建立了两个函数模型:①,②,其中、、、均为常数,为自然对数的底数.并得到一些统计量的值.令,,经计算得如下数据:
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)(ⅰ)根据(1)的选择及表中数据,建立关于的回归方程;
(ⅱ)若下一年销售额需达到亿元,预测下一年的研发资金投入量是多少亿元?
附:①相关系数,
回归直线中公式分别为:,;
②参考数据:,,.
【解析】(1)设和的相关系数为,和的相关系数为,由题意,
,
,
则,因此从相关系数的角度,模型的拟合程度更好;
(2)(ⅰ)先建立关于的线性回归方程,
由,得,即;
由于,,
所以关于的线性回归方程为,
所以,则;
(ⅱ)下一年销售额需达到亿元,即,代入,得,
又,所以,所以,
所以预测下一年的研发资金投入量约是亿元.
变式3、(2020·湖北高三期末(理))某土特产超市为预估2020年元旦期间游客购买土特产的情况,对2019年元旦期间的90位游客购买情况进行统计,得到如下人数分布表.
购买金额(元)
人数
10
15
20
15
20
10
(1)根据以上数据完成列联表,并判断是否有的把握认为购买金额是否少于60元与性别有关.
不少于60元
少于60元
合计
男
40
女
18
合计
(2)为吸引游客,该超市推出一种优惠方案,购买金额不少于60元可抽奖3次,每次中奖概率为(每次抽奖互不影响,且的值等于人数分布表中购买金额不少于60元的频率),中奖1次减5元,中奖2次减10元,中奖3次减15元.若游客甲计划购买80元的土特产,请列出实际付款数(元)的分布列并求其数学期望.
附:参考公式和数据:,.
附表:
2.072
2.706
3.841
6.635
7.879
0.150
0.100
0.050
0.010
0.005
【解析】(1)列联表如下:
不少于60元
少于60元
合计
男
12
40
52
女
18
20
38
合计
30
60
90
,
因此有的把握认为购买金额是否少于60元与性别有关.
(2)可能取值为65,70,75,80,且.
,,
,,
所以的分布列为
65
70
75
80
.
方法总结:统计案例与线性回归分析的综合往往涉及到直方图、概率等综合性问题,对于此类问题可以从以下两个方面入手:1、理解直方图具体时间频率与概率的对应关系,独立事件的概率计算过程;理解列联表的数据生成,以及使用公式进行基本运算,学会利用运算结果进行简单的数据分析;2、数学期望是离散型随机变量中重要的数学概念,反映随机变量取值的平均水平.求解离散型随机变量的分布列、数学期望时,首先要分清事件的构成与性质,确定离散型随机变量的所有取值,然后根据概率类型选择公式,计算每个变量取每个值的概率,列出对应的分布列,最后求出数学期望.正态分布是一种重要的分布,之前考过一次,尤其是正态分布的3σ原则.
五、优化提升与真题演练
1、(2020年高考全国Ⅰ卷理数)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是
A. B.
C. D.
【答案】D
【解析】由散点图分布可知,散点图分布在一个对数函数的图象附近,
因此,最适合作为发芽率和温度的回归方程类型的是.
故选:D.
2、(2018年高考全国Ⅱ卷理数)下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为)建立模型①:;根据2010年至2016年的数据(时间变量的值依次为)建立模型②:.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
【解析】(1)利用模型①,
该地区2018年的环境基础设施投资额的预测值为(亿元).
利用模型②,
该地区2018年的环境基础设施投资额的预测值为(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.
以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.
3、(2020年高考全国Ⅰ卷理数)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi) (i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,.
【解析】(1)由已知得样本平均数,从而该地区这种野生动物数量的估计值为60×200=12000.
(2)样本的相关系数
.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
4、(2020年高考全国III卷理数)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400
人次>400
空气质量好
空气质量不好
附:K2=,
P(K2≥k)
0.050 0.010 0.001
k
3.841 6.635 10.828
.
【解析】(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
空气质量等级
1
2
3
4
概率的估计值
0.43
0.27
0.21
0.09
(2)一天中到该公园锻炼的平均人次的估计值为
.
(3)根据所给数据,可得列联表:
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
根据列联表得
.
由于,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
5、(2020年高考山东)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了天空气中的和浓度(单位:),得下表:
32
18
4
6
8
12
3
7
10
(1)估计事件“该市一天空气中浓度不超过,且浓度不超过”的概率;
(2)根据所给数据,完成下面的列联表:
(3)根据(2)中的列联表,判断是否有的把握认为该市一天空气中浓度与浓度有关?
附:,
0.050 0.010 0.001
3.841 6.635 10.828
【解析】(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且浓度不超过150的天数为,因此,该市一天空气中PM2.5浓度不超过75,且浓度不超过150的概率的估计值为.
(2)根据抽查数据,可得列联表:
64
16
10
10
(3)根据(2)的列联表得.
由于,故有的把握认为该市一天空气中浓度与浓度有关.
6、(2020届山东省滨州市高三上期末)近年,国家逐步推行全新的高考制度.新高考不再分文理科,某省采用模式,其中语文、数学、外语三科为必考科目,每门科目满分均为分.另外考生还要依据想考取的高校及专业的要求,结合自己的兴趣爱好等因素,在思想政治、历史、地理、物理、化学、生物门科目中自选门参加考试(选),每门科目满分均为分.为了应对新高考,某高中从高一年级名学生(其中男生人,女生人)中,采用分层抽样的方法从中抽取名学生进行调查,其中,女生抽取人.
(1)求的值;
(2)学校计划在高一上学期开设选修中的“物理”和“地理”两个科目,为了了解学生对这两个科目的选课情况,对抽取到的名学生进行问卷调查(假定每名学生在“物理”和“地理”这两个科目中必须选择一个科目且只能选择一个科目),下表是根据调查结果得到的一个不完整的列联表,请将下面的列联表补充完整,并判断是否有的把握认为选择科目与性别有关?说明你的理由;
选择“物理”
选择“地理”
总计
男生
女生
总计
(3)在抽取到的名女生中,按(2)中的选课情况进行分层抽样,从中抽出名女生,再从这名女生中抽取人,设这人中选择“物理”的人数为,求的分布列及期望.附:,
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
【答案】(1);(2)联表见解析,有,理由见解析;(3)分布列见解析,
【解析】
(1)由题意得,
解得.
(2)2×2列联表为:
选择“物理”
选择“地理”
总计
男生
45
10
55
女生
25
20
45
总计
70
30
100
,
故有的把握认为选择科目与性别有关.
(3)从名女生中分层抽样抽名女生,所以这女生中有人选择“物理”, 人选择“地理”. 名女生中再选择名女生,则这名女生中选择“物理”的人数可为,,,,,
设事件发生的概率为,则,,,,所以的分布列为:
X
0
1
2
3
4
P
期望.
一、 课程标准
1、 会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.
2、 了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
3、了解独立性检验的基本思想、方法及其简单应用,能通过计算判断两个变量的相关程度.
二、 基础知识回顾
1. 变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2. 两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为y^=b^x+a^_,其中其中a^,b^是待定参数,(yi-bxi-a)2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3. 独立性检验
(1)2×2列联表
设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(2)独立性检验
利用随机变量K2(也可表示为χ2)的观测值k=(其中n=a+b+
c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
常用结论
(1)求解回归方程的关键是确定回归系数a^,b^,应充分利用回归直线过样本中心点 (x-,y-).
(2)根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
(3)根据回归方程计算的b^值,仅是一个预报值,不是真实发生的值.
三、 自主热身、归纳总结
1、根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为y=bx+a,则( )
A. a>0,b>0 B. a>0,b<0
C. a<0,b>0 D. a<0,b<0
【答案】 B
【解析】 由表中数据画出散点图,如图.
由散点图可知b<0,a>0,选B.
2、为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程y=bx+a,其中b=0.76,a=y--bx-.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A. 11.4万元 B. 11.8万元
C. 12.0万元 D. 12.2万元
【答案】 B
【解析】 x-==10,y-==8,
∴a=8-0.76×10=0.4,
∴当x=15时,y=0.76×15+0.4=11.8(万元).
3、已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为y∧=0.95x+a∧,则a∧=
x
0
1
3
4
y
2.2
4.3
4.8
6.7
【答案】 2.6
【解析】 因为回归直线必过样本点的中心(x,y),又x=2,y=4.5,代入回归方程,得a∧=2.6.
5、为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025. 根据表中数据,得到K2的观测值k=≈4.844,则认为选修文科与性别有关系出错的可能性为
【答案】 5%
【解析】 K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
四、 例题选讲
考点一 线性回归方程
例1、已知变量与正相关,且由观测数据算得样本平均数,,则由该观测的数据算得的线性回归方程可能是
A. B.
C. D.
【答案】A
【解析】因为与正相关,排除选项C、D,又因为线性回归方程恒过样本点的中心,故排除选项B;故选A.
变式1、有下列数据:
下列四个函数中,模拟效果最好的为( )
A. B. C. D.
【答案】A
【解析】将,,代入四个选项,可得A模拟效果最好.
故选:A.
变式2、某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响.对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.
有下列5个曲线类型:①;②;③;④;⑤,则较适宜作为年销售量关于年宣传费的回归方程的是( )
A.①② B.②③ C.②④ D.③⑤
【答案】B
【解析】
从散点图知,样本点分布在开口向右的抛物线(上支)附近或对数曲线(上部分)的附近,所以y=或y=p+qlnx较适宜,故选B.
变式3、对具有线性相关关系的两个变量和,测得一组数据如下表所示:根据表格,利用最小二乘法得到回归直线方程为,则( )
2
4
5
6
8
20
40
60
70
A.85.5 B.80 C.85 D.90
【答案】B
【解析】∵=5,回归直线方程为y=10.5x+1.5,
∴=54,
∴55×4=20+40+60+70+m,
∴m=80,
故选:B.
方法总结:数据处理,要求结合散点图,初步建立线性回归的直观感知;
(1)依托数据,结合公式准确计算线性回归方程的相关系数值;
(2)根据线性回归方程,正确使用回归方程进行估计.
考点二 独立性检验
例2、在对人们休闲方式的一次调查中,根据数据建立如下的列联表:
看书
运动
合计
男
8
20
28
女
16
12
28
合计
24
32
56
根据表中数据,得到,所以我们至少有( )的把握判定休闲方式与性别有关系.(参考数据:,)
A.99% B.95% C.1% D.5%
【答案】B
【解析】结合题意和独立性检验的结论,由
,,
故这种判断出错的可能性至多为,即,
故我们至少有95%的把握判定休闲方式与性别有关系.
故选:B
变式1、某研究性学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如表
(参考公式:,其中.)
附表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
则下列选项正确的是( )
A.有的把握认为使用智能手机对学习有影响
B.有的把握认为使用智能手机对学习无影响
C.有的把握认为使用智能手机对学习有影响
D.有的把握认为使用智能手机对学习无影响
【答案】A
【解析】根据卡方公式求得,
,
该研究小组有的把握认为中学生使用智能手机对学生有影响,故选A.
变式2、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
A.若的观测值为=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;
C.若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;
D.以上三种说法都不正确.
【答案】C
【解析】要正确认识观测值的意义,观测值同临界值进行比较得到一个概率,这个概率是推断出错误的概率,若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推判出现错误,故选C.
变式3、为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:
未发病
发病
总计
未注射疫苗
20
x
A
注射疫苗
30
y
B
总计
50
50
100
现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为.
(1)求2×2列联表中的数据x,y,A,B的值.
(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?
(3)能否在犯错误的概率不超过0.001的前提下认为疫苗有效?
附:K2=,n=a+b+c+d.
临界值表:
P(K2≥k0)
0.05
0.01
0.005
0.001
k0
3.841
6.635
7.879
10.828
【解析】 (1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件M,
由已知得P(M)==,
所以y=10,则B=40,x=40,A=60.
(2)未注射疫苗发病率为=≈0.67,
注射疫苗发病率为==0.25.
发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.
(3)∵K2=≈16.67>10.828.
所以能在犯错误的概率不超过0.001的前提下认为疫苗有效.
方法总结:(1)根据题意完善2×2列联表,再计算观测值K2,对照临界值表即可得出结论;
(2)理解K2的运算过程以及在实际问题中的统计学意义.
考点三、统计案例与线性回归分析的综合
例3、某大学餐饮中心为了了解新生的饮食习惯,在某学院大一年级名学生中进行了抽样调查,发现喜欢甜品的占.这名学生中南方学生共人。南方学生中有人不喜欢甜品.(1)完成下列列联表:
喜欢甜品
不喜欢甜品
合计
南方学生
北方学生
合计
(2)根据表中数据,问是否有的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;
(3)已知在被调查的南方学生中有名数学系的学生,其中名不喜欢甜品;有名物理系的学生,其中名不喜欢甜品.现从这两个系的学生中,各随机抽取人,记抽出的人中不喜欢甜品的人数为,求的分布列和数学期望.
附:.
0.15
0.100
0.050
0.025
0.010
2.072
2.706
3.841
5.024
6.635
【解析】(1)
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
(2)由题意,
,
∴有的把握认为“南方学生和北方学生在选甜品的饮食习惯方面有差异”.
(3)的所有可能取值为0,1,2,3,
,
,
,
,
则的分布列为
0
1
2
3
所以的数学期望.
变式1、【吉林省梅河口市第五中学2017-2018学年高二下学期期末】某中学一名数学老师对全班50名学生某次考试成绩分男女生进行统计,其中120分(含120分)以上为优秀,绘制了如图所示的两个频率分布直方图:
(1)根据以上两个直方图完成下面的列联表:
性别 成绩
优秀
不优秀
总计
男生
女生
总计
(2)根据(1)中表格的数据计算,你有多大把握认为学生的数学成绩与性别之间有关系?
2.072
2.706
3.841
5.024
6.635
7.879
10.828
0.15
0.10
0.05
0.025
0.010
0.005
0.001
附:,其中.
【解析】(1)
性别 成绩
优秀
不优秀
总计
男生
13
10
23
女生
7
20
27
总计
20
30
50
(2)由(1)中表格的数据知,,
∵ ,∴ 有95%的把握认为学生的数学成绩与性别之间有关系.
变式2、(2020届山东省德州市高三上期末)某公司为了了解年研发资金投人量(单位:亿元)对年销售额(单位:亿元)的影响.对公司近年的年研发资金投入量和年销售额的数据,进行了对比分析,建立了两个函数模型:①,②,其中、、、均为常数,为自然对数的底数.并得到一些统计量的值.令,,经计算得如下数据:
(1)请从相关系数的角度,分析哪一个模型拟合程度更好?
(2)(ⅰ)根据(1)的选择及表中数据,建立关于的回归方程;
(ⅱ)若下一年销售额需达到亿元,预测下一年的研发资金投入量是多少亿元?
附:①相关系数,
回归直线中公式分别为:,;
②参考数据:,,.
【解析】(1)设和的相关系数为,和的相关系数为,由题意,
,
,
则,因此从相关系数的角度,模型的拟合程度更好;
(2)(ⅰ)先建立关于的线性回归方程,
由,得,即;
由于,,
所以关于的线性回归方程为,
所以,则;
(ⅱ)下一年销售额需达到亿元,即,代入,得,
又,所以,所以,
所以预测下一年的研发资金投入量约是亿元.
变式3、(2020·湖北高三期末(理))某土特产超市为预估2020年元旦期间游客购买土特产的情况,对2019年元旦期间的90位游客购买情况进行统计,得到如下人数分布表.
购买金额(元)
人数
10
15
20
15
20
10
(1)根据以上数据完成列联表,并判断是否有的把握认为购买金额是否少于60元与性别有关.
不少于60元
少于60元
合计
男
40
女
18
合计
(2)为吸引游客,该超市推出一种优惠方案,购买金额不少于60元可抽奖3次,每次中奖概率为(每次抽奖互不影响,且的值等于人数分布表中购买金额不少于60元的频率),中奖1次减5元,中奖2次减10元,中奖3次减15元.若游客甲计划购买80元的土特产,请列出实际付款数(元)的分布列并求其数学期望.
附:参考公式和数据:,.
附表:
2.072
2.706
3.841
6.635
7.879
0.150
0.100
0.050
0.010
0.005
【解析】(1)列联表如下:
不少于60元
少于60元
合计
男
12
40
52
女
18
20
38
合计
30
60
90
,
因此有的把握认为购买金额是否少于60元与性别有关.
(2)可能取值为65,70,75,80,且.
,,
,,
所以的分布列为
65
70
75
80
.
方法总结:统计案例与线性回归分析的综合往往涉及到直方图、概率等综合性问题,对于此类问题可以从以下两个方面入手:1、理解直方图具体时间频率与概率的对应关系,独立事件的概率计算过程;理解列联表的数据生成,以及使用公式进行基本运算,学会利用运算结果进行简单的数据分析;2、数学期望是离散型随机变量中重要的数学概念,反映随机变量取值的平均水平.求解离散型随机变量的分布列、数学期望时,首先要分清事件的构成与性质,确定离散型随机变量的所有取值,然后根据概率类型选择公式,计算每个变量取每个值的概率,列出对应的分布列,最后求出数学期望.正态分布是一种重要的分布,之前考过一次,尤其是正态分布的3σ原则.
五、优化提升与真题演练
1、(2020年高考全国Ⅰ卷理数)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是
A. B.
C. D.
【答案】D
【解析】由散点图分布可知,散点图分布在一个对数函数的图象附近,
因此,最适合作为发芽率和温度的回归方程类型的是.
故选:D.
2、(2018年高考全国Ⅱ卷理数)下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为)建立模型①:;根据2010年至2016年的数据(时间变量的值依次为)建立模型②:.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
【解析】(1)利用模型①,
该地区2018年的环境基础设施投资额的预测值为(亿元).
利用模型②,
该地区2018年的环境基础设施投资额的预测值为(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.
以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.
3、(2020年高考全国Ⅰ卷理数)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi) (i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数,.
【解析】(1)由已知得样本平均数,从而该地区这种野生动物数量的估计值为60×200=12000.
(2)样本的相关系数
.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
4、(2020年高考全国III卷理数)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400
人次>400
空气质量好
空气质量不好
附:K2=,
P(K2≥k)
0.050 0.010 0.001
k
3.841 6.635 10.828
.
【解析】(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
空气质量等级
1
2
3
4
概率的估计值
0.43
0.27
0.21
0.09
(2)一天中到该公园锻炼的平均人次的估计值为
.
(3)根据所给数据,可得列联表:
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
根据列联表得
.
由于,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
5、(2020年高考山东)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了天空气中的和浓度(单位:),得下表:
32
18
4
6
8
12
3
7
10
(1)估计事件“该市一天空气中浓度不超过,且浓度不超过”的概率;
(2)根据所给数据,完成下面的列联表:
(3)根据(2)中的列联表,判断是否有的把握认为该市一天空气中浓度与浓度有关?
附:,
0.050 0.010 0.001
3.841 6.635 10.828
【解析】(1)根据抽查数据,该市100天的空气中PM2.5浓度不超过75,且浓度不超过150的天数为,因此,该市一天空气中PM2.5浓度不超过75,且浓度不超过150的概率的估计值为.
(2)根据抽查数据,可得列联表:
64
16
10
10
(3)根据(2)的列联表得.
由于,故有的把握认为该市一天空气中浓度与浓度有关.
6、(2020届山东省滨州市高三上期末)近年,国家逐步推行全新的高考制度.新高考不再分文理科,某省采用模式,其中语文、数学、外语三科为必考科目,每门科目满分均为分.另外考生还要依据想考取的高校及专业的要求,结合自己的兴趣爱好等因素,在思想政治、历史、地理、物理、化学、生物门科目中自选门参加考试(选),每门科目满分均为分.为了应对新高考,某高中从高一年级名学生(其中男生人,女生人)中,采用分层抽样的方法从中抽取名学生进行调查,其中,女生抽取人.
(1)求的值;
(2)学校计划在高一上学期开设选修中的“物理”和“地理”两个科目,为了了解学生对这两个科目的选课情况,对抽取到的名学生进行问卷调查(假定每名学生在“物理”和“地理”这两个科目中必须选择一个科目且只能选择一个科目),下表是根据调查结果得到的一个不完整的列联表,请将下面的列联表补充完整,并判断是否有的把握认为选择科目与性别有关?说明你的理由;
选择“物理”
选择“地理”
总计
男生
女生
总计
(3)在抽取到的名女生中,按(2)中的选课情况进行分层抽样,从中抽出名女生,再从这名女生中抽取人,设这人中选择“物理”的人数为,求的分布列及期望.附:,
0.05
0.01
0.005
0.001
3.841
6.635
7.879
10.828
【答案】(1);(2)联表见解析,有,理由见解析;(3)分布列见解析,
【解析】
(1)由题意得,
解得.
(2)2×2列联表为:
选择“物理”
选择“地理”
总计
男生
45
10
55
女生
25
20
45
总计
70
30
100
,
故有的把握认为选择科目与性别有关.
(3)从名女生中分层抽样抽名女生,所以这女生中有人选择“物理”, 人选择“地理”. 名女生中再选择名女生,则这名女生中选择“物理”的人数可为,,,,,
设事件发生的概率为,则,,,,所以的分布列为:
X
0
1
2
3
4
P
期望.
相关资料
更多