高中数学高考第二节 变量间的相关性与统计案例 教案
展开
这是一份高中数学高考第二节 变量间的相关性与统计案例 教案,共19页。
1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程,凸显数学运算的核心素养.
3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其应用,凸显数学建模、数据分析的核心素养.
4.了解回归分析的基本思想、方法及其简单应用,凸显数学建模、数据分析的核心素养.
[理清主干知识]
1.变量间的相关关系
常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
(3)回归方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),其中eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(n),\s\d4(i=1))xiyi-n\x\t(x) \x\t(y),\(∑,\s\up6(n),\s\d4(i=1))x\\al(2,i)-n\x\t(x)2),eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x).
(4)相关系数
当r>0时,表明两个变量正相关;
当r70(万元),
所以能把保费x定为5元.
考法(二) 相关系数
[例2] 我国大力发展校园足球,为了解某地区足球特色学校的发展状况,社会调查小组得到如下统计数据:
(1)根据上表数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱;
(已知:0.75≤|r|≤1,则认为y与x的线性相关性很强;0.3≤|r|<0.75,则认为y与x的线性相关性一般;|r|≤0.25,则认为y与x的线性相关性较弱)
(2)求y关于x的线性回归方程,并预测该地区2021年足球特色学校的个数(精确到个).
参考数据:eq \i\su(i=1,5, )(xi-eq \x\t(x))2=10,eq \i\su(i=1,5, )(yi-eq \x\t(y))2=1.3,eq \i\su(i=1,5, )(xi-eq \x\t(x))·(yi-eq \x\t(y))=3.6,eq \r(13)≈ 3.605 6.
[解] (1)由题得eq \x\t(x)=eq \f(1,5)×(2 014+2 015+2 016+2 017+2 018)=2 016,
eq \x\t(y)=eq \f(1,5)×(0.30+0.60+1.00+1.40+1.70)=1,
∴r=eq \f(\i\su(i=1,5, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,5, )xi-\x\t(x)2) \r(\i\su(i=1,5, )yi-\x\t(y)2))=eq \f(3.6,\r(10)×\r(1.3))≈eq \f(3.6,3.605 6)≈0.998>0.7.
∴y与x的线性相关性很强.
(2)设y关于x的线性回归方程为eq \(y,\s\up6(^))=eq \(a,\s\up6(^))+eq \(b,\s\up6(^))x,
则eq \(b,\s\up6(^))=eq \f(\i\su(i=1,5, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,5, )xi-\x\t(x)2)=eq \f(3.6,10)=0.36,
eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x)=1-0.36×2 016=-724.76,
∴y关于x的线性回归方程是eq \(y,\s\up6(^))=0.36x-724.76.
当x=2 021时,eq \(y,\s\up6(^))=0.36×2 021-724.76=2.8,故预测该地区2021年足球特色学校有280个.
考法(三) 非线性回归分析
[例3] 已知某地区某种昆虫产卵数和温度有关.现收集了一只该品种昆虫的产卵数y(个)和温度x(℃)的7组观测数据,其散点图如图所示:
根据散点图,结合函数知识,可以发现产卵数y和温度x可用方程y=ebx+a来拟合,令z=ln y,结合样本数据可知z与温度x可用线性回归方程来拟合.
根据收集到的数据,计算得到如下值:
表中zi=ln yi,eq \x\t(z)=eq \f(1,7)eq \i\su(i=1,7,z)i.
(1)求z关于温度x的回归方程(回归系数结果精确到0.001);
(2)求产卵数y关于温度x的回归方程;若该地区一段时间内的气温在26 ℃~36 ℃之间(包括26 ℃与36 ℃),估计该品种一只昆虫的产卵数的范围.参考数据:e3.282≈27,e3.792≈44,e5.832≈341,e6.087≈440,e6.342≈568.
[解] (1)由题意,z和温度x可以用线性回归方程拟合,
设eq \(z,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),
则eq \(b,\s\up6(^))=eq \f(\i\su(i=1,7, )xi-\x\t(x)zi-\x\t(z),\i\su(i=1,7, )xi-\x\t(x)2)=eq \f(46.418,182)≈0.255,
eq \(a,\s\up6(^))=eq \x\t(z)-eq \(b,\s\up6(^))eq \x\t(x)=3.537-0.255×27=-3.348,
故z关于x的线性回归方程为eq \(z,\s\up6(^))=0.255x-3.348.
(2)由(1)可得,ln y=0.255x-3.348.
于是产卵数y关于温度x的回归方程为y=e0.255x-3.348.
当x=26时,y=e0.255×26-3.348=e3.282≈27;
当x=36时,y=e0.255×36-3.348=e5.832≈341.
∵函数y=e0.255x-3.348为增函数,
∴在气温在26℃~36℃之间时,一只该品种昆虫的产卵数的估计范围是{y|27≤y≤341,y∈N*}.
[方法技巧]
1.线性回归分析问题的类型及解题方法
(1)求回归直线方程
①计算出eq \x\t(x),eq \x\t(y),eq \i\su(i=1,n,x)eq \\al(2,i),eq \i\su(i=1,n,x)iyi或eq \i\su(i=1,n, )(xi-eq \x\t(x))(yi-eq \x\t(y)),eq \i\su(i=1,n, )(xi-eq \x\t(x))2的值;
②利用公式计算回归系数eq \(a,\s\up6(^)),eq \(b,\s\up6(^));
③写出回归直线方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)).
(2)回归模型的拟合效果:利用相关系数r判断,当|r|越趋近于1时,两变量的线性相关性越强.
2.非线性回归方程的求法
(1)根据原始数据作出散点图;
(2)根据散点图选择恰当的拟合函数;
(3)作恰当变换,将其转化成线性函数,求线性回归方程;
(4)在(3)的基础上通过相应变换,即可得非线性回归方程.
[针对训练]
1.已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下表对应数据,根据表中数据可得回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))其中eq \(b,\s\up6(^))=11据此估计,当投入6万元广告费时,销售额约为( )
A.60万元 B.63万元
C.65万元 D.69万元
解析:选B 由表格数据可知eq \x\t(x)=eq \f(1+2+3+4+5,5)=3,eq \x\t(y)=eq \f(10+15+30+45+50,5)=30,
因为回归方程过点(eq \x\t(x),eq \x\t(y)),所以30=3eq \(b,\s\up6(^))+eq \(a,\s\up6(^)),且eq \(b,\s\up6(^))=11,得eq \(a,\s\up6(^))=-3,所以eq \(y,\s\up6(^))=11x-3,代入x=6,得eq \(y,\s\up6(^))=63,故选B.
2.某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据:
该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月的概率;
(2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据,求出y关于x的线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^));
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
参考数据:11×25+13×29+12×26+8×16=1 092,
112+132+122+82=498.
解:(1)设选到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有5种,所以P(A)=eq \f(5,15)=eq \f(1,3).
(2)由表中2月份至5月份的数据可得eq \x\t(x)=11,eq \x\t(y)=24,eq \i\su(i=1,4,x)iyi=1 092,eq \i\su(i=1,4,x)eq \\al(2,i)=498,所以eq \(b,\s\up6(^))=eq \f(\i\su(i=1,4,x)iyi-4 \x\t(x) \x\t(y),\i\su(i=1,4,x)\\al(2,i)-4 \x\t(x)2)=eq \f(18,7),
则eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^)) eq \x\t(x)=-eq \f(30,7),
所以y关于x的线性回归方程为eq \(y,\s\up6(^))=eq \f(18,7)x-eq \f(30,7).
(3)当x=10时,eq \(y,\s\up6(^))=eq \f(150,7),eq \b\lc\|\rc\|(\a\vs4\al\c1(\f(150,7)-22))<2;
当x=6时,eq \(y,\s\up6(^))=eq \f(78,7),eq \b\lc\|\rc\|(\a\vs4\al\c1(\f(78,7)-12))<2.
所以该小组所得线性回归方程是理想的.
考点三 独立性检验
[典例] (2020·全国卷Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
附:K2=eq \f(nad-bc2,a+bc+da+cb+d),
[解] (1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
(2)一天中到该公园锻炼的平均人次的估计值为
eq \f(1,100)(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
根据列联表得K2=eq \f(100×33×8-22×372,55×45×70×30)≈5.820.
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
[方法技巧] 解独立性检验应用问题的2个关注点
[针对训练]
(2021·大连一模)在某次测验中,某班40名考生的成绩满分100分统计如图所示.
(1)估计这40名学生的测验成绩的中位数x0(精确到0.1);
(2)记80分以上为优秀,80分及以下为合格,结合频率分布直方图完成下表,并判断是否有95%的把握认为数学测验成绩与性别有关?
解:(1)由频率分布直方图易知0.01×10+0.015×10+0.02×10=0.45,即分数在eq \b\lc\[\rc\)(\a\vs4\al\c1(40,70))的频率为0.45,
∴0.03×eq \b\lc\(\rc\)(\a\vs4\al\c1(x0-70))=0.5-0.45,解得x0=eq \f(215,3)≈71.7,
∴40名学生的测验成绩的中位数为71.7.
(2)由频率分布直方图,可得列联表如下:
∴K2=eq \f(40×\b\lc\(\rc\)(\a\vs4\al\c1(16×4-14×6))2,30×10×22×18)=eq \f(40,297)≈0.1356.635,所以有99%以上的把握认为“生育意愿与城市级别有关”,故选C.
5.(多选)我国5G技术研发试验在2016~2018年进行,分为5G关键技术试验、5G技术方案验证和5G系统验证三个阶段.2020年初以来,5G技术在我国已经进入高速发展的阶段,5G手机的销量也逐渐上升.某手机商城统计了近5个月来5G手机的实际销量,如下表所示:
若y与x线性相关,且求得线性回归方程为eq \(y,\s\up6(^))=45x+5,则下列说法正确的是( )
A.a=142
B.y与x正相关
C.y与x的相关系数为负数
D.2021年2月该手机商城的5G手机销量约为365部
解析:选AB eq \x\t(x)=eq \f(1+2+3+4+5,5)=3,
eq \x\t(y)=eq \f(50+96+a+185+227,5)=eq \f(558+a,5),
因为点(eq \x\t(x),eq \x\t(y))在回归直线上,所以eq \f(558+a,5)=45×3+5,解得a=142,所以选项A正确;
从表格数据看,y随x的增大而增大,所以y与x正相关,所以选项B正确;
因为y与x正相关,所以y与x的相关系数为正数,所以选项C错误;
2021年2月对应的月份编号x=7,当x=7时,eq \(y,\s\up6(^))=45×7+5=320,所以2021年2月该手机商城的5G手机销量约为320部,所以选项D错误.故选A、B.
6.(多选)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:
临界值表
并计算得到K2≈19.05,下列小波对地区A天气判断正确的是( )
A.夜晚下雨的概率约为eq \f(1,2)
B.未出现“日落云里走”夜晚下雨的概率约为eq \f(5,14)
C.有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关
D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨
解析:选D 由题意,把频率看作概率可得夜晚下雨的概率约为eq \f(25+25,100)=eq \f(1,2),故A判断正确;未出现“日落云里走”,夜晚下雨的概率约为eq \f(25,25+45)=eq \f(5,14),故B判断正确;由K2≈19.05>10.828,根据临界值表,可得有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,故C判断正确,D判断错误,故选D.
7.为了均衡教育资源,加大对偏远地区的教育投入,调查了某地若干户家庭的年收入x(单位:万元)和年教育支出y(单位:万元),调查显示年收入x与年教育支出y具有线性相关关系,并由调查数据得到y与x的回归直线方程为eq \(y,\s\up6(^))=0.15x+0.2.由回归直线方程可知,家庭年收入每增加1万元,则年教育支出平均增加________万元.
解析:因为回归直线的斜率为0.15,所以家庭年收入每增加1万元,年教育支出平均增加0.15万元.
答案:0.15
8.心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)
根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.
附表:
解析:由列联表计算K2的观测值k=eq \f(50×22×12-8×82,30×20×20×30)≈5.556>5.024.∴推断犯错误的概率不超过0.025.
答案:0.025
9.(2021·甘肃兰州一诊)近五年来某草场羊只数量与草地植被指数两变量间的关系如表所示,绘制相应的散点图,如图所示:
根据表及图得到以下判断:
①羊只数量与草地植被指数成减函数关系;
②若利用这五组数据得到的两变量间的相关系数为r1,去掉第一年数据后得到的相关系数为r2,则|r1|<|r2|;
③可以利用回归直线方程,准确地得到当羊只数量为2万只时的草地植被指数.
以上判断中正确的个数是________.
解析:对于①,羊只数量与草地植被指数成负相关关系,不是减函数关系,所以①错误;对于②,用这五组数据得到的两变量间的相关系数为r1,因为第一年数据(1.4,1.1)是离群值,去掉后得到的相关系数为r2,其相关性更强,所以|r1|<|r2|,②正确;对于③,利用回归直线方程,不能准确得到当羊只数量为2万只时的草地植被指数,得到的只是预测值,所以③错误.综上知,正确的判断序号是②,共1个.
答案:1
10.(2021·佛山质检)“学习强国”APP是由中宣部主管以习近平新时代中国特色社会主义思想和党的十九大精神为主要内容的“PC端+手机客户端”两大终端二合一模式的学习平台,2019年1月1日上线后便成了党员干部群众学习的“新助手”,为了调研某地党员在“学习强国”APP的学习情况,研究人员随机抽取了200名该地党员进行调查,将他们某两天在“学习强国”APP上所得的分数统计如表(1)所示:
表(1)
(1)现用分层抽样的方法从80分及以上的党员中随机抽取5人,再从抽取的5人中随机选取2人作为学习小组长,求所选取的两位小组长的分数都在eq \b\lc\[\rc\](\a\vs4\al\c1(90,100))上的概率;
(2)为了调查“学习强国”APP得分情况是否受到所在单位的影响,研究人员随机抽取了机关事业单位党员以及国有企业党员作出调查,得到的数据如表eq \b\lc\(\rc\)(\a\vs4\al\c1(2))所示:
表(2)
判断是否有99%的把握认为“学习强国”APP得分情况受所在单位的影响.
附:K2=eq \f(n\b\lc\(\rc\)(\a\vs4\al\c1(ad-bc))2,\b\lc\(\rc\)(\a\vs4\al\c1(a+b))\b\lc\(\rc\)(\a\vs4\al\c1(c+d))\b\lc\(\rc\)(\a\vs4\al\c1(a+c))\b\lc\(\rc\)(\a\vs4\al\c1(b+d))),n=a+b+c+d.
解:(1)由题意得,分数在eq \b\lc\[\rc\)(\a\vs4\al\c1(80,90))上抽取2人,记为a,b;分数在eq \b\lc\[\rc\](\a\vs4\al\c1(90,100))上抽取3人,记为A,B,C.
选取2人作为学习小组长的基本事件有10个,即(a,b),(a,A),(a,B),(a,C),(b,A),(b,B),(b,C),(A,B),(A,C),(B,C),其中两位小组长的分数都在eq \b\lc\[\rc\](\a\vs4\al\c1(90,100))上的有(A,B),(A,C),(B,C)共3个基本事件,∴所求概率P=eq \f(3,10).
(2)完善表格如下:
K2=eq \f(500×220×50-150×802,300×200×130×370)≈0.173400
空气质量好
空气质量不好
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
空气质量等级
1
2
3
4
概率的估计值
0.43
0.27
0.21
0.09
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
两个明确
明确两类主体;明确研究的两个问题
两个准确
准确画出2×2列联表;准确计算K2
合格
优秀
总计
男生
16
女生
4
总计
40
合格
优秀
总计
男生
16
6
22
女生
14
4
18
总计
30
10
40
x
10
15
20
25
30
y
110
125
160
185
220
非一线
一线
总计
愿生
45
20
65
不愿生
13
22
35
总计
58
42
100
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
月份
2020年
8月
2020年
9月
2020年
10月
2020年
11月
2020年
12月
月份编号x
1
2
3
4
5
销量y/部
50
96
a
185
227
夜晚天气
日落云里走
下雨
未下雨
出现
25
5
未出现
25
45
P(K2≥k0)
0.10
0.05
0.010
0.001
k0
2.706
3.841
6.635
10.828
几何题
代数题
总计
男同学
22
8
30
女同学
8
12
20
总计
30
20
50
P(K2≥k0)
0.10
0.05
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
年份
1
2
3
4
5
羊只数量/万只
1.4
0.9
0.75
0.6
0.3
草地植被指数
1.1
4.3
15.6
31.3
49.7
分数
[60,70)
[70,80)
[80,90)
[90,100]
人数
50
100
20
30
机关事业单位党员
国有企业党员
分数超过80
220
150
分数不超过80
80
50
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
机关事业单位党员
国有企业党员
总计
分数超过80
220
150
370
分数不超过80
80
50
130
总计
300
200
500
日期
第一年
第二年
第三年
第四年
优惠金额x/千元
10
11
13
12
销售量y/辆
22
24
31
27
eq \x\t(x)
eq \x\t(y)
eq \x\t(w)
eq \i\su(i=1,8, )(xi-eq \x\t(x))2
eq \i\su(i=1,8, )(wi-eq \x\t(w))2
eq \i\su(i=1,8, )(xi-eq \x\t(x))·
(yi-eq \x\t(y))
eq \i\su(i=1,8, )(wi-eq \x\t(w))·
(yi-eq \x\t(y))
46.6
563
6.8
289.8
1.6
1 469
108.8
相关教案
这是一份(小白高考)新高考数学(零基础)一轮复习教案9.2《变量间的相关性与统计案例》 (2份打包,原卷版+教师版),文件包含小白高考新高考数学零基础一轮复习教案92《变量间的相关性与统计案例》教师版doc、小白高考新高考数学零基础一轮复习教案92《变量间的相关性与统计案例》原卷版doc等2份教案配套教学资源,其中教案共28页, 欢迎下载使用。
这是一份2023-2024年新高考数学一轮复习培优教案9.2《变量间的相关性与统计案例》 (2份打包,原卷版+教师版),文件包含2023-2024年新高考数学一轮复习培优教案92《变量间的相关性与统计案例》教师版doc、2023-2024年新高考数学一轮复习培优教案92《变量间的相关性与统计案例》原卷版doc等2份教案配套教学资源,其中教案共32页, 欢迎下载使用。
这是一份新高考数学一轮复习讲练教案9.2 变量间的相关性与统计案例(含解析),共19页。