备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析
展开(1)正相关和负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现① 增加 的趋势,我们就称这两个变量② 正相关 ;当一个变量的值增加时,另一个变量的相应值呈现③ 减小 的趋势,则称这两个变量④ 负相关 .
(2)线性相关:一般地,如果两个变量的取值呈现⑤ 正 相关或⑥ 负 相关,而且散点落在⑦ 一条直线 附近,我们就称这两个变量线性相关.
(3)非线性相关或曲线相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(1)样本相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2.
(2)样本相关系数r的性质
①当r>0时,称成对样本数据⑧ 正相关 ;当r<0时,称成对样本数据⑨ 负相关 ;当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
②|r|≤1.当|r|越接近于1,成对样本数据的线性相关性越⑩ 强 ;|r|越接近于0,成对样本数据线性相关性越⑪ 弱 .
3.一元线性回归模型
(1)一元线性回归模型
我们称Y=bx+a+e,E(e)=0,D(e)=σ2为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
(2)经验回归方程与最小二乘估计
经验回归方程:y=b^x+a.
最小二乘估计:b^=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2=⑫ ∑ni=1xiyi-nxy∑ni=1xi2-nx2 ,a=y-b^x.
说明 经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.经验回归直线过点(x,y).
(3)残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去⑬ 预测值 称为残差.
(4)决定系数
决定系数R2用来比较两个模型的拟合效果,R2=1-∑i=1n(yi-yi)2∑i=1n(yi-y)2.其中∑i=1n(yi-yi)2是残差平方和,R2越大(越接近1),表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.
4.列联表与独立性检验
(1)2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值为{0,1},其样本频数列联表(称为2×2列联表)为:
(2)独立性检验
χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)临界值
对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα⑭ 越大 .
下表给出了?2独立性检验中5个常用的小概率值和相应的临界值.
(4)基于小概率值α的检验规则
当χ2≥xα时,我们就推断H0⑮ 不成立 ,即认为X和Y⑯ 不独立 ,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y⑰ 独立 .
说明 若?2越大,则两个分类变量有关的把握越大.
1.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( D )
2.下列说法正确的是( D )
A.在经验回归方程y=-0.85x+2.3中,当解释变量x每增加1个单位时,响应变量平均减少2.3个单位
B.若两个变量的相关性越强,则r越接近于1
C.在回归分析中,决定系数R2=0.80的模型比决定系数R2=0.98的模型拟合的效果要好
D.残差平方和越小的模型,拟合的效果越好
解析 对于A,根据经验回归方程,当解释变量x每增加1个单位时,响应变量y平均减少0.85个单位,故A错误;对于B,若两个变量的相关性越强,则|r|越接近于1,故B错误;对于C,用决定系数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好,所以C错误;对于D,由残差的统计学意义知,D正确.
3.为考查某种营养品对儿童身高增长的影响,选取部分儿童进行试验,根据100个有放回简单随机样本的数据,得到如下列联表,由表可知下列说法正确的是( D )
A.a=b=30
B.χ2≈12.667
C.从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是35
D.根据小概率值α=0.001的独立性检验,可以认为该营养品对儿童身高增长有影响
解析 由题可知a=50-10=40,b=50-30=20,所以A错误;χ2=100×(40×30-10×20)250×50×60×40≈16.667 >10.828=x0.001,所以根据小概率值α=0.001的独立性检验,可以认为该营养品对儿童身高增长有影响,所以B错误,D正确;从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是40100=25,所以C错误.
4.[2023福州5月质检]已知变量x和y的统计数据如下表:
若由表中数据得到经验回归方程为y=0.8x+a,则x=10时的残差为 -0.1 .(注:观测值减去预测值称为残差)
解析 易知x=8,y=5,∴a=5-0.8×8=-1.4,∴x=10时,y=8-1.4=6.6,∴x=10时的残差为6.5-6.6=-0.1.
研透高考 明确方向
命题点1 成对数据的相关性
角度1 判断两个变量的相关性
例1 (1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是( C )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析 由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,随y的减小而减小,所以z随x的增大而减小,x与z负相关.
(2)[2023湖北仙桃中学模拟]对四组数据进行统计后,获得了如图所示的散点图,四组数据的相关系数分别为r1,r2,r3,r4,对各组的相关系数进行比较,正确的是( C )
第一组第二组
第三组第四组
A.r3<r2<0<r1<r4B.r4<r1<0<r2<r3
C.r2<r3<0<r4<r1D.r1<r4<0<r3<r2
解析 由题图可知,第一、四组数据均正相关,第二、三组数据均负相关,当相关系数的绝对值越大时,数据的线性相关性越强.第一组数据的线性相关性较第四组强,则r1>r4>0,第二组数据的线性相关性较第三组强,则|r2|>|r3|,且r2<0,r3<0,则r2<r3<0.
因此,r2<r3<0<r4<r1.故选C.
方法技巧
判断两个变量相关性的3种方法
角度2 相关系数的计算
例2 [2022全国卷乙]某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
并计算得∑10i=1xi2=0.038,∑10i=1yi2=1.615 8,∑10i=1xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量.
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2∑ni=1(yi-y)2,1.896≈1.377.
解析 (1)估计该林区这种树木平均一棵的根部横截面积x=∑i=110xi10=0.610=0.06,估计该林区这种树木平均一棵的材积量y=∑i=110yi10=3.910=0.39.
(2)∑i=110(xi-x)(yi-y)=∑i=110xiyi-10xy=0.013 4,
∑i=110(xi-x)2=∑i=110xi2-10x2=0.002,
∑i=110(yi-y)2=∑i=110yi2-10y2=0.094 8,
所以∑i=110(xi-x)2∑i=110(yi-y)2=0.002×0.0948=0.0001×1.896≈0.01×1.377=0.013 77,所以样本相关系数r=∑i=110(xi-x)(yi-y)∑i=110(xi-x)2∑i=110(yi-y)2≈≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以=Y186,所以Y=186×=1 209,
即该林区这种树木的总材积量的估计值为1 209 m3.
训练1 变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( C )
A.r2<r1<0B.0<r2<r1
C.r2<0<r1D.r2=r1
解析 由题中的数据可知,变量Y与X正相关,相关系数r1>0,变量V与U负相关,相关系数r2<0,即r2<0<r1.故选C.
命题点2 回归模型及其应用
角度1 一元线性回归模型
例3 [2023广西联考]某省为调查北部城镇2022年GDP,抽取了20个城镇进行分析,得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个城镇的人口(单位:万人)和该城镇2022年GDP(单位:亿元),计算得∑i=120xi=100,∑i=120yi=800,∑i=120(xi-x)2=70,∑i=120(yi-y)2=280,∑i=120(xi-x)(yi-y)=120.
(1)请用相关系数r判断该组数据中y与x之间线性相关关系的强弱(若|r|∈[0.75,1],相关性较强;若|r|∈[0.30,0.75),相关性一般;若r∈[-0.25,0.25],相关性较弱).
(2)求y关于x的线性回归方程.
(3)若该省北部某城镇2024年的人口约为5万人,根据(2)中的线性回归方程估计该城镇2024年的GDP.
参考公式:相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,对于一组具有线性相关关系的数据(xi,yi)(i=1,2,…,n),其回归直线y=b^x+a的斜率和截距的最小二乘估计分别为b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a=y-b^x.
解析 (1)由题意知,相关系数r=∑i=120(xi-x)(yi-y)∑i=120(xi-x)2∑i=120(yi-y)2=12070×280=120140≈0.857,
因为y与x的相关系数r满足|r|∈[0.75,1],所以y与x之间具有较强的线性相关关系.
(2)b^=∑i=120(xi-x)(yi-y)∑i=120(xi-x)2=12070=127,
a=y-b^x=80020-127×10020=2207,所以y=127x+2207.
(3)由(2)可估计该城镇2024年的GDP y=127×5+2207=40(亿元).
方法技巧
回归模型问题的类型及解题方法
(1)求经验回归方程:
①利用数据,求出x,y;
②利用公式,求出回归系数b^;
③利用经验回归直线过样本点的中心(x,y),求a .
(2)利用经验回归方程进行预测:直接将已知的自变量的某个数值代入经验回归方程求得特定要求下的预测值.
(3)判断回归模型的拟合效果:利用残差平方和或决定系数R2判断,R2越大,表示残差平方和越小,即模型的拟合效果越好.
角度2 非线性回归模型
例4 [2023重庆市三检]已知变量y关于x的经验回归方程为y=ebx-0.6,若对y=ebx-0.6两边取自然对数,可以发现lny与x线性相关,现有一组数据如表所示:
则当x=6时,预测y的值为( C )
A.9B.8C.e9D.e8
解析 对y=ebx-0.6两边取自然对数,得ln y=bx-0.6,令z=ln y,则 z=bx-0.6,数据为
由表格数据,得x=1+2+3+4+55=3,z=1+3+4+6+75=4.2.将(3,4.2)代入z=bx-0.6,得4.2=3b-0.6,(方法技巧:经验回归方程只含一个未知数问题主要是依据经验回归直线y^=b^x+a^必过样本点的中心(x,y)求解)
解得b=1.6,所以z=1.6x-0.6,即y=e1.6x-0.6.当x=6时,y=e1.6×6-0.6=e9,故选C.
方法技巧
1.解决非线性回归模型问题的思路:根据数据的散点图,选择恰当的拟合函数,用适当的变量进行转换,如通过换元或取对数等方法,把问题化为线性回归模型问题,使之得到解决.
2.常见的非线性回归模型及转换技巧
(1)y=a+bx,令v=1x,则y=a+bv;
(2)y=a+bln xb≠0,令v=lnx,则y=a+bv;
(3)y=axb(a>0,b≠0),令c=lna,v=lnx,u=lny,则u=c+bv;
(4)y=aebx(a>0,b≠0),令c=lna,u=lny,则u=c+bx.
训练2 [2023合肥市质检]研究表明,温度的突然变化会引起机体产生呼吸道上皮组织的生理不良反应,从而导致呼吸系统疾病的发生或恶化.某中学数学建模社团成员欲研究昼夜温差大小与该校高三学生患感冒人数多少之间的关系,他们记录了某周连续六天的昼夜温差,并到校医务室查阅了这六天中每天高三学生新增患感冒而就诊的人数(假设患感冒必到校医务室就诊),得到资料如下:
参考数据:∑i=16yi2=3 160,∑i=16(yi-y)2=256.
(1)已知第一天新增患感冒而就诊的学生中有7位女生,从第一天新增患感冒而就诊的学生中随机抽取3位,若抽取的3人中至少有一位男生的概率为1724,求y1的值;
(2)已知两个变量x与y之间的样本相关系数r=1516,试用最小二乘法求出y关于x的经验回归方程y=b^x+a,据此估计昼夜温差为15 ℃时,该校高三新增患感冒而就诊的学生数(结果保留整数).
参考公式:b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,
r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2·∑i=1n(yi-y)2.
解析 (1)∵1-C73Cy13=1724,
∴7×6×5y1(y1-1)(y1-2)=724,
∴y1(y1-1)(y1-2)=720=10×9×8,∴y1=10.
(2)∵∑i=16xi=54,∴x=9,∴∑i=16(xi-x)2=64.
∵r=∑i=16(xi-x)(yi-y)∑i=16(xi-x)2·∑i=16(yi-y)2=∑i=16(xi-x)(yi-y)8×16=1516,∴∑i=16(xi-x)(yi-y)=8×15,
∴b^=∑i=16(xi-x)(yi-y)?i=16(xi-x)2=8×1564=158.
又∑i=16(yi-y)2=∑i=16yi2-2y·∑i=16yi+6y2=∑i=16yi2-6y2=256,解得y=22,∴a^=y-b^x=22-158×9=418,
∴y^=418+158x,当x=15时,y^=418+158×15≈33,
故可以估计昼夜温差为15 ℃时,该校高三新增患感冒而就诊的学生数为33.
命题点3 列联表与独立性检验
例5 [2022全国卷甲改编]甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)依据小概率值α=0.1的独立性检验,分析甲、乙两城之间的长途客车是否准点与客车所属公司有关.
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
解析 (1)由题表可得A公司甲、乙两城之间的长途客车准点的概率为240240+20=1213,
B公司甲、乙两城之间的长途客车准点的概率为210210+30=78.
(2)零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无关.根据2×2列联表,
可得χ2=500×(240×30-20×210)2(240+20)×(210+30)×(240+210)×(20+30)≈3.205>2.706=x0.1,
根据小概率值α=0.1的独立性检验,我们推断H0不成立,
即认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
方法技巧
独立性检验的一般步骤
(1)提出零假设H0;
(2)根据样本数据制成2×2列联表;
(3)根据公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算χ2;
(4)比较χ2与临界值xα的大小关系,根据检验规则得出推断结论.
训练3 某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,记录其年龄(单位:岁)和是否佩戴头盔情况,得到如图所示的统计图:
(1)估算该市电动自行车骑乘人员的平均年龄.
(2)根据所给的数据,完成下面的列联表:
单位:名
(3)根据(2)中的列联表,依据α=0.010的独立性检验,能否认为遵守佩戴安全头盔规则与年龄有关?
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
解析 (1)该市电动自行车骑乘人员的平均年龄为25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39(岁).
(2)依题意,完成列联表如下:
单位:名
(3)零假设为H0:遵守佩戴安全头盔规则与年龄无关.
由表得χ2=1000×(540×60-340×60)2600×400×880×120=12522≈5.682<6.635=x0.010,
根据小概率值α=0.010的独立性检验,没有充分证据推断H0不成立,
因此可以认为H0成立,即认为遵守佩戴安全头盔规则与年龄无关.课标要求
命题点
五年考情
命题分析预测
1.了解样本相关系数的统计含义,了解样本相关关系与标准化数据向量夹角的关系;会通过相关系数比较多组成对数据的相关性.
2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法;针对实际问题,会用一元线性回归模型进行预测.
3.理解2×2列联表的统计意义;了解2×2列联表独立性检验及其应用.
成对数据的相关性
2023天津T7,2022全国卷乙T19;2020全国卷ⅡT18
本讲是高考命题热点.对于回归分析,主要考查散点图,回归方程类型的识别,求相关系数和回归方程,利用回归方程进行预测等;对于独立性检验,主要考查列联表和依据小概率值的独立性检验,常与概率综合命题.题型以解答题为主,难度中等.预计2025年高考会以创新生产生活实践情境为载体考查回归分析和独立性检验.
回归模型及其应用
2020全国卷ⅠT5
列联表与独立性检验
2023全国卷甲T19;2022新高考卷ⅠT20;2022全国卷甲T17;2021全国卷甲T17;2020新高考卷ⅠT19;2020全国卷ⅢT18
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
营养品
身高
合计
有明显增长
无明显增长
食用
a
10
50
未食用
b
30
50
合计
60
40
100
x
6
7
8
9
10
y
3.5
4
5
6
6.5
画散点图
若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
利用样本相关系数
r>0时,正相关;r<0时,负相关;|r|越接近于1,线性相关性越强.
利用经验回
归方程
b^>0时,正相关;b^<0时,负相关.
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截
面积xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
x
1
2
3
4
5
y
e
e3
e4
e6
e7
x
1
2
3
4
5
y
e
e3
e4
e6
e7
z
1
3
4
6
7
日期
第一天
第二天
第三天
第四天
第五天
第六天
昼夜温差x/℃
4
7
8
9
14
12
新增就诊人数y/位
y1
y2
y3
y4
y5
y6
准点班次数
未准点班次数
A
240
20
B
210
30
α
0.1
0.050
0.010
0.001
xα
2.706
3.841
6.635
10.828
年龄/岁
是否佩戴头盔
合计
是
否
[20,40)
[40,70]
合计
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
年龄/岁
是否佩戴头盔
合计
是
否
[20,40)
540
60
600
[40,70]
340
60
400
合计
880
120
1 000
2024年高考数学重难点突破讲义:学案 第1讲 数据分析——成对数据的统计分析: 这是一份2024年高考数学重难点突破讲义:学案 第1讲 数据分析——成对数据的统计分析,共12页。
备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第1讲随机抽样统计图表: 这是一份备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第1讲随机抽样统计图表,共8页。
备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第2讲用样本估计总体: 这是一份备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第2讲用样本估计总体,共10页。