所属成套资源:备战2025年高考数学精品教案全套
- 备战2025年高考数学精品教案第九章统计与成对数据的统计分析第1讲随机抽样、统计图表(Word版附解析) 教案 0 次下载
- 备战2025年高考数学精品教案第九章统计与成对数据的统计分析第2讲用样本估计总体(Word版附解析) 教案 0 次下载
- 备战2025年高考数学精品教案第十章计数原理、概率、随机变量及其分布第1讲两个计数原理(Word版附解析) 教案 0 次下载
- 备战2025年高考数学精品教案第十章计数原理、概率、随机变量及其分布第2讲排列与组合(Word版附解析) 教案 0 次下载
- 备战2025年高考数学精品教案第十章计数原理、概率、随机变量及其分布第3讲二项式定理(Word版附解析) 教案 0 次下载
备战2025年高考数学精品教案第九章统计与成对数据的统计分析第3讲成对数据的统计分析(Word版附解析)
展开
这是一份备战2025年高考数学精品教案第九章统计与成对数据的统计分析第3讲成对数据的统计分析(Word版附解析),共23页。
学生用书P217
1.变量的相关关系
(1)正相关和负相关:从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现① 增加 的趋势,我们就称这两个变量② 正相关 ;当一个变量的值增加时,另一个变量的相应值呈现③ 减小 的趋势,则称这两个变量④ 负相关 .
(2)线性相关:一般地,如果两个变量的取值呈现⑤ 正 相关或⑥ 负 相关,而且散点落在⑦ 一条直线 附近,我们就称这两个变量线性相关.
(3)非线性相关或曲线相关:一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(1)样本相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2.
(2)样本相关系数r的性质
①当r>0时,称成对样本数据⑧ 正相关 ;当r<0时,称成对样本数据⑨ 负相关 ;当r=0时,只表明成对样本数据间没有线性相关关系,但不排除它们之间有其他相关关系.
②|r|≤1.当|r|越接近于1,成对样本数据的线性相关性越⑩ 强 ;|r|越接近于0,成对样本数据线性相关性越⑪ 弱 .
3.一元线性回归模型
(1)一元线性回归模型
我们称Y=bx+a+e,E(e)=0,D(e)=σ2为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
(2)经验回归方程与最小二乘估计
经验回归方程:y=b^x+a.
最小二乘估计:b^=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2=⑫ ∑ni=1xiyi-nx y∑ni=1xi2-nx2 ,a=y-b^x.
说明 经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.经验回归直线过点(x,y).
(3)残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去⑬ 预测值 称为残差.
(4)决定系数
决定系数R2用来比较两个模型的拟合效果,R2=1-∑i=1n(yi-yi)2∑i=1n(yi-y)2.其中∑i=1n(yi-yi)2是残差平方和,R2越大(越接近1),表示残差平方和越小,即模型的拟合效果越好;R2越小,表示残差平方和越大,即模型的拟合效果越差.
4.列联表与独立性检验
(1)2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值为{0,1},其样本频数列联表(称为2×2列联表)为:
(2)独立性检验
χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)临界值
对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立,我们称xα为α的临界值,这个临界值可作为判断χ2大小的标准.概率值α越小,临界值xα⑭ 越大 .
下表给出了?2独立性检验中5个常用的小概率值和相应的临界值.
(4)基于小概率值α的检验规则
当χ2≥xα时,我们就推断H0⑮ 不成立 ,即认为X和Y⑯ 不独立 ,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y⑰ 独立 .
说明 若?2越大,则两个分类变量有关的把握越大.
1.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( D )
2.下列说法正确的是( D )
A.在经验回归方程y=-0.85x+2.3中,当解释变量x每增加1个单位时,响应变量平均减少2.3个单位
B.若两个变量的相关性越强,则r越接近于1
C.在回归分析中,决定系数R2=0.80的模型比决定系数R2=0.98的模型拟合的效果要好
D.残差平方和越小的模型,拟合的效果越好
解析 对于A,根据经验回归方程,当解释变量x每增加1个单位时,响应变量y平均减少0.85个单位,故A错误;对于B,若两个变量的相关性越强,则|r|越接近于1,故B错误;对于C,用决定系数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好,所以C错误;对于D,由残差的统计学意义知,D正确.
3.为考查某种营养品对儿童身高增长的影响,选取部分儿童进行试验,根据100个有放回简单随机样本的数据,得到如下列联表,由表可知下列说法正确的是( D )
A.a=b=30
B. χ2≈12.667
C.从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是35
D.根据小概率值α=0.001的独立性检验,可以认为该营养品对儿童身高增长有影响
解析 由题可知a=50-10=40,b=50-30=20,所以A错误;χ2=100×(40×30-10×20)250×50×60×40≈16.667 >10.828=x0.001,所以根据小概率值α=0.001的独立性检验,可以认为该营养品对儿童身高增长有影响,所以B错误,D正确;从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是40100=25,所以C错误.
4.[2023福州5月质检]已知变量x和y的统计数据如下表:
若由表中数据得到经验回归方程为y=0.8x+a,则x=10时的残差为 -0.1 .(注:观测值减去预测值称为残差)
解析 易知x=8,y=5,∴a=5-0.8×8=-1.4,∴x=10时,y=8-1.4=6.6,∴x=10时的残差为6.5-6.6=-0.1.
学生用书P219
命题点1 成对数据的相关性
角度1 判断两个变量的相关性
例1 (1)已知变量x和y近似满足关系式y=-0.1x+1,变量y与z正相关.下列结论中正确的是( C )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
解析 由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,随y的减小而减小,所以z随x的增大而减小,x与z负相关.
(2)[2023湖北仙桃中学模拟]对四组数据进行统计后,获得了如图所示的散点图,四组数据的相关系数分别为r1,r2,r3,r4,对各组的相关系数进行比较,正确的是( C )
第一组第二组
第三组第四组
A.r3<r2<0<r1<r4B.r4<r1<0<r2<r3
C.r2<r3<0<r4<r1D.r1<r4<0<r3<r2
解析 由题图可知,第一、四组数据均正相关,第二、三组数据均负相关,当相关系数的绝对值越大时,数据的线性相关性越强.第一组数据的线性相关性较第四组强,则r1>r4>0,第二组数据的线性相关性较第三组强,则|r2|>|r3|,且r2<0,r3<0,则r2<r3<0.
因此,r2<r3<0<r4<r1.故选C.
方法技巧
判断两个变量相关性的3种方法
角度2 相关系数的计算
例2 [2022全国卷乙]某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
并计算得∑10i=1xi2=0.038,∑10i=1yi2=1.615 8,∑10i=1xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量.
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01).
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=∑ni=1(xi-x)(yi-y)∑ni=1(xi-x)2∑ni=1(yi-y)2,1.896≈1.377.
解析 (1)估计该林区这种树木平均一棵的根部横截面积x=∑i=110xi10=0.610=0.06,估计该林区这种树木平均一棵的材积量y=∑i=110yi10=3.910=0.39.
(2)∑i=110(xi-x)(yi-y)=∑i=110xiyi-10xy=0.013 4,
∑i=110(xi-x)2=∑i=110xi2-10x2=0.002,
∑i=110(yi-y)2=∑i=110yi2-10y2=0.094 8,
所以∑i=110(xi-x)2∑i=110(yi-y)2=0.002×0.094 8=0.000 1×1.896≈0.01×1.377=0.013 77,所以样本相关系数r=∑i=110(xi-x)(yi-y)∑i=110(xi-x)2∑i=110(yi-y)2≈0.013 40.013 77≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以=Y186,所以Y=186×=1 209,
即该林区这种树木的总材积量的估计值为1 209 m3.
训练1 变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( C )
A.r2<r1<0B.0<r2<r1
C.r2<0<r1D.r2=r1
解析 由题中的数据可知,变量Y与X正相关,相关系数r1>0,变量V与U负相关,相关系数r2<0,即r2<0<r1.故选C.
命题点2 回归模型及其应用
角度1 一元线性回归模型
例3 [2023广西联考]某省为调查北部城镇2022年GDP,抽取了20个城镇进行分析,得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个城镇的人口(单位:万人)和该城镇2022年GDP(单位:亿元),计算得∑i=120xi=100,∑i=120yi=800,∑i=120(xi-x)2=70,∑i=120(yi-y)2=280,∑i=120(xi-x)(yi-y)=120.
(1)请用相关系数r判断该组数据中y与x之间线性相关关系的强弱(若|r|∈[0.75,1],相关性较强;若|r|∈[0.30,0.75),相关性一般;若r∈[-0.25,0.25],相关性较弱).
(2)求y关于x的线性回归方程.
(3)若该省北部某城镇2024年的人口约为5万人,根据(2)中的线性回归方程估计该城镇2024年的GDP.
参考公式:相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,对于一组具有线性相关关系的数据(xi,yi)(i=1,2,…,n),其回归直线y=b^x+a的斜率和截距的最小二乘估计分别为b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,a=y-b^x.
解析 (1)由题意知,相关系数r=∑i=120(xi-x)(yi-y)∑i=120(xi-x)2∑i=120(yi-y)2=12070×280=120140≈0.857,
因为y与x的相关系数r满足|r|∈[0.75,1],所以y与x之间具有较强的线性相关关系.
(2)b^=∑i=120(xi-x)(yi-y)∑i=120(xi-x)2=12070=127,
a=y-b^x=80020-127×10020=2207,所以y=127x+2207.
(3)由(2)可估计该城镇2024年的GDP y=127×5+2207=40(亿元).
方法技巧
回归模型问题的类型及解题方法
(1)求经验回归方程:
①利用数据,求出x,y;
②利用公式,求出回归系数b^;
③利用经验回归直线过样本点的中心(x,y),求a .
(2)利用经验回归方程进行预测:直接将已知的自变量的某个数值代入经验回归方程求得特定要求下的预测值.
(3)判断回归模型的拟合效果:利用残差平方和或决定系数R2判断,R2越大,表示残差平方和越小,即模型的拟合效果越好.
角度2 非线性回归模型
例4 [2023重庆市三检]已知变量y关于x的经验回归方程为y=ebx-0.6,若对y=ebx-0.6两边取自然对数,可以发现ln y与x线性相关,现有一组数据如表所示:
则当x=6时,预测y的值为( C )
A.9B.8C.e9D.e8
解析 对y=ebx-0.6两边取自然对数,得ln y=bx-0.6,令z=ln y,则 z=bx-0.6,数据为
由表格数据,得x=1+2+3+4+55=3,z=1+3+4+6+75=4.2.将(3,4.2)代入z=bx-0.6,得4.2=3b-0.6,(方法技巧:经验回归方程只含一个未知数问题主要是依据经验回归直线y^=b^x+a^必过样本点的中心(x,y)求解)
解得b=1.6,所以z=1.6x-0.6,即y=e1.6x-0.6.当x=6时,y=e1.6×6-0.6=e9,故选C.
方法技巧
1.解决非线性回归模型问题的思路:根据数据的散点图,选择恰当的拟合函数,用适当的变量进行转换,如通过换元或取对数等方法,把问题化为线性回归模型问题,使之得到解决.
2.常见的非线性回归模型及转换技巧
(1)y=a+bx,令v=1x,则y=a+bv;
(2)y=a+bln xb≠0,令v=ln x,则y=a+bv;
(3)y=axb(a>0,b≠0),令c=ln a,v=ln x,u=ln y,则u=c+bv;
(4)y=aebx(a>0,b≠0),令c=ln a,u=ln y,则u=c+bx.
训练2 [2023合肥市质检]研究表明,温度的突然变化会引起机体产生呼吸道上皮组织的生理不良反应,从而导致呼吸系统疾病的发生或恶化.某中学数学建模社团成员欲研究昼夜温差大小与该校高三学生患感冒人数多少之间的关系,他们记录了某周连续六天的昼夜温差,并到校医务室查阅了这六天中每天高三学生新增患感冒而就诊的人数(假设患感冒必到校医务室就诊),得到资料如下:
参考数据:∑i=16yi2=3 160,∑i=16(yi-y)2=256.
(1)已知第一天新增患感冒而就诊的学生中有7位女生,从第一天新增患感冒而就诊的学生中随机抽取3位,若抽取的3人中至少有一位男生的概率为1724,求y1的值;
(2)已知两个变量x与y之间的样本相关系数r=1516,试用最小二乘法求出y关于x的经验回归方程y=b^x+a,据此估计昼夜温差为15 ℃时,该校高三新增患感冒而就诊的学生数(结果保留整数).
参考公式:b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2,
r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2·∑i=1n(yi-y)2.
解析 (1)∵1-C73Cy13=1724,
∴7×6×5y1(y1-1)(y1-2)=724,
∴y1(y1-1)(y1-2)=720=10×9×8,∴y1=10.
(2)∵∑i=16xi=54,∴x=9,∴∑i=16(xi-x)2=64.
∵r=∑i=16(xi-x)(yi-y)∑i=16(xi-x)2·∑i=16(yi-y)2=∑i=16(xi-x)(yi-y)8×16=1516,∴∑i=16(xi-x)(yi-y)=8×15,
∴b^=∑i=16(xi-x)(yi-y)?i=16(xi-x)2=8×1564=158.
又∑i=16(yi-y)2=∑i=16yi2-2y·∑i=16yi+6y2=∑i=16yi2-6y2=256,解得y=22,∴a^=y-b^x=22-158×9=418,
∴y^=418+158x,当x=15时,y^=418+158×15≈33,
故可以估计昼夜温差为15 ℃时,该校高三新增患感冒而就诊的学生数为33.
命题点3 列联表与独立性检验
例5 [2022全国卷甲改编]甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)依据小概率值α=0.1的独立性检验,分析甲、乙两城之间的长途客车是否准点与客车所属公司有关.
附: χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
解析 (1)由题表可得A公司甲、乙两城之间的长途客车准点的概率为240240+20=1213,
B公司甲、乙两城之间的长途客车准点的概率为210210+30=78.
(2)零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无关.根据2×2列联表,
可得χ2=500×(240×30-20×210)2(240+20)×(210+30)×(240+210)×(20+30)≈3.205>2.706=x0.1,
根据小概率值α=0.1的独立性检验,我们推断H0不成立,
即认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
方法技巧
独立性检验的一般步骤
(1)提出零假设H0;
(2)根据样本数据制成2×2列联表;
(3)根据公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算χ2;
(4)比较χ2与临界值xα的大小关系,根据检验规则得出推断结论.
训练3 某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,记录其年龄(单位:岁)和是否佩戴头盔情况,得到如图所示的统计图:
(1)估算该市电动自行车骑乘人员的平均年龄.
(2)根据所给的数据,完成下面的列联表:
单位:名
(3)根据(2)中的列联表,依据α=0.010的独立性检验,能否认为遵守佩戴安全头盔规则与年龄有关?
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
解析 (1)该市电动自行车骑乘人员的平均年龄为25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39(岁).
(2)依题意,完成列联表如下:
单位:名
(3)零假设为H0:遵守佩戴安全头盔规则与年龄无关.
由表得χ2=1 000×(540×60-340×60)2600×400×880×120=12522≈5.682<6.635=x0.010,
根据小概率值α=0.010的独立性检验,没有充分证据推断H0不成立,
因此可以认为H0成立,即认为遵守佩戴安全头盔规则与年龄无关.
1.[命题点1角度1/2023天津高考]调查某种群花萼长度和花瓣长度,所得数据如图所示.其中相关系数r=0.824 5,下列说法正确的是( C )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈负相关
C.花瓣长度和花萼长度呈正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是0.824 5
解析 因为相关系数r=0.824 5>0.75,所以花瓣长度和花萼长度的相关性较强,并且呈正相关,所以选项A,B错误,选项C正确;因为相关系数与样本的数据有关,所以当样本发生变化时,相关系数也会发生变化,所以选项D错误.故选C.
2.[命题点1,2/2024济南市摸底考试]随着科技的发展,网购成了人们购物的重要选择,并对实体经济产生了一定影响.为了解实体经济的现状,某研究机构统计了一个大商场2018—2022年的线下销售额,如下表:
(1)由表中数据可以看出,可用经验回归模型拟合销售额y与年份编号x的关系,请用相关系数加以说明;
(2)建立y关于x的经验回归方程,并预测2024年该商场的线下销售额.
参考公式及数据:
相关系数r=∑i=1nxiyi-nx y(∑i=1nxi2-nx2)(∑i=1nyi2-ny2).
对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线y^=a^+b^x的斜率和截距的最小二乘估计公式分别为b^=∑i=1nxiyi-nx y∑i=1nxi2-nx2,a^=y-b^x.∑i=15yi=6 100,∑i=15xiyi=16 589,(∑i=15xi2-5x2)(∑i=15yi2-5y2)≈1 736.
解析 (1)由已知数据可得,x=1+2+3+4+55=3,y=∑i=15yi5=6 1005=1 220,
所以∑i=15xiyi-5x y=16 589-5×3×1 220=-1 711,
所以相关系数r=∑i=15xiyi-5x y(∑i=15xi2-5x2)(∑i=15yi2-5y2)≈-1 7111 736≈-0.985 6.
因为|r|非常接近1,
所以可用经验回归模型拟合销售额y与年份编号x的关系.
(2)由已知数据可得,∑i=15xi2=12+22+32+42+52=55,所以b^=∑i=15xiyi-5x y∑i=15xi2-5x2=-1 71155-5×32=-171.1,
a^=y-b^x=1 220-(-171.1)×3=1 733.3,
所以y关于x的经验回归方程为y^=-171.1x+1 733.3.
令x=7,则y^=-171.1×7+1 733.3=535.6(万元),
所以预测2024年该商场的线下销售额为535.6万元.
3.[命题点3/2021全国卷甲改编]甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
单位:件
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)依据小概率值α=0.01的独立性检验,分析甲机床的产品质量与乙机床的产品质量是否有差异.
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
解析 (1)由题意,可得甲机床、乙机床生产的产品总数均为200件,
因为甲机床生产的产品中一级品的频数为150,所以甲机床生产的产品中一级品的频率为150200=0.75,
因为乙机床生产的产品中一级品的频数为120,所以乙机床生产的产品中一级品的频率为120200=0.6.
(2)零假设为H0:甲机床的产品质量与乙机床的产品质量无差异.
则根据列联表中的数据计算得χ2=400×(150×80-50×120)2200×200×270×130≈10.256>6.635=x0.01.
所以依据小概率值α=0.01的独立性检验,推断H0不成立,
即认为甲机床的产品质量与乙机床的产品质量有差异,此推断犯错误的概率不大于0.01.
学生用书·练习帮P378
1.在用经验回归方程研究四组数据的拟合效果时,分别作出下列四个关于四组数据的残差图,则用线性回归模型拟合效果最佳的是( A )
AB
CD
解析 用残差图判断模型的拟合效果时,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合效果越好.故选A.
2.[全国卷Ⅰ]某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到如图所示的散点图.
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( D )
A.y=a+bxB.y=a+bx2
C.y=a+bexD.y=a+bln x
解析 由散点图可以看出,随着温度x的增加,发芽率y增加到一定程度后,变化率越来越慢,符合对数型函数的图象特征.
3.[2024江苏徐州模拟]如图,在一组样本数据A(2,2),B(4,3),C(6,4),D(8,7),E(10,6)的散点图中,若去掉D(8,7),则下列说法正确的为( D )
A.样本相关系数r变小
B.残差平方和变大
C.决定系数R2变小
D.自变量x与因变量y的相关程度变强
解析 由散点图分析可知,只有D点偏离直线较远,去掉D点后,x与y的线性相关程度变强,且为正相关,所以样本相关系数r变大,决定系数R2变大,残差平方和变小,故选D.
4.[2024青岛市检测]已知某设备的使用年限x(年)与年维护费用y(千元)的对应数据如下表:
由所给数据分析可知:x与y之间具有线性相关关系,且y关于x的经验回归方程为y=1.05x+a,则a=( B )
解析 由题意可知x=2+4+5+6+85=5,y=3+4.5+6.5+7.5+95=6.1,则6.1=1.05×5+a,所以a=6.1-1.05×5=0.85,故选B.
5.[多选/2024九江模拟]根据最小二乘法,由一组样本点(xi,yi)(其中i=1,2,…,300)求得的经验回归方程是y=b^x+a,则下列说法正确的是( BD )
A.至少有一个样本点落在经验回归直线y=b^x+a上
B.若所有样本点都在经验回归直线y=b^x+a上,则变量间的相关系数为±1
C.对所有的解释变量xi(i=1,2,…,300),b^xi+a的值一定与yi有误差
D.若经验回归直线y=b^x+a的斜率b^>0,则变量x与y正相关
解析 经验回归直线必过样本点的中心,但样本点可能都不在经验回归直线上,故A错误;若所有样本点都在经验回归直线y=b^x+a上,则变量间的相关系数为±1,故B正确;若所有的样本点都在经验回归直线y=b^x+a上,则b^xi+a的值与yi相等,故C错误;相关系数r与b^符号相同,若经验回归直线y=b^x+a的斜率b^>0,则r>0,样本点散布在从左下角到右上角的区域,则变量x与y正相关,故D正确.故选BD.
6.[多选/2024贵州统考]某学校高三年级甲、乙两班共105人进行了一次数学测试.按照成绩大于或等于120分(满分150分)的同学评价为“优秀生”,其他分数的同学评价为“潜力生”进行整体水平评价,得到下面表(1)所示的列联表.已知在这105人中随机抽取1人,“优秀生”的概率为27,根据表(2)的数据,可断定下列说法正确的是( BC )
表(1)单位:人
表(2)
A.列联表中c的值为30,b的值为35
B.列联表中c的值为20,b的值为45
C.根据列联表中的数据,有95%的把握认为成绩与班级有关
D.根据列联表中的数据,没有95%的把握认为成绩与班级有关
解析 因为在这105人中随机抽取1人,“优秀生”的概率为27,所以“优秀生”的人数为105×27=30,“潜力生”的人数为105-30=75,所以c=30-10=20,b=75-30=45,故A错B对;
因为χ2=105×(10×30-20×45)230×75×50×55≈6.109>3.841,所以有95%的把握认为成绩与班级有关,故C对D错.故选BC.
7.[多选/2024云南师大附中月考]已知变量x,y之间的经验回归方程为y=10.3-0.7x,且变量x,y的数据如表所示,则下列说法正确的是( BC )
A.变量x与y正相关
B.实数m的值为5
C.该经验回归直线必过点(9,4)
D.相应于(10,3)的残差为0.3
解析 由表格数据得,x=6+8+10+124=9,y=6+m+3+24=11+m4,将点(9,11+m4)代入经验回归方程y=10.3-0.7x得,11+m4=10.3-0.7×9,解得m=5,所以选项B正确;
11+m4=4,即样本点的中心为(9,4),所以选项C正确;
当变量x增加时,变量y相应值减少,两个变量负相关,所以选项A错误;
由残差的定义知,观测值减去预测值为残差,由经验回归方程y=10.3-0.7x,令x=10,得预测值y=3.3,则相应于(10,3)的残差为3-3.3=-0.3,所以选项D错误.故选BC.
8.[2024海南月考]某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
单位:人
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844,因为?2>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性最大为 5 %.
附:
解析 因为?2>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,认为主修统计专业与性别有关,出错的可能性最大为5%.
9.某手机运营商为了拓展业务,现对该手机使用潜在客户进行调查,随机抽取国内、国外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所示的等高堆积条形图.根据等高图,依据小概率值α=0.005的独立性检验, 能 (填“能”或“不能”)认为持乐观态度和国内外差异有关.
附: χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
解析 零假设为H0:持乐观态度和国内外差异无关.由题填写2×2列联表如下,
单位:名
根据列联表得?2=200×(60×60-40×40)2100×100×100×100=8>7.879=x0.005,
所以依据小概率值α=0.005的独立性检验,我们推断H0不成立,即能认为持乐观态度和国内外差异有关.
10.[2024武汉部分学校调考]某校为考查学生对紧急避险知识的掌握情况,从全校学生中选取200名学生进行紧急避险知识测试,其中男生110名,女生90名.所有学生的测试成绩(单位:分)都在区间[50,100]内,由测试成绩数据作出如图所示的频率分布直方图.
(1)若从频率分布直方图中估计出样本的平均数与中位数相等,求图中m的值;
(2)规定测试成绩不低于80分为优秀,已知共有45名男生测试成绩优秀,完成下面的列联表,并根据小概率值α=0.05的独立性检验,能否推断男生和女生的测试成绩优秀率有差异?
单位:人
参考公式与数据:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
解析 (1)由题意,第一组的频率/组距为110-m-0.04-0.025-0.01=0.025-m.
样本平均数的估计值为10×[(0.025-m)×55+m×65+0.04×75+0.025×85+0.01×95]=74.5+100m.
样本中位数的估计值为70+10×0.05-(110-0.01-0.025-0.04)0.04=76.25.
所以74.5+100m=76.25,解得m=0.017 5.
(2)零假设H0:男生和女生的测试成绩优秀率没有差异.
测试成绩优秀的总人数为200×10×(0.025+0.01)=70.
得到列联表:
单位:人
χ2=200×(45×65-25×65)2110×90×70×130=2 600693≈3.75<3.841=x0.05.
所以根据小概率值α=0.05的独立性检验,不能推断男生和女生的测试成绩优秀率有差异.
11.[全国卷Ⅱ]某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑i=120xi=60,∑i=120yi=1 200,∑i=120(xi-x)2=80,∑i=120(yi-y)2=9 000,∑i=120(xi-x)·(yi-y)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数).
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01).
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,2≈1.414.
解析 (1)由已知得样本平均数y=120∑i=120yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r=∑i=120(xi-x)(yi-y)∑i=120(xi-x)2∑i=120(yi-y)2=80080×9 000=223≈0.94.
(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.
理由如下:由(2)知,各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
12.[2024内江模拟]某网络直播平台调研“大学生是否喜欢观看体育比赛直播与性别有关”,从某高校男、女生中各随机抽取100人进行问卷调查,得到如下数据(5≤m≤15,m∈N).
通过计算,有95%以上的把握认为大学生喜欢观看体育比赛直播与性别有关,则在被调查的100名女生中喜欢观看体育比赛直播的人数的最大值为( C )
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
A.55B.57C.58D.60
解析 因为χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=200[(80-m)(50-m)-(20+m)(50+m)]2100×100×130×70=8(15-m)291≥3.841,所以(15-m)2≥43.69,又5≤m≤15,m∈N,所以15-m≥7,解得m≤8,故在被调查的100名女生中喜欢观看体育比赛直播的人数的最大值为58.故选C.
13.[多选/2023长沙市适应性考试]自然环境中,大气压强受到各种因素的影响,如温度、湿度、风速和海拔等方面的改变,都将导致大气压强发生相应的变化,其中以海拔的影响最为显著.如图是根据一组观测数据得到的海拔6 km~15 km的大气压强(单位:kPa)散点图,根据一元线性回归模型得到经验回归方程为y1=-4.0x+68.5,决定系数为R12=0.99;根据非线性回归模型得到非线性经验回归方程为y2=132.9e-0.163x,决定系数为R22=0.99,则下列说法正确的是( ACD )
A.由散点图可知,大气压强与海拔负相关
B.由方程y1=-4.0x+68.5可知,海拔每升高1 km,大气压强必定降低4.0 kPa
C.由方程y1=-4.0x+68.5可知,样本点(11,22.6)的残差为-1.9
D.对比两个回归模型,结合实际情况,方程y2=132.9e-0.163x的预报效果更好
解析 观察题中散点图,可知大气压强与海拔负相关,即A正确;通过经验回归方程y1=-4.0x+68.5,可知海拔每升高1 km,大气压强大约降低4.0 kPa,即B错误;当x=11时,代入方程y1=-4.0x+68.5计算可得预测值y1=24.5,则残差为22.6-24.5=-1.9,即C正确;随着海拔的增加,大气压强越来越小,但不可能为负数,因此,方程y2=132.9e-0.163x的预报效果更好,即D正确.故选ACD.
14.[2024庆阳检测]已知某池塘中水生植物的覆盖水塘面积x(单位:dm2)与水生植物的株数y(单位:株)的关系可以用模型y=cekx(c>0)去拟合,设z=ln y,x与z的数据如表格所示:
由上表可得x与z的经验回归方程z=1.2x+a,则c= e-2 .
解析 由已知可得,x=3+4+6+74=5,z=2+2.5+4.5+74=4,所以4=1.2×5+a,解得a=2,所以z=1.2x-2,由z=ln y,得ln y=1.2x-2,所以y=e1.2x-2=e-2·e1.2x,则c=e-2.
15.[2024云南模拟]某新能源汽车公司从2018年到2022年汽车年销售量y(单位:万辆)的散点图如下:
记年份代码为x(x=1,2,3,4,5).
(1)根据散点图判断,模型①y=a+bx与模型②y=c+dx2,哪一个更适宜作为年销售量y关于年份代码x的经验回归方程?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果,建立y关于x的经验回归方程.
(3)预测2024年该公司新能源汽车销售量.
参考数据:
参考公式:经验回归直线y^=a^+b^x的斜率和截距的最小二乘估计公式分别为b^=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nx·y∑i=1nxi2-nx2,a^=y-b^x.
解析 (1)由散点图知,模型②更适宜作为年销售量y关于年份代码x的经验回归方程.(若线性相关,则可以看出各散点大概排列在一条直线附近)
(2)设t=x2,
由已知得t=∑i=15xi25=11,y=34,
∑i=15tiyi=∑i=15xi2yi=2 805,∑i=15ti2=∑i=15xi4=979,
所以d^=∑i=15tiyi-5t·y∑i=15ti2-5t2=2 805-5×11×34979-5×112=2 805-1 870979-605=935374=2.5,
c^=34-2.5×11=6.5,
所以y关于t的经验回归方程为y^=6.5+2.5t,
即y关于x的经验回归方程为y^=6.5+2.5x2.
(3)2024年对应的年份代码为x=7,(一定要弄清年份代码)
得y^=6.5+2.5×72=129,
所以预测2024年该公司新能源汽车销售量为129万辆.
16.[2024浙江名校联考]某科研所研究表明,绝大部分抗抑郁、抗焦虑的药物都有一个奇特的功效,就是刺激人体大脑多巴胺(Dpamine)的分泌,所以又叫“快乐药”.其实科学、合理、适量的有氧运动就会增加人体大脑多巴胺的分泌,从而缓解抑郁、焦虑的情绪.定义运动后一天内多巴胺含量超过400μg是明显有效运动,否则是不明显有效运动.树人中学为了了解学生明显有效运动是否与性别有关,对运动后的60名学生进行检测,其中女生与男生的人数之比为1∶2,女生中明显有效运动的人数占12,男生中明显有效运动的人数占34.
(1)根据所给的数据完成下表,并依据小概率值α=0.100的独立性检验,判断明显有效运动是否与性别有关,并说明理由.
单位:人
(2)若从树人中学所有学生中抽取11人,用样本的频率估计概率,则11人中不明显有效运动的人数最有可能是多少?
附: χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
参考数据:
解析 (1)对60名学生明显有效运动是否与性别有关进行检测,其中女生与男生的人数之比为1∶2,女生中明显有效运动的人数占12,男生中明显有效运动的人数占34,所以得到下面的列联表:
单位:人
零假设为H0:明显有效运动与性别没有关系.
因为χ2=60×(10×10-30×10)240×20×20×40=3.750>2.706=x0.100,
所以根据小概率值α=0.100的独立性检验,有充分的证据推断H0不成立,因此认为明显有效运动与性别有关.
(2)由样本数据可知,不明显有效运动的频率为13,用样本的频率估计概率,所以不明显有效运动的概率为13.
设11人中不明显有效运动的人数为X,则X~B(11,13),
所以P(X=k)=C11k(13)k(1-13)11-k(k=0,1,2,…,11).
假设11人中不明显有效运动的人数最有可能是k,
则C11k(13)k(1-13)11-k≥C11k+1(13)k+1(1-13)10-k,C11k(13)k(1-13)11-k≥C11k-1(13)k-1(1-13)12-k,
解得k=3或4,所以11人中不明显有效运动的人数最有可能是3或4.课标要求
命题点
五年考情
命题分析预测
1.了解样本相关系数的统计含义,了解样本相关关系与标准化数据向量夹角的关系;会通过相关系数比较多组成对数据的相关性.
2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法;针对实际问题,会用一元线性回归模型进行预测.
3.理解2×2列联表的统计意义;了解2×2列联表独立性检验及其应用.
成对数据的相关性
2023天津T7,2022全国卷乙T19;2020全国卷ⅡT18
本讲是高考命题热点.对于回归分析,主要考查散点图,回归方程类型的识别,求相关系数和回归方程,利用回归方程进行预测等;对于独立性检验,主要考查列联表和依据小概率值的独立性检验,常与概率综合命题.题型以解答题为主,难度中等.预计2025年高考会以创新生产生活实践情境为载体考查回归分析和独立性检验.
回归模型及其应用
2020全国卷ⅠT5
列联表与独立性检验
2023全国卷甲T19;2022新高考卷ⅠT20;2022全国卷甲T17;2021全国卷甲T17;2020新高考卷ⅠT19;2020全国卷ⅢT18
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
营养品
身高
合计
有明显增长
无明显增长
食用
a
10
50
未食用
b
30
50
合计
60
40
100
x
6
7
8
9
10
y
3.5
4
5
6
6.5
画散点图
若点的分布从左下角到右上角,则两个变量正相关;若点的分布从左上角到右下角,则两个变量负相关.
利用样本相关系数
r>0时,正相关;r<0时,负相关;|r|越接近于1,线性相关性越强.
利用经验回
归方程
b^>0时,正相关;b^<0时,负相关.
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截
面积xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
x
1
2
3
4
5
y
e
e3
e4
e6
e7
x
1
2
3
4
5
y
e
e3
e4
e6
e7
z
1
3
4
6
7
日期
第一天
第二天
第三天
第四天
第五天
第六天
昼夜温差x/℃
4
7
8
9
14
12
新增就诊人数y/位
y1
y2
y3
y4
y5
y6
准点班次数
未准点班次数
A
240
20
B
210
30
α
0.1
0.050
0.010
0.001
xα
2.706
3.841
6.635
10.828
年龄/岁
是否佩戴头盔
合计
是
否
[20,40)
[40,70]
合计
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
年龄/岁
是否佩戴头盔
合计
是
否
[20,40)
540
60
600
[40,70]
340
60
400
合计
880
120
1 000
年份编号x
1
2
3
4
5
年份
2018
2019
2020
2021
2022
销售额y/万元
1 513
1 465
1 202
1 060
860
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
x
2
4
5
6
8
y
3
4.5
6.5
7.5
9
班级
成绩
合计
优秀生
潜力生
甲班
10
b
乙班
c
30
合计
105
α
0.05
0.01
0.001
xα
3.841
6.635
10.828
x
6
8
10
12
y
6
m
3
2
性别
专业
合计
非统计专业
统计专业
男
13
10
23
女
7
20
27
合计
20
30
50
α
0.10
0.05
0.010
0.001
xα
2.706
3.841
6.635
10.828
α
0.01
0.005
0.001
xα
6.635
7.879
10.828
潜在客户
态度
合计
乐观
不乐观
国内代表
60
40
100
国外代表
40
60
100
合计
100
100
200
性别
测试成绩
合计
优秀
不优秀
男生
45
女生
合计
α
0.1
0.05
0.01
xα
2.706
3.841
6.635
性别
测试成绩
合计
优秀
不优秀
男生
45
65
110
女生
25
65
90
合计
70
130
200
喜欢观看
不喜欢观看
男生
80-m
20+m
女生
50+m
50-m
α
0.15
0.10
0.05
0.010
0.001
xα
2.072
2.706
3.841
6.635
10.828
x
3
4
6
7
z
2
2.5
4.5
7
y
∑i=15xi2
∑i=15xi4
∑i=15xiyi
∑i=15xi2yi
34
55
979
657
2 805
运动
性别
合计
女生
男生
明显有效运动
不明显有效运动
合计
α
0.150
0.100
0.050
0.025
0.010
0.005
0.001
xα
2.072
2.706
3.841
5.024
6.635
7.879
10.828
运动
性别
合计
女生
男生
明显有效运动
10
30
40
不明显有效运动
10
10
20
合计
20
40
60
相关教案
这是一份备战2025年高考数学精品教案第九章统计与成对数据的统计分析第1讲随机抽样、统计图表(Word版附解析),共16页。
这是一份备战2025年高考数学精品教案第九章统计与成对数据的统计分析第2讲用样本估计总体(Word版附解析),共19页。
这是一份高中数学人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.1 成对数据的相关关系教案设计,共18页。