2025版高考数学一轮总复习知识梳理训练题第9章统计成对数据的统计分析第2讲成对数据的统计分析
展开知识点一 变量的相关关系
1.相关关系
两个变量有关系,但又没有确切到可由其中的一个 去精确地决定 另一个的程度,这种关系称为相关关系.
2.散点图
每一个序号下的成对样本数据都可用直角坐标系中的 点 表示出来,由这些点组成的统计图称为散点图.
3.正相关、负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现 增加 的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现 减小 的趋势,则称这两个变量负相关.
4.变量的线性相关
如果两个变量的取值呈现 正相关或负相关 ,而且散点落在 一条直线 附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量 非线性相关或曲线相关 .
5.样本相关系数
称r=eq \f(\i\su(i=1,n, )xi-\(x,\s\up6(-))yi-\(y,\s\up6(-)),\r(\i\su(i=1,n, )xi-\(x,\s\up6(-))2)·\r(\i\su(i=1,n, )yi-\(y,\s\up6(-))2))为变量x和变量y的相关系数.
r∈[-1,1],当r>0时,成对样本数据 正相关 ;
当r<0时,成对样本数据 负相关 ;
当|r|接近1时,成对样本数据的线性相关程度 越强 ;
当|r|接近0时,成对样本数据的线性相关程度 越弱 .
知识点二 一元线性回归模型
1.一元线性回归模型
eq \b\lc\{\rc\ (\a\vs4\al\c1(Y= bx+a+e ,,Ee= 0 ,De= σ2 .))我们称上式为Y关于x的一元线性回归模型.其中,Y称为 因变量或响应变量 ,x称为 自变量或解释变量 ;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.经验回归方程
记eq \(x,\s\up6(-))=eq \f(1,n)eq \i\su(i=1,n,x)i,eq \(y,\s\up6(-))=eq \f(1,n)eq \i\su(i=1,n,y)i,因此当a,b的取值为
eq \b\lc\{\rc\ (\a\vs4\al\c1(\(b,\s\up6(^))=\f(\i\su(i=1,n, )xi-\(x,\s\up6(-))yi-\(y,\s\up6(-)),\i\su(i=1,n, )xi-\(x,\s\up6(-))2),\b\lc\(\rc\)(\a\vs4\al\c1(或\(b,\s\up6(^))=\f(\i\su(i=1,n,x)iyi-n\(x,\s\up6(-)) \(y,\s\up6(-)),\i\su(i=1,n,x)\\al(2,i)-n\(x,\s\up6(-))2))).,\(a,\s\up6(^))=\(y,\s\up6(-))-\(b,\s\up6(^)) \(x,\s\up6(-)),))
(eq \(x,\s\up6(-)),eq \(y,\s\up6(-)))称为样本点的中心.
我们将eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为 经验回归直线 ,这种求经验回归方程的方法叫做 最小二乘法 ,求得的eq \(b,\s\up6(^)),eq \(a,\s\up6(^))叫做b,a的 最小二乘估计 .
注:经验回归直线必过样本点中心.
3.残差分析
(1)对于响应变量Y,通过观测得到的数据称为 观测值 ,通过经验回归方程得到的eq \(y,\s\up6(^))称为 预测值 ,观测值减去预测值称为 残差 .残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为 残差分析 .
(2)残差的散点图
残差比较均匀地集中分布在以横轴为对称轴的水平带状区域内,则满足一元线性回归模型对随机误差的假设.
(3)决定系数R2=1-eq \f(\i\su(i=1,n, )yi-\(y,\s\up6(^))i2,\i\su(i=1,n, )yi-\(y,\s\up6(-))2).
在R2表达式中,eq \i\su(i=1,n, )(yi-eq \(y,\s\up6(-)))2与经验回归方程无关,残差平方和 eq \i\su(i=1,n,)(yi-eq \(y,\s\up6(^))i)2 与经验回归方程有关.因此R2越大,意味着残差平方和越 小 ,即模型的拟合效果越 好 ;R2越小,表示残差平方和越 大 ,即模型的拟合效果越 差 .在线性回归模型中,R2表示解释变量对响应变量的贡献率,R2越接近1,拟合效果越好.
知识点三 独立性检验
1.分类变量:用以区别不同的现象或性质的随机变量.
2.2×2列联表
设X,Y为两个分类变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
3.独立性检验
(1)零假设(或原假设)
以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.
H0: P(Y=1|X=0)=P(Y=1|X=1) 称为零假设.
(2)临界值
χ2= eq \f(nad-bc2,a+bc+da+cb+d) .
对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立:P(2≥xα)=α.称xα为α的 临界值 ,这个临界值就可作为判断χ2大小的标准.概率值α越小,临界值xα越大.
(3)独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y 不独立 ,该推断犯错误的概率不 超过α ;
当χ2
4.独立性检验解决实际问题的一般步骤
(1)提出零假设H0:X与Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2值,并与临界值xα比较.
(3)根据经验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
归 纳 拓 展
1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的经验回归方程才有实际意义,否则,求出的经验回归方程毫无意义.根据经验回归方程进行预报,仅是一个预报值,而不是真实发生的值.
2.相关系数r=eq \f(\i\su(i=1,n,x)iyi-n\(x,\s\up6(-))\(y,\s\up6(-)),\r(\i\su(i=1,n,x)\\al(2,i)-n\(x,\s\up6(-))2)·\r(\i\su(i=1,n,y)\\al(2,i)-n\(y,\s\up6(-))2)).
3.独立性检验是对两个变量的关系的可信程度的判断,而不是对其是否有关系的判断.根据2的值可以判断两个分类变量有关的可信程度,并用来指导科研和实际生活.
双 基 自 测
题组一 走出误区
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( √ )
(2)两个随机变量的线性相关性越强,相关系数的绝对值越接近于0.( × )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( √ )
(4)某同学研究卖出的热饮杯数y与气温x(℃)之间的关系,得回归方程eq \(y,\s\up6(^))=-2.352x+147.767,则气温为2 ℃时,一定可卖出143杯热饮.( × )
(5)事件x,y关系越密切,则由观测数据计算得到的χ2的观测值越大.( √ )
(6)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( × )
题组二 走进教材
2.(多选题)(选择性必修3P113T5)对变量y和x的一组样本数据(x1,y1),(x2,y2),…,(xn,yn)进行回归分析,建立回归模型,则( BD )
A.残差平方和越大,模型的拟合效果越好
B.若由样本数据得到经验回归直线eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),则其必过点(eq \(x,\s\up6(-)),eq \(y,\s\up6(-)))
C.用决定系数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若y和x的样本相关系数r=-0.95,则y和x之间具有很强的负线性相关关系
3.(选择性必修3P132例3)某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的患儿67名,其中未治愈15名、治愈52名;抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名.试根据小概率值α=0.005的独立性检验,分析甲、乙两种疗法的效果,结论为 两种疗法效果没有差异 .
附:
[解析] 由题意的两种疗法数据的列联表
根据列联表中的数据,经计算得到
χ2=eq \f(136×15×63-52×62,67×69×21×115)≈4.881<7.879=x0.005.
根据小概率值α=0.005的独立性检验,
认为两种疗法效果没有差异.
题组三 走向高考
4.(2023·高考天津卷)调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数r=0.824 5,下列说法正确的是( C )
A.花瓣长度和花萼长度没有相关性
B.花瓣长度和花萼长度呈现负相关
C.花瓣长度和花萼长度呈现正相关
D.若从样本中抽取一部分,则这部分的相关系数一定是0.824 5
[解析] 根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误;散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B选项错误,C选项正确;由于r=0.824 5是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的相关系数不一定是0.824 5,D选项错误.故选C.
5.(2022·全国高考甲卷(节选))甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:χ2=eq \f(nad-bc2,a+bc+da+cb+d),
[解析] 根据已知数据得到列联表如下:
χ2=eq \f(nad-bc2,a+bc+da+cb+d)
=eq \f(500×240×30-210×202,260×240×450×50)≈3.205>2.706.
所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
疗法
疗效
合计
未治愈
治愈
甲
15
52
67
乙
6
63
69
合计
21
115
136
准点班次数
未准点班次数
A
240
20
B
210
30
P(2≥xα)
0.100
0.050
0.010
xα
2.706
3.841
6.635
公司
准点班次数
未准点班次数
合计
A
240
20
260
B
210
30
240
合计
450
50
500
2025版高考数学一轮总复习素养提升训练题第9章统计成对数据的统计分析第2讲成对数据的统计分析: 这是一份2025版高考数学一轮总复习素养提升训练题第9章统计成对数据的统计分析第2讲成对数据的统计分析,共4页。试卷主要包含了8+10,1+10,635=x0,5和SO2浓度,得下表,484,841等内容,欢迎下载使用。
2025版高考数学一轮总复习考点突破训练题第9章统计成对数据的统计分析第2讲成对数据的统计分析考点3独立性检验: 这是一份2025版高考数学一轮总复习考点突破训练题第9章统计成对数据的统计分析第2讲成对数据的统计分析考点3独立性检验,共4页。试卷主要包含了05>7,5+100m=76,752<3,024,635,879等内容,欢迎下载使用。
2025版高考数学一轮总复习考点突破训练题第9章统计成对数据的统计分析第2讲成对数据的统计分析考点2回归分析: 这是一份2025版高考数学一轮总复习考点突破训练题第9章统计成对数据的统计分析第2讲成对数据的统计分析考点2回归分析,共6页。试卷主要包含了5+3,5亿元,数据统计如下表,1,eq \r≈2,3),则下列说法正确的是,09≈60,等内容,欢迎下载使用。