新高考数学一轮复习知识总结 成对数据的统计分析(含解析)
展开知识点一、变量间的相关关系
1. 变量与变量间的两种关系:
(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S与半径r之间的关系S=πr2为函数关系.
(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系.
2. 相关关系的分类:
(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量;
(2)两个变量均为随机变量,如某学生的语文成绩与化学成绩.
3. 散点图:
将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据.
4. 回归分析:
与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
知识点二、线性回归方程:
1.回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程
对于一组具有线性相关关系的数据,,……,,其回归直线的截距和斜率的最小二乘法估计公式分别为:
,
其中表示数据xi(i=1,2,…,n)的均值,表示数据yi(i=1,2,…,n)的均值,表示数据xiyi(i=1,2,…,n)的均值.
、的意义是:以为基数,x每增加一个单位,y相应地平均变化个单位.
3.求回归直线方程的一般步骤:
①作出散点图
由样本点是否呈条状分布来判断两个量是否具有线性相关关系,若存在线性相关关系,进行第二步。
②求回归系数、
计算,,
,,
利用公式求出,
再由求出的值;
③写出回归直线方程;
④利用回归直线方程预报在x取某一个值时y的估计值。
知识点三、相关性检验
(1)相关系数r的定义
对于变量x与y随机抽取到的n对数据,,……,,称为x与y的样本相关系数。
(2)相关系数r的作用
样本相关系数r用于衡量两个变量之间是否具有线性相关关系,描述线性相关关系的强弱:
①
越接近1,表明两个变量之间的线性相关程度越强;越接近0,表明两个变量之间的线性相关程度越弱。
②当r>0时,表明两个变量正相关, 即x增加,y随之相应地增加,若x减少,y随之相应地减少.
当r<0时,表明两个变量负相关, 即x增加,y随之相应地减少;若x减少,y随之相应地增加.
若r=0,则称x与y不相关。
③当,认为x与y之间具有很强的线性相关关系。
④当大于时,表明有95%的把握认为x与y之间具有线性相关关系,这时求回归直线方程有必要也有意义,当时,寻找回归直线方程就没有意义。
(3)利用相关系数r检验的一般步骤:
法一:
①作统计假设:x与y不具有线性相关关系。
②根据样本相关系数计算公式算出r的值。
③比较与0.75的大小关系,得出统计结论。如果,认为x与y之间具有很强的线性相关关系。
法二:
①作统计假设:x与y不具有线性相关关系。
②根据样本相关系数计算公式算出r的值。
③根据小概率0.05与n-2在相关性检验的临界值表中查出r的一个临界值(n未数据的对数)。
④比较与,作统计推断,如果,表明有95%的把握认为x与y之间具有线性相关关系。如果,我们没有理由拒绝原来的假设,即不认为x与y之间具有线性相关关系。这时寻找回归直线方程是毫无意义的。
知识点四、线性回归分析与非线性回归分析
1.线性回归分析
对于回归分析问题,在解题时应首先利用散点图或相关性检验判断x与y是否具有线性相关关系,如果线性相关,才能求解后面的问题.否则求线性回归方程没有实际意义,它不能反映变量x与y,之间的变化规律.只有在x与y之间具有相关关系时,求线性回归方程才有实际意义.
相关性检验的依据:主要利用检验统计量
(其中化简式容易记也好用)求出检验统计量的样本相关系数,再利用r的性质确定x和y是否具有线性相关关系,r具有的性质为:|r|≤1且|r|越接近于1,线性相关程度越强;|r|越接近于0,线性相关程度越弱.
2. 线性回归分析的一般步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2)判断两变量是否具有线性相关关系
①作散点图
由样本点是否呈条状分布来判断两个量是否具有线性相关关系。
②求相关系数r
当,认为x与y之间具有很强的线性相关关系。
(3)若两变量存在线性相关关系,设所求的线性回归方程为,求回归系数、。
(4)写出回归直线方程;
(5)利用回归直线方程预报在x取某一个值时y的估计值。
3.非线性回归分析
(1)对于非线性回归分析问题,如果给出了经验公式可直接利用换元,使新元与y具有线性相关关系,进一步求出,,对新元的线性回归方程,换回x即可得y对x的回归曲线方程.
(2)非线性回归问题有时并不给出经验公式,这时按以下步骤求回归方程:
①画出已知数据的散点图,看是否是线性回归分析问题,如果不是,把它与必修数学中学过的函数(幂函数、指数函数、对数函数等)图像作比较,挑选一种跟这些散点拟合得最好的函数,采用适当的变量置换,把非线性回归分析问题化为线性回归分析问题.
②作相关性检验,即判断寻找线性回归方程是否有意义.
③当寻找线性回归方程有意义时,计算系数,,得到线性回归方程.
④代回x得y对x的回归曲线方程.
知识点五 列联表
1. 列联表
用表格列出的分类变量的频数表,叫做列联表。
2. 2×2列联表
对于两个事件A,B,列出两个事件在两种状态下的数据,如下表所示:
这样的表格称为2×2列联表。
知识点六 卡方统计量公式
为了研究分类变量X与Y的关系,经调查得到一张2×2列联表,如下表所示
统计中有一个有用的(读做“卡方”)统计量,它的表达式是:
(为样本容量)。
知识点七 独立性检验
1.独立性检验
通过2×2列联表,再通过卡方统计量公式计算的值,利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.变量独立性的判断
通过对统计量分布的研究,已经得到两个临界值:3.841和6.635。当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:
①如果≤3.841时,认为事件A与B是无关的。
②如果>3.841时,有95%的把握说事件A与事件B有关;
③如果>6.635时,有99%的把握说事件A与事件B有关;
3.独立性检验的基本步骤及简单应用
独立性检验的步骤:
要推断“A与B是否有关”,可按下面步骤进行:
(1)提出统计假设H0:事件A与B无关(相互独立);
(2)抽取样本(样本容量不要太小,每个数据都要大于5);
(3)列出2×2列联表;
(4)根据2×2列联表,利用公式:,计算出的值;
(5)统计推断:当>3.841时,有95%的把握说事件A与B有关;
当>6.635时,有99%的把握说事件A与B有关;
当>10.828时,有99.9%的把握说事件A与B有关;
当≤3.841时,认为事件A与B是无关的.
类型一 回归分析及相关检验
例1 根据如下样本数据
得到的回归方程为 SKIPIF 1 < 0 ,则( )
A. SKIPIF 1 < 0 B. SKIPIF 1 < 0 C. SKIPIF 1 < 0 D. SKIPIF 1 < 0
解析:样本点的散点图如图3-1.由散点图可知, SKIPIF 1 < 0 .
答案:B
规律总结:由散点图不仅可以直观地看出两个变量是否相关,而且可以判断两个线性相关的变量是正相关还是负相关.当两个变量正相关时, SKIPIF 1 < 0 ;当两个变量负相关时, SKIPIF 1 < 0 .
例2 假设某农作物基本苗数 SKIPIF 1 < 0 与有效穗数 SKIPIF 1 < 0 之间存在相关关系,今测得5组数据如下:
(1)以 SKIPIF 1 < 0 为解释变量, SKIPIF 1 < 0 为预报变童,画出散点图;
(2)求 SKIPIF 1 < 0 与 SKIPIF 1 < 0 之间的回归方程,对于基本苗数56.7预报有效穗数;
(3)计算各组残差;
(4)求 SKIPIF 1 < 0 ,并说明随机误差对有效穗数的影响占百分之几?
解:(1)散点图如图3-2所示.
(2)由图看出,样本点呈条状分布,有比较好的线性相关关系
因此可以用线性回归方程来建立两个变量之间的关系.
设线性回归方程为 SKIPIF 1 < 0 , 由表中数据可得, SKIPIF 1 < 0 , SKIPIF 1 < 0 .
故 SKIPIF 1 < 0 与 SKIPIF 1 < 0 之间的回归方程为 SKIPIF 1 < 0 . 当 SKIPIF 1 < 0 时, SKIPIF 1 < 0 .
估计有效穗数为 SKIPIF 1 < 0 .
(3)各组数据的残差分别为 SKIPIF 1 < 0 e:二0. 39,
(4) SKIPIF 1 < 0
故解释变量(农作物基本苗数)对有效穗数的影响约占了83.2%
所以随机误差对有效穗数的影响约占 SKIPIF 1 < 0 .
规律总结:进行线性回归分析的关键是先画出样本点的散点图,确定出变量具有线性相关关系,再求出线性回归方程.如果 SKIPIF 1 < 0 , SKIPIF 1 < 0 的线性相关关系具有统计意义,就可以用线性回归方程作出预测和控制.预测是指对于 SKIPIF 1 < 0 的取值范围内的任一个 SKIPIF 1 < 0 , SKIPIF 1 < 0 取相应值 SKIPIF 1 < 0 的估计;控制是指通过控制 SKIPIF 1 < 0 的值把 SKIPIF 1 < 0 的值控制在指定范围内.
类型二 独立性检验
例3某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.
(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成 SKIPIF 1 < 0 列联表,并判断能否在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”
分析:(1)利用列举法列出基本事件,结合古典概型求解;(2)利用独立性检验公式计算求解.
解:(1)由已知可得,样本中有25周岁以上组工人60名,25周岁以下组工人40名,所以样本中日平均生产件数不足60件的工人中,25周岁以上组工人有 SKIPIF 1 < 0 (人),记为 SKIPIF 1 < 0 ;25周岁以下组工人有 SKIPIF 1 < 0 (人),记为 SKIPIF 1 < 0 .
从中随机抽取2名工人,所有的可能结果共有10种,分别是
SKIPIF 1 < 0 SKIPIF 1 < 0
其中,至少有一名“25周岁以下组”工人的可能结果共有7种,
分别是 SKIPIF 1 < 0 SKIPIF 1 < 0
故所求的概率 SKIPIF 1 < 0 .
(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有 SKIPIF 1 < 0 (人),“25周岁以下组”中的生产能手有 SKIPIF 1 < 0 (人),据此可得 SKIPIF 1 < 0 列联表如下:
所以代入公式 SKIPIF 1 < 0 ,得 SKIPIF 1 < 0 的观测值为 SKIPIF 1 < 0
因为 SKIPIF 1 < 0 ,
所以不能在犯错误的概率不超过0.1的前提下认为“生产能手与工人所在的年龄组有关”
解后反思:解决独立性检验问题的基本步骤:
(1)找出相关数据,作列联表;
(2)求随机变量 SKIPIF 1 < 0 的观测值;
(3)判断可能性,注意与临界值进行比较,得出事件有关的可信度.
例4 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验.将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.
(1)甲、乙是200只家兔中的2只,求甲、乙分在不同组的概率;
(2)下表1和表2分别表示注射药物A和B后的试验结果(疱疹面积单位: SKIPIF 1 < 0 ).
表1:注射药物A后皮肤疱疹面积的频数分布表
表2:注射药物B后皮肤疱疹面积的频数分布表
①完成下面频率分布直方图(图3-4和图3-5),并比较注射两种药物后疱疹面积的中位数大小;
注射药物A后皮肤疱疹面积的频率分布直方图
注射药物B后皮肤疱疹面积的频率分布直方图
②完成下面 SKIPIF 1 < 0 列联表,并回答能否在犯错误的概率不超过 SKIPIF 1 < 0 的前提下认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
表3:
分析:(1)利用排列组合知识及古典概型求解;(2)先根据频数分布表完成频率分布直方图和 SKIPIF 1 < 0 列联表,再计算 SKIPIF 1 < 0 的观测值,并与临界值比较后进行判断.
解析:(1)甲、乙两只家兔分在不同组的概率为 SKIPIF 1 < 0 .
(2)①频率分布直方图如图所示.
注射药物A后皮肤疱疹面积的频率分布直方图
注射药物B后皮肤疱疹面积的频率分布直方图
可以看出注射药物A后的疱疹面枳的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之 间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数.
②表3
代入公式 SKIPIF 1 < 0 ,得 SKIPIF 1 < 0 的观测值为
SKIPIF 1 < 0
因为 SKIPIF 1 < 0 ,所以在犯错误的概率不超过 SKIPIF 1 < 0 的前提下认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.
解后反思:近几年高考中较少单独考查独立性检验,多与统计、概率等知识结合,其中频率分布表、频率分布直方图与独立性检验融合在一起是常见的考查形式.一般需要根据条件列出 SKIPIF 1 < 0 列联表,计算 SKIPIF 1 < 0 的观测值,从而解决问题.事件B
事件
合计
事件A
a
b
a+b
事件
c
d
c+d
合计
a+c
b +d
a+b+c+d
Y1
Y2
合计
X1
a
b
a+b
X2
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
SKIPIF 1 < 0
3
4
5
6
7
8
SKIPIF 1 < 0
4.0
2.5
SKIPIF 1 < 0
0.5
SKIPIF 1 < 0
SKIPIF 1 < 0
SKIPIF 1 < 0
15.0
25.8
30.0
36.6
44.4
SKIPIF 1 < 0
39.4
42.9
42.9
43.1
49.2
生产能手
非生产能手
总计
25周岁以上组
15
45
60
25周岁以下组
15
25
40
总计
30
70
100
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
频数
30
40
20
10
疱疹面积
[60,65)
[65,70)
[70,75)
[75,80)
[80,85)
频数
10
25
20
30
15
疱疹面积小于 SKIPIF 1 < 0
疱疹面积不小于 SKIPIF 1 < 0
总计
注射药物A
SKIPIF 1 < 0
SKIPIF 1 < 0
注射药物B
SKIPIF 1 < 0
SKIPIF 1 < 0
总计
SKIPIF 1 < 0
疱疹面积小于 SKIPIF 1 < 0
疱疹面积不小于 SKIPIF 1 < 0
总计
注射药物A
SKIPIF 1 < 0
SKIPIF 1 < 0
100
注射药物B
SKIPIF 1 < 0
SKIPIF 1 < 0
100
总计
105
95
SKIPIF 1 < 0
2025版高考数学全程一轮复习学案第九章统计与成对数据的统计分析第三节成对数据的统计分析: 这是一份2025版高考数学全程一轮复习学案第九章统计与成对数据的统计分析第三节成对数据的统计分析,共6页。学案主要包含了常用结论等内容,欢迎下载使用。
高考数学第一轮复习复习第3节 成对数据的统计分析(讲义): 这是一份高考数学第一轮复习复习第3节 成对数据的统计分析(讲义),共39页。
高考数学复习第十章 第三节 成对数据的统计分析(导学案): 这是一份高考数学复习第十章 第三节 成对数据的统计分析(导学案),共23页。