高中数学1.1回归分析的基本思想及其初步应用学案
展开一、回归分析
1.回归分析
回归分析是对有相关关系的两个变量进行统计分析.相关指数R2刻画回归的效果,其计算公式:R2=1-eq \f(\(∑,\s\up6(n),\s\d4(i=1)) yi-\(y,\s\up6(^))i2,\(∑,\s\up6(n),\s\d4(i=1)) yi-\x\t(y)2),R2的值越大,模型的拟合效果越好.
2.建立回归模型的一般步骤
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系.则选用线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))).
(4)按一定规则估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性,等等),若残差存在异常,则应检查数据是否有误,或模型是否合适等.
二、独立性检验
1.判断两个分类变量之间是否有关系可以通过等高条形图作粗略判断.需要确知所作判断犯错误的概率情况下,可进行独立性检验,独立性检验可以得到较为可靠的结论.
2.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表.
(2)根据公式计算K2的值.
(3)比较K2与临界值的大小关系作统计推断.
题型一 ⇨回归分析
典例1 已知对两个变量x,y的观测数据如下表:
(1)画出x,y的散点图;
(2)求出回归直线方程.
[解析] (1)散点图如下图所示.
(2)eq \x\t(x)=44.5,eq \(∑,\s\up6(10))eq \( ,\s\d4(i=1))xeq \\al(2,i)=20 183,
eq \x\t(y)=7.37,eq \(∑,\s\up6(10))eq \( ,\s\d4(i=1))xiyi=3 346.32,
则eq \(b,\s\up6(^))=eq \f(3 346.32-10×44.5×7.37,20 183-10×44.52)≈0.175 2.
eq \(a,\s\up6(^))≈7.37-0.175 2×44.5=-0.417 5.
∴回归直线方程为eq \(y,\s\up6(^))=0.175 2x-0.417 5.
典例2 想象一下一个人从出生到死亡,在每个生日都测量身高,并作出这些数据散点图,这些点将不会落在一条直线上,但在一段时间内的增长数据有时可以用线性回归来分析.下表是一位母亲给儿子作的成长记录.
(1)年龄(解释变量)和身高(预报变量)之间具有怎样的相关关系?
(2)如果年龄相差5岁,则身高有多大差异?(3~16岁之间)
(3)如果身高相差20 cm,其年龄相差多少?
(4)计算残差,说明该函数模型能够较好地反映年龄与身高的关系吗?请说明理由.
[解析] (1)设年龄x与身高y之间的回归直线方程为eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),
由公式eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(n))\( ,\s\d4(i=1))xiyi-n \x\t(x) \x\t(y),\(∑,\s\up6(n))\( ,\s\d4(i=1))x\\al(2,i)-n \x\t(x)2)≈6.314,
eq \(a,\s\up6(^))=eq \x\t(y)-b eq \x\t(x)=72.000,
所以eq \(y,\s\up6(^))=6.314x+72.000.
(2)如果年龄相差5岁,则预报变量变化6.314×5=31.570.
(3)如果身高相差20 cm,年龄相差Δx=eq \f(20,6.314)=3.168≈3.
(4)eq \(∑,\s\up6(n),\s\d4(i=1)) eq \(e,\s\up6(^))eq \\al(2,i)=eq \(∑,\s\up6(n),\s\d4(i=1)) (yi-eq \(y,\s\up6(^))i)2≈4.53,
eq \(∑,\s\up6(n),\s\d4(i=1)) (yi-eq \x\t(y))2=eq \(∑,\s\up6(n),\s\d4(i=1))yeq \\al(2,i)-n eq \x\t(y)2≈7227.2,
R2≈0.999,
所以残差平方和为4.53,相关指数为0.999,故该函数模型能够较好地反映年龄与身高的关系.
题型二 ⇨独立性检验
典例3 在调查的480名男士中有38名患有色盲,520名女士中有6名患有色盲,分别利用等高条形图和独立性检验的方法来判断色盲与性别是否有关.你所得的结论在什么范围内有效?
[解析] 根据题目所给的数据作出如下的列联表:
根据列联表作出相应的等高条形图,如图所示.
从等高条形图来看,在男士中患色盲的比例eq \f(38,480)比在女士中患色盲的比例eq \f(6,520)要大,其差值为eq \b\lc\|\rc\|(\a\vs4\al\c1(\f(38,480)-\f(6,520)))≈0.068,差值较大,因而我们可以认为性别与患色盲是有关的.根据列联表中所给的数据可得:
a=38,b=442,c=6,d=514,a+b=480,c+d=520,
a+c=44,b+d=956,n=1000,
代入公式K2=eq \f(nad-bc2,a+bc+da+cb+d),
得k=eq \f(1000×38×514-6×4422,480×520×44×956)≈27.139,
由于k≈27.139>10.828,所以我们有99.9%的把握认为性别与色盲有关系,这个结论只对所调查的480名男士和520名女士有效.
典例4 某高校共有15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:时).
(1)应收集多少位女生样本数据?
(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4个小时的概率.
(3)在样本数据中,有60位女生的每周平均体育运动时间超过4个小时.请完成每周平均体育运动时间与性别的列联表,并判断是否在犯错误的概率不超过0.05的前提下认为“该校学生的每周平均体育运动时间与性别有关”.
附:K2=eq \f(nad-bc2,a+bc+da+cb+d)
[解析] (1)300×eq \f(4 500,15 000)=90,
所以应收集90位女生的样本数据.
(2)由频率分布直方图得:
1-2×(0.100+0.025)=0.75,
所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.
(3)由(2)知,300名学生中有300×0.75=225人的每周平均体育运动时间超过4个小时.75人的每周平均体育运动时间不超过4个小时.
又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别的列联表如下:
平均体育运动时间与性别列联表
结合列联表可算得
K2的观测值k=eq \f(300×22552,75×225×210×90)=eq \f(100,21)≈4.762>3.841.
所以在犯错误的概率不超过0.05的前提下认为“该校学生的每周平均体育运动时间与性别有关”.
x
35
40
42
39
45
46
42
50
58
48
y
5.90
6.20
6.30
6.55
6.53
9.52
6.99
8.72
9.49
7.50
年龄/周岁
3
4
5
6
7
8
9
身高/cm
90.8
97.6
104.2
110.9
115.6
122.0
128.5
年龄/周岁
10
11
12
13
14
15
16
身高/cm
134.2
140.8
147.6
154.2
160.9
167.5
173.0
y
90.8
97.6
104.2
110.9
115.6
122.0
128.5
eq \(y,\s\up6(^))
90.9
97.3
103.6
109.9
116.2
122.5
128.8
y
134.2
140.8
147.6
154.2
160.9
167.5
173.0
eq \(y,\s\up6(^))
135.1
141.5
147.8
154.1
160.4
166.7
173.0
色盲
不色盲
合计
男
38
442
480
女
6
514
520
合计
44
956
1 000
P(K2≥k0)
0.10
0.05
0.010
0.005
k0
2.706
3.841
6.635
7.879
男生
女生
总计
每周平均体育运动时间不超过4个小时
45
30
75
每周平均体育运动时间超过4个小时
165
60
225
总计
210
90
300
高中数学第三章 函数3.3 函数的应用(一)导学案: 这是一份高中数学第三章 函数3.3 函数的应用(一)导学案,共7页。学案主要包含了单项选择题,多项选择题,填空题,解答题等内容,欢迎下载使用。
高中数学人教版新课标A选修1-2实习作业学案: 这是一份高中数学人教版新课标A选修1-2实习作业学案,共2页。
高中数学人教版新课标A选修1-22.1合情推理与演绎推理导学案及答案: 这是一份高中数学人教版新课标A选修1-22.1合情推理与演绎推理导学案及答案,共5页。学案主要包含了归纳推理及其应用,类比推理及应用等内容,欢迎下载使用。