高中数学北师大版 (2019)选择性必修 第一册第七章 统计案例3 独立性检验3.2 独立性检验的基本思想导学案
展开Qeq \(\s\up7(情景引入),\s\d5(ing jing yin ru ))
饮用水的质量是人类普遍关心的问题.据统计,饮用优质水的518人中,身体状况优秀的有466人,饮用一般水的312人中,身体状况优秀的有218人,人的身体健康状况与饮用水的质量之间有关系吗?
Xeq \(\s\up7(新知导学),\s\d5(in zhi da xue ))
1.分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的_不同类别__,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的_频数表__称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2.等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否_相互影响__,常用等高条形图表示列联表数据的_频率特征__.
(2)观察等高条形图发现 eq \f(a,a+b) 和 eq \f(c,c+d) 相差很大,就判断两个分类变量之间有关系.
3.独立性检验
Yeq \(\s\up7(预习自测),\s\d5(u xi zi ce ))
1.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是( B )
A.k越大,推断“X与Y有关系”,犯错误的概率越大
B.k越小,推断“X与Y有关系”,犯错误的概率越大
C.k越接近于0,推断“X与Y无关”,犯错误的概率越大
D.k越大,推断“X与Y无关”,犯错误的概率越小
2.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定断言“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过( C )
[解析] 通过查表确定临界值k.当k>k0=5.024时,推断“X与Y”有关系这种推断犯错误的概率不超过0.025.
3.春节期间,“厉行节约,反对浪费”之风悄然吹开.某市通过随机询问100名性别不同的居民是否能做到“光盘”,得到如下表格:
附:
K2=eq \f(nad-bc2,a+bc+da+cb+d).
参照附表,得到的正确结论是_③__.(只填正确的序号)
①在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”;
②在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”;
③有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”;
④有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”.
[解析] 由2×2列联表得到a=43,b=9,c=32,d=16,则a+b=52,c+d=48,a+c=75,b+d=25,ad=688,bc=288,n=100.代入K2=eq \f(nad-bc2,a+bc+da+cb+d),
得K2=eq \f(100×688-2882,52×48×75×25)≈3.419.
因为2.706<3.419<3.841.
所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.
4.网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?
[解析] 根据题目所给的数据得到如下2×2列联表:
得出等高条形图如图所示:
比较图中阴影部分的高可以发现经常上网不及格的频率明显高于不经常上网不及格的频率,因此可以认为经常上网与学习成绩有关.
Heq \(\s\up7(互动探究解疑 ),\s\d5(u dng tan jiu jie yi ))
命题方向1 ⇨等高条形图的应用
典例1 从发生交通事故的司机中抽取2 000名司机作随机样本,根据他们血液中是否含有酒精以及他们是否对事故负有责任将数据整理如下:
试分析血液中含有酒精与对事故负有责任是否有关系.
[解析] 作等高条形图如下,图中阴影部分表示有酒精负有责任与无酒精负有责任的比例,从图中可以看出,两者差距较大,由此我们可以在某种程度上认为“血液中含有酒精与对事故负有责任”有关系.
『规律方法』 通过等高条形图可以粗略地直观判断两个分类变量是否有关系,一般地,在等高条形图中,eq \f(a,a+b)与eq \f(c,c+d)相差越大,两个分类变量有关系的可能性就越大.
〔跟踪练习1〕
某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.
[解析] 作列联表如下:
相应的等高条形图如图所示:
图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例,从图中可以看出考前心情紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前心情紧张与性格类别有关.
命题方向2 ⇨独立性检验的应用
典例2 在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:能否在犯错误的概率不超过1%的前提下认为该种血清能起到预防感冒的作用?
[解析] 假设感冒与是否使用该种血清没有关系.
由列联表中的数据,求得K2的观测值为
k=eq \f(1 000×258×284-242×2162,474×526×500×500)≈7.075.
∵k=7.075≥6.635,
查表得P(K2≥6.635)=0.01,
故我们在犯错误的概率不超过1%的前提下,即有99%的把握认为该种血清能起到预防感冒的作用.
『规律方法』 独立性检验的步骤:
第一步,确定分类变量,获取样本频数,得到列联表.
第二步,根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.
第三步,利用公式K2=eq \f(nad-bc2,a+bc+da+cb+d)计算随机变量K2的观测值k0.
第四步,作出判断.如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y的关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
〔跟踪练习2〕
“十一”黄金周前某地的一旅游景点票价上浮,黄金周过后,统计本地与外地来的游客人数,与去年同期相比,结果如下:
能否在犯错误的概率不超过0.01的前提下认为票价上浮后游客人数与所处地区有关系?
[解析] 按照独立性检验的基本步骤,假设票价上浮后游客人数与所处地区没有关系.
因为K2的观测值k=eq \f(7 645×1 407×2 065-2 842×1 3312,4 249×3 396×2 738×4 907)≈30.35>6.635.
所以在犯错误的概率不超过0.01的前提下认为票价上浮后游客人数与所处地区有关系.
Yeq \(\s\up7(易混易错警示),\s\d5(i hun yi cu jing shi )) 准确掌握公式中的参数含义
典例3 有甲、乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表
班级与成绩列联表
试问能有多大把握认为“成绩与班级有关系”?
[错解] 由公式得:K2=eq \f(90×10×7-35×382,17×73×45×45)=56.86,
56.86>6.635,
所以有99%的把握认为“成绩与班级有关系”.
[辨析] 由于对2×2列联表中a,b,c,d的位置不清楚,在代入公式时代错了数值导致计算结果的错误.
[正解] K2=eq \f(90×10×38-7×352,17×73×45×45)=0.653,
0.653<2.706,
所以没有充分证据认为成绩与班级有关.
〔跟踪练习3〕
调查者通过询问男女大学生在购买食品时是否看营养说明得到的数据如下表所示.能否在犯错误的概率不超过0.10的前提下认为是否看营养说明与性别有关系?
[解析] 根据2×2列联表中数据由公式计算得
K2=eq \f(89×23×25-32×92,55×34×32×57)≈2.149<2.706,
所以在犯错误的概率不超过0.10的前提下不能认为看营养说明与男女性别有关.
Xeq \(\s\up7(学科核心素养),\s\d5(ue ke he xin su yang)) 独立性检验的基本思想
1.独立性检验的基本思想
独立性检验的基本思想是要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设“两个分类变量没有关系”成立,在该假设下我们构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过P(k≥6.635)≈0.01来评价假设不合理的程度,计算出k>6.635,说明假设不合理的程度约为99%,即两个分类变量有关这一结论成立的可信度为99%,不合理的程度可查下表得出:
2.反证法与假设检验的对照表
3.独立性检验与反证法的异同
独立性检验的思想来自于统计中的假设检验思想,它与反证法类似.假设检验和反证法都是先假设结论不成立,然后根据是否能够推出“矛盾”来断定结论是否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指一种不符合逻辑事情的发生,而假设检验中的“矛盾”是指一种不符合逻辑的小概率事件的发生,即在结论不成立的假设下,推出有利于结论成立的小概率事件发生.我们知道小概率事件在一次试验中通常是不会发生的,若在实际中这个事件发生了,说明保证这个事件为小概率事件的条件有问题,即结论在很大的程度上应该成立.其基本步骤如下:
(1)考察需抽样调查的背景问题,确定所涉及的变量是否为二值分类变量.
(2)根据样本数据作出2×2列联表.
(3)通过等高条形图直观地判断两个分类变量是否相关.
(4)计算随机变量K2,并查表分析,当K2的观测值很大时,就认为两个变量有关系;否则就认为没有充分的证据显示两个变量有关.
典例4 海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有90%的把握认为箱产量与养殖方法有关;
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
K2=eq \f(nad-bc2,a+bc+da+cb+d).
[思路分析] (1)根据频率估计概率.
(2)根据独立性检验的步骤求解.
(3)观察频率分布直方图得出平均值(或中位数)的取值区间,再进行比较.
[解析] (1)解:旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
因此,事件A的概率估计值为0.62.
(2)解:根据箱产量的频率分布直方图得列联表
K2=eq \f(200×62×66-34×382,100×100×96×104)≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)解:箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
Keq \(\s\up7(课堂达标验收),\s\d5(e tang da bia yan shu))
1.对服用某种维生素对婴儿头发稀疏与稠密的影响调查如下:服用的60人中头发稀疏的有5人,不服用的60人中头发稀疏的有46人,作出如下列联表:
则表中a,b的值分别为( B )
A.9,14 B.55,14
C.55,24 D.69,14
2.与表格相比,能更直观地反映出相关数据总体状况的是( D )
A.列联表 B.散点图
C.残差图 D.等高条形图
3.在研究“吸烟与患肺癌”的关系中,通过收集数据,整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是( D )
A.在100个吸烟者中至少有99人患肺癌
B.如果1个人吸烟,那么这个人至少有99%的概率患肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟在者中可能一个患肺癌的人也没有
4.若由一个2×2列联表中的数据计算得K2的观测值k≈4.013,那么在犯错误的概率不超过_0.05__的前提下,认为两个分类变量之间有关系.
5.高二(1)班班主任对全班50名同学的学习积极性与对待班级工作的态度进行调查, 统计数据如表所示:
试运用独立性检验的思想方法分析,能否在犯错误的概率不超过0.001的前提下认为学生的学习积极性与对待班级工作的态度有关系.
[解析] 由题设知a=18,b=7,c=6,d=19,a+b=25,c+d=25,a+c=24,b+d=26,n=50,
所以K2的观测值k=eq \f(nad-bc2,a+bc+da+cb+d)=eq \f(50×18×19-6×72,24×26×25×25)≈11.538,
因为P(K2≥10.828)≈0.001且11.538>10.828.
所以在犯错误的概率不超过0.001的前提下认为“学生的学习积极性与对待班级工作的态度有关系”.
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
定义
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验
公式
K2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=_a+b+c+d__
具体步骤
①确定a,根据实际问题的需要,确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定_临界值K0__.
②计算K2,利用公式计算随机变量K2的_观测值k__.
③下结论,如果_k≥K0__,就推断“X与Y有关系”,这种推断_犯错误的概率__不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中_没有发现足够证据__支持结论“X与Y有关系”
做不到“光盘”
能做到“光盘”
男
43
9
女
32
16
P(K2≥k)
0.10
0.05
0.025
k
2.706
3.841
5.024
经常上网
不经常上网
总计
不及格
80
120
200
及格
120
680
800
总计
200
800
1000
有责任
无责任
总计
有酒精
650
150
800
无酒精
700
500
1 200
总计
1 350
650
2 000
性格内向
性格外向
总计
考前心情紧张
332
213
545
考前心情不紧张
94
381
475
总计
426
594
1 020
未感冒
感冒
合计
使用血清
258
242
500
未使用血清
216
284
500
合计
474
526
1 000
本地
外地
合计
去年
1 407
2 842
4 249
今年
1 331
2 065
3 396
合计
2 738
4 907
7 645
优秀
不优秀
总计
甲班
10
35
45
乙班
7
38
45
总计
17
73
90
看营养说明
不看营养说明
合计
男大学生
23
32
55
女大学生
9
15
34
合计
32
57
89
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
反证法
假设检验
要证明结论A
备选假设H1
在A不成立的前提下进行推理
在H1不成立,即H0成立的条件下进行推理
推出矛盾,意味着结论A成立
推出有利于H1成立的小概率事件发生,意味着H1成立的可能性
没有找到矛盾,不能对A下任何结论,即反证法不成功
推出有利于H1成立的小概率事件不发生,接受原假设
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
头发稀疏
头发稠密
总计
服用维生素
5
a
60
不服用维生素
46
b
60
总计
51
a+b
120
积极参加班级工作
不太积极参加班级工作
总计
学习积极性高
18
7
25
学习积极性一般
6
19
25
总计
24
26
50
高中数学人教版新课标A选修1-21.2独立性检验的基本思想及其初步应用导学案及答案: 这是一份高中数学人教版新课标A选修1-21.2独立性检验的基本思想及其初步应用导学案及答案,共4页。学案主要包含了课前准备,新课导学,总结提升等内容,欢迎下载使用。
人教版新课标A选修1-21.2独立性检验的基本思想及其初步应用学案: 这是一份人教版新课标A选修1-21.2独立性检验的基本思想及其初步应用学案,共3页。学案主要包含了预习内容,学习要求,几个典型例题等内容,欢迎下载使用。
数学选修1-21.2独立性检验的基本思想及其初步应用学案: 这是一份数学选修1-21.2独立性检验的基本思想及其初步应用学案,共4页。