苏教版 (2019)选择性必修第二册9.2独立性检验教案及反思
展开第九章 统计
9.2.1 独立性检验
1. 通过实例,理解2×2列联表的统计意义;
2. 通过实例,了解2×2列联表独立性检验的基本思想、方法和初步应用.
重点:理解2×2列联表的统计意义.
难点:了解2×2列联表独立性检验及其应用.
一、新课导入
情境:某医疗机构为了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人,调查结果是:吸烟220人中,有37人患呼吸道疾病(以下简称患病),183人未患呼吸道疾病(以下简称未患病),不吸烟的295人中 ,有21人患病,274人未患病.
我们能根据上面的数据,得到怎样的结论呢?
二、新知探究
问题1:根据这些数据,是否能断定:患呼吸道疾病与吸烟有关?
为了研究这个问题,我们将上述数据用下表表示.
| 患病 | 未患病 | 合计 |
吸烟 | 37 | 183 | 220 |
不吸烟 | 21 | 274 | 295 |
合计 | 58 | 457 | 515 |
形如上表的表格称为2×2列联表.
答案:根据表中的数据可知,在吸烟的人中,有≈16.82%的人患病;在不吸烟的人中,有≈7.12%的人患病,可知吸烟者与不吸烟者患病的可能性存在差异,所以有患病与吸烟有关这一推论.
列联表是一个描述两个分类变量分布的频数表.一般地,假设有两个分类变量X和Y,它们的取值分别为和,其样本频数列联表(也称为2×2列联表)如下:
| 合计 | ||
a | b | a+b | |
c | d | c+d | |
合计 | a+c | b+d | a+b+c+d |
设计意图:先利用频率估计概率的思想,由吸烟者与不吸烟者患病的可能性的差异程度直观地做出判断.
问题2:上述结论给我们的印象是患病与吸烟有关,事实果真如此吗?究竟能有多大的把握认为“患病与吸烟有关”呢?
答案:我们可以对两者的关系进行检验.
若将事件“某成年人吸烟”记为A,事件“某成年人患病”记为B,则事件“某成年人不吸烟”记为 ,事件“某成年人不患病”记为,这样,回答“患病与吸烟是否有关?”其实就是需要回答“事件A与事件B是否独立?”
为了回答这个问题,我们先做出判断“患病与吸烟没有关系”,即提出如下假设:患病与吸烟没有关系.
由两个事件相互独立的充要条件,又可将上述假设记为:P(AB)=P(A)P(B) ,这里的P(A),P(B)和P(AB)的值都不知道,我们可以用频率来代替概率,估计出P(A),P(B)和P(AB)的值.
为了便于研究一般情况,我们将原表中的数据用字母代替,得到字母表示的2×2列联表,
| 患病 | 未患病 | 合计 |
吸烟 | a | b | a+b |
不吸烟 | c | d | c+d |
合计 | a+c | b+d | a+b+c+d |
若设n=a+b+c+d,则有 ,
故.
因此在成立的条件下,吸烟且患病的人数为.
同理可得:吸烟但未患病的人数为,
不吸烟但患病的人数为,不吸烟且未患病的人数为.
如果实际观测值与在事件A,B独立的假设下的估计值相差不“大”,那么我们就可以认为这些差异是由随机误差造成的,假设不能被所给数据否定,否则应认为假设不能接受.
追问1:怎样描述实际观测值与估计值的差异呢?
答案:考虑实际观测值与在事件A,B独立的假设下的估计值的差(如下表):
| 患病 | 未患病 |
吸烟 | ||
不吸烟 |
为了避免正负相消及消除样本容量对差异大小的影响,可以将它们分别平方并除以对应的估计频数(即估计值),最后相加,得到
化简得:(其中n=a+b+c+d)
统计学中通常采用统计量(读作“卡方”)来刻画这个差异.
追问2:如何利用进行推断呢?
统计学中已有明确的结论:在成立的情况下,随机事件“≥ 6.635”发生的概率约为0.01,即P(≥ 6.635)≈0.01,也就是说,在成立的情况下,对统计量进行多次观测,观测值超过6.635的概率约为0.01.
通过计算,本例中 =11.8634>6.635”,由P(≥ 6.635)≈0.01可知,出现这样的观测值的概率不超过0.01,因此,我们有99%的把握认为不成立,即有99%的把握认为“患呼吸道疾病与吸烟有关系” .
统计量的计算公式:
(其中n=a+b+c+d)
独立性检验的定义
利用统计量来判断“两个分类变量有关系”的方法称为独立性检验.
推断两个分类变量“Ⅰ与Ⅱ有关系”的步骤:
一般地,对于两个分类变量Ⅰ和Ⅱ, Ⅰ有两类取值,即类A和类B,Ⅱ也有两类取值,即类1和类2 ,我们得到如下列联表所示的样本数据:
| Ⅱ | 合计 | ||
类1 | 类2 | |||
Ⅰ | 类A | a | b | a+b |
类B | c | d | c+d | |
合计 | a+c | b+d | a+b+c+d | |
要推断“Ⅰ与Ⅱ有关系”,可按下面的步骤进行:
(1)提出假设:Ⅰ与Ⅱ没有关系;
(2)根据2×2列联表与公式计算的值;
(3)根据临界值表,做出判断.
独立性检验临界值表:
P() | 0.50 | 0.40 | 0.25 | 0.15 | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 |
0.455 | 0.708 | 1.323 | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
(1)若>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;
(2)若>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;
(3)若>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;
(4)若≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能得出结论“成立”,即Ⅰ与Ⅱ没有关系.
三、应用举例
例1 在500人身上试验某种血清预防感冒的作用,把他们1年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如下表所示.问:该种血清对预防感冒是否有作用?
| 未感冒 | 感冒 | 合计 |
使用血清 | 258 | 242 | 500 |
未使用血清 | 216 | 284 | 500 |
合计 | 474 | 526 | 1 000 |
解:提出假设:感冒与是否使用该种血清没有关系,根据列联表中的数据,可以求得
因为当成立时,≥6.635的概率约为0.01,所以我们有99%的把握认为,该种血清能起到预防感冒的作用.
方法总结:独立性检验的注意点:
在2×2列联表中,如果两个分类变量没有关系,那么应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
例2为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查结果如下表所示,根据所选择的193个病人的数据,能否做出药的效果与给药方式有关的结论?
| 有效 | 无效 | 合计 |
口服 | 58 | 40 | 98 |
注射 | 64 | 31 | 95 |
合计 | 122 | 71 | 193 |
解:提出假设:药的效果与给药方式没有关系,根据列联表中的数据可以求得
因为当成立时,≥1.389 6的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设,即不能作出药的效果与给药方式有关的结论.
例3 气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行了对比,所得数据如下表所示.问:它们的疗效有无差异?
| 有效 | 无效 | 合计 |
复方江剪刀草 | 184 | 61 | 245 |
胆黄片 | 91 | 9 | 100 |
合计 | 275 | 70 | 345 |
解:提出假设:两种中草药的治疗效果没有差异,即病人使用这两种药物中何种药物对疗效没有明显差异,根据列联表中的数据可以求得
因为当成立时,,这里的≈11.098>10.828,所以我们有99.9%的把握认为,两种药物的疗效有差异.
四、课堂练习
1.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.平均数与方差 B.回归分析
C.独立性检验 D.概率
2.分类变量X和Y的列表如下,则下列说法判断正确的是( )
| y1 | y2 | 合计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
合计 | a+c | b+d | a+b+c+d |
A.ad-bc越小,说明X和Y关系越弱
B.ad-bc越大,说明X和Y关系越强
C.(ad-bc)2越大,说明X与Y关系越强
D.(ad-bc)2越接近于0,说明X与Y关系越强
3.若由一个2×2列联表中的数据计算得χ2=8.013,那么是否有99.5%的把握认为两个随机事件之间有关系:________.(填“是”或“否”)
4. 为了调查胃病是否与生活规律有关,在某地对540名40岁以上的人进行了调查,结果是:患胃病者生活不规律的共60人,患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未患胃病者生活规律的共200人.
(1)根据以上数据列出2×2列联表;
(2)在犯错误的概率不超过0.01的前提下能否认为40岁以上的人患胃病与否和生活规律有关系?为什么?
参考答案:
1.解析:选C.判断两个分类变量是否有关的最有效方法是进行独立性检验.
2. 解析:选C.列联表可以较为准确地判断两个变量之间的相关关系程度,由,当(ad-bc)2越大,χ2越大,表明X与Y的关系越强.
(ad-bc)2越接近0,说明两个分类变量X和Y无关的可能性越大.
3.解析:因为χ2=8.013>7.879=x0.005,查阅χ2表知有99.5%的把握认为两个随机事件之间有关系.
答案:是.
4. (1)由已知可列2×2列联表:
| 患胃病 | 未患胃病 | 合计 |
生活规律 | 20 | 200 | 220 |
生活不规律 | 60 | 260 | 320 |
合计 | 80 | 460 | 540 |
(2)根据列联表中的数据,由计算公式得
χ2=≈9.638>6.635=x0.01,
因此在犯错误的概率不超过0.01的前提下认为40岁以上的人患胃病与否和生活规律有关.
五、课堂小结
1.统计量的计算公式:
(其中n=a+b+c+d)
2. 推断两个分类变量“Ⅰ与Ⅱ有关系”的步骤:
(1)提出假设:Ⅰ与Ⅱ没有关系;
(2)根据2×2列联表与公式计算的值;
(3)根据临界值表,做出判断.
3.独立性检验临界值表:
P() | 0.50 | 0.40 | 0.25 | 0.15 | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 |
0.455 | 0.708 | 1.323 | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
(1)若>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;
(2)若>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;
(3)若>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;
(4)若≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能得出结论“成立”,即Ⅰ与Ⅱ没有关系.
六、布置作业
教材第164页练习第1,2题.
数学4.4 数学归纳法*教案设计: 这是一份数学4.4 数学归纳法*教案设计,共5页。教案主要包含了新知探究,应用举例,课堂练习,课堂小结,布置作业等内容,欢迎下载使用。
高中数学苏教版 (2019)选择性必修第二册7.4二项式定理教案: 这是一份高中数学苏教版 (2019)选择性必修第二册7.4二项式定理教案,共7页。教案主要包含了新课导入,新知探究,应用举例,课堂练习,课堂小结,布置作业等内容,欢迎下载使用。
数学6.3空间向量的应用教学设计: 这是一份数学6.3空间向量的应用教学设计,共5页。教案主要包含了新课导入,新知探究,应用举例,课堂练习,课堂小结,布置作业等内容,欢迎下载使用。

