高中数学人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表学案
展开(2)通过实例,了解2×2列联表独立性检验及其应用.
[教材要点]
要点一 分类变量与列联表
1.分类变量:区别不同的现象或性质的随机变量称为分类变量.
eq \a\vs4\al(状元随笔) 1.分类变量的取值一定是离散的.
2.分类变量是大量存在的,如是否吸烟,商品的等级等.
2.2×2列联表:
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
eq \a\vs4\al(状元随笔) (1)列联表是两个或两个以上分类变量的汇总统计表,现阶段我们仅研究两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表称为2×2列联表.
(2)列联表有助于直观地观测数据之间的关系,如a表示既满足x1,又满足y1的样本量, eq \f(a,a+b) 表示在x1情况下,又满足y1条件的样本所占的频率.
要点二 独立性检验
1.定义:利用χ2的取值推断分类变量X和Y是否独立性的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
2.公式:χ2= eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)) .
3.临界值:忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立,称xα为α的临界值.这个临界值就可作为判断χ2大小的标准.
常用临界值表如下:
eq \a\vs4\al(状元随笔) 列联表中的数据是样本数据,它只是总体的代表,具有随机性,因此,需要用独立性检验的方法确认所得结论在多大程度上适用于总体,即独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果做出错误的解释,比如:
χ2≥10.828,就认为有99.9%以上的把握认为“两个分类变量有关系”,或者说在犯错误的概率不超过0.1%的前提下,可以认为“两个分类变量有关系”.
通常认为χ2≤2.706时,样本数据中没有充分的证据支持结论“两个分类变量有关系”.
[基础自测]
1.判断正误(正确的画“√”,错误的画“×”)
(1)列联表中的数据是两个分类变量的频数.( )
(2)事件A与B的独立性检验无关,即两个事件互不影响.( )
(3)χ2的大小是判断事件A与B是否相关的统计量.( )
(4)独立性检验的方法和数学上的反证法是一样的.( )
2.如表是一个2×2列联表:则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
3.在对人们休闲方式的一次调查中,根据数据建立如下的2×2列联表:
根据表中数据,得到χ2= eq \f(56×(8×12-16×20)2,28×28×24×32) ≈4.667,所以我们至少有( )的把握判定休闲方式与性别有关系.(参考数据:P(χ2≥3.841)≈0.05,P(χ2≥6.635)≈0.01)( )
A.99% B.95%
C.1% D.5%
4.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天内的结果如表所示:
进行统计分析时的统计假设是________________________________________________________________________.
题型一 两个分类变量之间的关联关系——自主完成
1.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
已知抽取的老年人、年轻人各25名,则完成上面的列联表数据错误的是( )
A.a=18 B.b=19
C.c+d=50 D.e-f=2
2.在研究打鼾与患心脏病之间的关系中,通过收集数据、整理分析数据得到了“打鼾与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的,下列说法中正确的是( )
A.100个心脏病患者中至少有99人打鼾
B.1个人患心脏病,那么这个人有99%的概率打鼾
C.在100个心脏病患者中一定有打鼾的人
D.在100个心脏病患者中可能一个打鼾的人都没有
3.在调查的480名男性中有38名患有色盲,520名女性中有6名患有色盲,请根据题目的条件列出2×2列联表并由列联表估计色盲与性别是否有关.
方法归纳
利用2×2列联表判断两个分类变量的关系
题型二 独立性检验的初步应用——师生共研
例1 下表是某地区的一种传染病与饮用水的调查表:
这种传染病是否与饮用水的卫生程度有关?请说明理由.
方法归纳
独立性检验的具体做法:
(1)列出2×2列联表;
(2)根据实际问题的需要零假设;
(3)利用公式,计算χ2.
(4)与临界值xα比较作出判断.
跟踪训练1 某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.能否在犯错误的概率不超过0.001的前提下认为质量监督员甲在不在生产现场与产品质量好坏有关系?
题型三 独立性检验与概率、统计的综合——师生共研
例2 新生儿某疾病要接种三次疫苗免疫(即0、1、6月龄),假设每次接种之间互不影响,每人每次接种成功的概率相等,为了解新生儿该疾病疫苗接种剂量与接种成功之间的关系,现进行了两种接种方案的临床试验:10 μg/次剂量组与20 μg/次剂量组,试验结果如表:
(1)根据数据说明哪种方案接种效果好?并能否判断认为该疾病疫苗接种成功与两种接种方案有关?
(2)以频率代替概率,若选用接种效果好的方案,参与该试验的1 000人的成功人数比此剂量只接种一次的成功人数平均提高多少人.
参考公式:χ2= eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)) ,其中n=a+b+c+d.
参考附表:
跟踪训练2 已知甲、乙两家公司都愿意聘用某求职者,这两家公司的具体聘用信息如下:
甲公司
乙公司
(1)根据以上信息,如果你是该求职者,你会选择哪一家公司?说明理由;
(2)某课外实习作业小组调查了1 000名职场人士,就选择这两家公司的意愿进行了统计,得到如下数据分布:
若分析选择意愿与年龄这两个分类变量,计算得到的χ2≈5.551 3,则得出“选择意愿与年龄有关系”的结论犯错误的概率的上限是多少?并用统计学知识分析, 选择意愿与年龄变量和性别变量哪一个关联性更大?
附:χ2= eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)) ,
易错辨析 独立性检验时武断下结论致错
例3 调查者通过询问男、女大学生在购买食品时是否看生产日期和保质期得到的数据如下表所示,试分析看生产日期和保质期是否与性别有关.
解析:由题意,χ2= eq \f(89×(23×25-32×9)2,55×34×32×57) ≈2.149<2.706=x0.1
所以在犯错误的概率不超过0.1的前提下没有发现足够的证据说明看生产日期和保质期与性别有关.
【易错警示】
易错原因
有些学生会通过列联表计算出 eq \f(23,55) 比 eq \f(9,34) 大,因此认为看生产日期和保质期与性别有关.
实际上这只能说明二者有关成立的可能性比较大,即并不能肯定地说二者有关,若要判定看生产日期和保质期与性别有关,则需进行独立性检验.
纠错心得
列联表只能粗略地判断两个变量是否有关,独立性检验才能更精准地分析.但由独立性检验得出的结论也不是“一定”有关或无关.
8.3 列联表与独立性检验
新知初探·课前预习
[基础自测]
1.(1)√ (2)× (3)√ (4)×
2.解析:a=73-21=52,b=a+22=52+22=74.故选C.
答案:C
3.解析:根据表中数据得到K2≈4.667>3.841,所以至少有95%的把握判定休闲方式与性别有关系.故选B.
答案:B
4.解析:根据假设性检验的概念知,应假设“电离辐射的剂量与人体受损程度无关”.
答案:电离辐射的剂量与人体受损程度无关
题型探究·课堂解透
题型一
1.解析:因为a+7=c=25,6+b=d=25,a+6=e,7+b=f,e+f=50,
所以a=18,b=19,c+d=50,e=24,f=26,e-f=-2,故选D.
答案:D
2.解析:有99%的把握认为“打鼾与患心脏病有关”的结论成立,与多少个人打鼾没有关系,只有D选项正确,故选D.
答案:D
3.解析:根据题目所给的数据列出如下列联表:
∵ eq \f(38,38+442) = eq \f(38,480) = eq \f(19,240) , eq \f(6,6+514) = eq \f(6,520) = eq \f(3,260) ,
显然 eq \f(19,240) > eq \f(3,260) ,且两个比例的值相差较大,故可以粗略估计患不患色盲与性别有关.
题型二
例1 解析:零假设为:
H0:传染病与饮用水的卫生程度无关.
根据列联表中的数据,经计算得到
χ2= eq \f(830×(52×218-466×94)2,518×312×146×684) ≈54.21>10.828=x0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为这种传染病与饮用水的卫生程度有关.
跟踪训练1 解析:根据题目所给数据得如下2×2列联表:
零假设为:H0:质量监督员甲在不在生产现场与产品质量好坏无关.
根据列联表中的数据,经计算得到
χ2= eq \f(1 500×(982×17-8×493)2,990×510×1 475×25) ≈13.097>10.828=x0.001
根据小概率值α=0.001的独立性检验,推断H0不成立,即认为质量监督员甲在不在生产现场与产品质量好坏有关.
题型三
例2 解析:(1)由于两种接种方案都是1 000人接受临床试验,接种成功人数10 μg/次剂量组900人,
20 μg/次剂量组973人,且973>900,
所以方案20 μg/次剂量组接种效果好;
计算χ2= eq \f(2 000×(900×27-100×973)2,1 000×1 000×1 873×127) ≈44.806>10.828=x0.001
所以能判断认为该疾病疫苗接种成功与两种接种方案有关.
(2)假设20 μg/次剂量组临床试验接种一次成功的概率为p,
由数据知,三次接种成功的概率为 eq \f(973,1 000) =0.973,不成功的概率为 eq \f(27,1 000) =0.027,
由于三次接种之间互不影响,每人每次接种成功的概率相等,
所以(1-p)3=0.027,解得p=0.7;
设参与试验的1 000人此剂量只接种一次成功的人数为X,
显然X~B(1 000,0.7),E(X)=1 000×0.7=700,
参与试验的1 000人此剂量只接种一次成功的人数平均为700人,
且973-700=273.
试验选用20 μg/次剂量组方案,参与该试验的1 000人比此剂量只接种一次的成功人数平均提高273人.
跟踪训练2 解析:(1)设甲公司与乙公司的月薪分别为随机变量X,Y,
则E(X)=6 000×0.4+7 000×0.3+8 000×0.2+9 000×0.1=7 000,
E(Y)=5 000×0.4+7 000×0.3+9 000×0.2+11 000×0.1=7 000,
D(X)=(6 000-7 000)2×0.4+(7 000-7 000)2×0.3+(8 000-7 000)2×0.2+(9 000-7 000)2×0.1=1 0002,
D(Y)=(5 000-7 000)2×0.4+(7 000-7 000)2×0.3+(9 000-7 000)2×0.2+(11 000-7 000)2×0.1=2 0002,
则E(X)=E(Y),D(X)
(2)χ2≈5.551>5.024,根据表中对应值,得出“选择意愿与年龄有关系”的结论犯错误的概率的上限是0.025.
由数据分布可得选择意愿与性别这两个分类变量的2×2列联表如下:
则χ2= eq \f(1 000×(250×200-350×200)2,600×400×450×550) = eq \f(2 000,297) ≈6.734,且6.734>6.635,
对照临界值表可得“选择意愿与性别有关”的结论犯错误的概率的上限为0.01,
由于0.01<0.025,所以与年龄相比,选择意愿与性别关联性更大y1
y2
合计
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
看书
运动
合计
男
8
20
28
女
16
12
28
合计
24
32
56
死亡
存活
合计
第一种剂量
14
11
25
第二种剂量
6
19
25
合计
20
30
50
每年体验
每年未体验
合计
老年人
a
7
c
年轻人
6
b
d
合计
e
f
50
得病
不得病
合计
干净水
52
466
518
不干净水
94
218
312
合计
146
684
830
接种成功
接种不成功
合计(人)
10 μg/次剂量组
900
100
1 000
20 μg/次剂量组
973
27
1 000
合计(人)
1 873
127
2 000
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
职位
A
B
C
D
月薪/元
6 000
7 000
8 000
9 000
获得相应职位的概率
0.4
0.3
0.2
0.1
职位
A
B
C
D
月薪/元
5 000
7 000
9 000
11 000
获得相应职位的概率
0.4
0.3
0.2
0.1
人员
结构
选择
意愿
40岁以上
(含40岁)
男性
40岁以上
(含40岁)
女性
40岁以
下男性
40岁以
下女性
选择甲公司
110
120
140
80
选择乙公司
150
90
200
110
α
0.050
0.025
0.010
0.005
xα
3.841
5.024
6.635
7.879
看生产日期和保质期
不看生产日期和保质期
合计
男大学生
23
32
55
女大学生
9
25
34
合计
32
57
89
色盲
不色盲
合计
男
38
442
480
女
6
514
520
合计
44
956
1 000
合格品
次品
合计
甲在生产现场
982
8
990
甲不在生产现场
493
17
510
合计
1 475
25
1 500
选择甲公司
选择乙公司
合计
男
250
350
600
女
200
200
400
合计
450
550
1 000
人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表优秀导学案: 这是一份人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表优秀导学案,共7页。学案主要包含了学习目标,自主学习,小试牛刀,经典例题,跟踪训练,当堂达标,参考答案等内容,欢迎下载使用。
数学选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表学案设计: 这是一份数学选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表学案设计,共5页。学案主要包含了规律方法,变式训练1,变式训练2,变式训练3等内容,欢迎下载使用。
人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表导学案: 这是一份人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表导学案,共17页。学案主要包含了等高堆积条形图的应用,由χ2进行独立性检验等内容,欢迎下载使用。