人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表导学案
展开知识点一 分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
知识点二 2×2列联表
1.2×2列联表给出了成对分类变量数据的交叉分类频数.
2.定义一对分类变量X和Y,我们整理数据如下表所示:
像这种形式的数据统计表称为2×2列联表.
知识点三 独立性检验
1.定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.
2.χ2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.
3.独立性检验解决实际问题的主要环节
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
思考 独立性检验与反证法的思想类似,那么独立性检验是反证法吗?
答案 不是.因为反证法不会出错,而独立性检验依据的是小概率事件几乎不发生.
1.分类变量中的变量与函数的变量是同一概念.( × )
2.等高堆积条形图可初步分析两分类变量是否有关系,而独立性检验中χ2取值则可通过统计表从数据上说明两分类变量的相关性的大小.( √ )
3.事件A与B的独立性检验无关,即两个事件互不影响.( × )
4.χ2的大小是判断事件A与B是否相关的统计量.( √ )
一、等高堆积条形图的应用
例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:
试画出列联表的等高堆积条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?
解 等高堆积条形图如图所示:
其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.
由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.
反思感悟 等高堆积条形图的优劣点
(1)优点:较直观地展示了eq \f(a,a+b)与eq \f(c,c+d)的差异性.
(2)劣点:不能给出推断“两个分类变量有关系”犯错误的概率.
跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用等高堆积条形图判断学生学习成绩与经常上网有关吗?
解 根据题目所给的数据得到如下2×2列联表:
得出等高堆积条形图如图所示:
比较图中阴影部分高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为学习成绩与经常上网有关.
二、由χ2进行独立性检验
命题角度1 有关“相关的检验”
例2 某校对学生课外活动进行调查,结果整理成下表:试根据小概率值α=0.005的独立性检验,分析喜欢体育还是文娱与性别是否有关系.
解 零假设为H0:喜欢体育还是喜欢文娱与性别没有关系.
∵a=21,b=23,c=6,d=29,n=79,
∴χ2=eq \f(nad-bc2,a+bc+da+cb+d)
=eq \f(79×21×29-23×62,44×35×27×52)≈8.106>7.879=x0.005.
根据小概率值α=0.005的独立性检验,我们推断H0不成立,即认为喜欢体育还是喜欢文娱与性别有关.
反思感悟 用χ2进行“相关的检验”步骤
(1)零假设:即先假设两变量间没关系.
(2)计算χ2:套用χ2的公式求得χ2值.
(3)查临界值:结合所给小概率值α查得相应的临界值xα.
(4)下结论:比较χ2与xα的大小,并作出结论.
跟踪训练2 甲、乙两机床加工同一种零件,抽检得到它们加工后的零件尺寸x(单位:cm)及个数y,如下表:
由表中数据得y关于x的经验回归方程为eq \(y,\s\up6(^))=-91+100x(1.01≤x≤1.05),其中合格零件尺寸为1.03±0.01(cm).完成下面列联表,并依据小概率值α=0.01的独立性检验,分析加工零件的质量与甲、乙是否有关.
解 eq \x\t(x)=1.03,eq \x\t(y)=eq \f(a+49,5),
由eq \(y,\s\up6(^))=-91+100x,知eq \f(a+49,5)=-91+100×1.03,
所以a=11.由于合格零件尺寸为1.03±0.01 cm,
故甲、乙加工的合格与不合格零件的数据表为:
零假设为H0:加工零件的质量与甲、乙无关.则
χ2=eq \f(nad-bc2,a+bc+da+cb+d)
=eq \f(60×24×18-6×122,30×30×36×24)=10,
因为χ2=10>6.635=x0.01,根据小概率值α=0.01的独立性检验,我们推断H0不成立.即认为加工零件的质量与甲、乙有关.
命题角度2 有关“无关的检验”
例3 下表是某届某校本科志愿报名时,对其中304名学生进入高校时是否知道想学专业的调查表:
根据表中数据,则下列说法正确的是________.(填序号)
①性别与知道想学专业有关;
②性别与知道想学专业无关;
③女生比男生更易知道所学专业.
答案 ②
解析 χ2=eq \f(304×63×82-42×1172,180×124×105×199)≈0.041≤2.706=x0.1,所以性别与知道想学专业无关.
反思感悟 独立性检验解决实际问题的主要环节
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
跟踪训练3 某省进行高中新课程改革,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.
(1)根据以上数据建立一个2×2列联表;
(2)试根据小概率值α=0.01的独立性检验,分析对新课程教学模式的赞同情况与教师年龄是否有关系.
解 (1)2×2列联表如下表所示:
(2)零假设为H0:对新课程教学模式的赞同情况与教师年龄无关.
由公式得
χ2=eq \f(50×10×6-24×102,34×16×20×30)≈4.963<6.635=x0.01,
根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,即认为对新课程教学模式的赞同情况与教师年龄无关.
1.下面是一个2×2列联表:
则表中a,b处的值分别为( )
A.94,96 B.52,50
C.52,60 D.54,52
答案 C
解析 ∵a+21=73,∴a=52,b=a+8=52+8=60.
2.某班主任对全班50名学生进行了作业量的调查,数据如下表:
则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( )
A.0.01 B.0.005
C.0.05 D.0.001
答案 C
解析 由公式得
χ2=eq \f(50×18×15-8×92,26×24×27×23)≈5.059>3.841=x0.05.
∴犯错误的概率不超过0.05.
3.(多选)若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )
A.在犯错误的概率不超过0.01的前提下,认为吸烟和患肺癌有关系
B.1个人吸烟,那么这个人有99%的概率患有肺癌
C.在100个吸烟者中一定有患肺癌的人
D.在100个吸烟者中可能一个患肺癌的人也没有
答案 AD
解析 独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.
4.根据如图所示的等高堆积条形图可知喝酒与患胃病________关系.(填“有”或“没有”)
答案 有
解析 从等高堆积条形图上可以明显地看出喝酒患胃病的频率远远大于不喝酒患胃病的频率.
5.某销售部门为了研究具有相关大学学历和能按时完成销售任务的关系,对本部门200名销售人员进行调查,所得数据如下表所示:
根据上述数据能得出结论:有________以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”.
答案 99%
解析 由公式χ2=eq \f(nad-bc2,a+bc+da+cb+d),
得χ2=eq \f(200×57×65-42×362,99×101×93×107)≈9.67.
因为9.67>6.635=x0.01,所以有99%以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”.
1.知识清单:
(1)分类变量.
(2)2×2列联表.
(3)等高堆积条形图.
(4)独立性检验,χ2公式.
2.方法归纳:数形结合.
3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题.
1.观察下列各图,其中两个分类变量x,y之间关系最强的是( )
答案 D
解析 观察等高堆积条形图易知D选项两个分类变量之间关系最强.
2.(多选)给出下列实际问题,其中用独立性检验可以解决的问题有( )
A.两种药物治疗同一种病是否有区别
B.吸烟者得肺病的概率
C.吸烟是否与性别有关系
D.网吧与青少年的犯罪是否有关系
答案 ACD
解析 独立性检验是判断两个分类变量是否有关系的方法,而B是概率问题,故选ACD.
3.为了研究高中学生中性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则所得到的统计学结论是认为“性别与喜欢乡村音乐有关系”的把握约为( )
A.0.1% B.0.5%
C.99.5% D.99.9%
答案 C
解析 因为χ2=8.01>7.879=x0.005,所以认为性别与喜欢乡村音乐有关系的把握有99.5%.
4.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:
则可以说其亲属的饮食习惯与年龄有关的把握为( )
A.95% B.99%
C.99.5% D.99.9%
答案 C
解析 因为χ2=eq \f(30×4×2-16×82,12×18×20×10)=10>7.879=x0.005,所以有99.5%的把握认为其亲属的饮食习惯与年龄有关.
5.考察棉花种子处理情况跟生病之间的关系得到下表数据:
根据以上数据,可得出( )
A.种子是否经过处理跟生病有关
B.种子是否经过处理跟生病无关
C.种子是否经过处理决定是否生病
D.以上都是错误的
答案 B
解析 由χ2=eq \f(407×32×213-61×1012,93×314×133×274)≈0.164<2.706=x0.1,即没有把握认为种子是否经过处理跟生病有关.
6.χ2的大小可以决定是否拒绝原来的统计假设H0,如果χ2值较大,就拒绝H0,即接受两个分类变量________关系.(填“有”或“无”)
答案 有
7.下表是关于男婴与女婴出生时间调查的列联表:
那么,A=________,B=________,C=________,D=________,E=________.
答案 47 92 88 82 53
解析 由列联表得eq \b\lc\{\rc\ (\a\vs4\al\c1(45+E=98,,98+D=180,,A+35=D,,E+35=C,,B+C=180,))解得eq \b\lc\{\rc\ (\a\vs4\al\c1(A=47,,B=92,,C=88,,D=82,,E=53.))
8.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:
为了判断主修统计专业是否与性别有关系,根据表中的数据,得到χ2=eq \f(50×13×20-10×72,23×27×20×30)≈4.844,因为χ2>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性最大为__________.
答案 5%
解析 因为χ2>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,认为主修统计专业与性别有关,出错的可能性最大为5%.
9.在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:
(1)根据上述表格完成列联表;
(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义?
解 (1)2×2列联表如下表所示:
(2)计算可知,午休的考生及格率为P1=eq \f(80,180)=eq \f(4,9).不午休的考生的及格率为P2=eq \f(65,200)=eq \f(13,40),由P1>P2,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态.
10.为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为eq \f(2,3).
(1)请将上面的2×2列联表补充完整(不用写计算过程);
(2)根据小概率值α=0.05的独立性检验,能否据此推断喜爱打篮球与性别有关?
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.
解 (1)列联表补充如下:
(2)零假设H0:喜爱打篮球与性别无关,由χ2=eq \f(48×220-602,28×20×32×16)≈4.286>3.841=x0.05,根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为喜爱打篮球与性别有关.
(3)喜爱打篮球的女生人数X的可能取值为0,1,2.
其概率分别为
P(X=0)=eq \f(C\\al(2,10),C\\al(2,20))=eq \f(9,38),
P(X=1)=eq \f(C\\al(1,10)C\\al(1,10),C\\al(2,20))=eq \f(10,19),
P(X=2)=eq \f(C\\al(2,10),C\\al(2,20))=eq \f(9,38),
故X的分布列为
X的均值为E(X)=0+eq \f(10,19)+eq \f(9,19)=1.
11.(多选)下列关于回归分析与独立性检验的说法不正确的是( )
A.回归分析和独立性检验没有什么区别
B.回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定关系
C.回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验
D.独立性检验可以100%确定两个变量之间是否具有某种关系
答案 ABD
解析 由回归分析及独立性检验的特点知,选项C正确.
12.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )
A.男人、女人中患色盲的频率分别为0.038和0.006
B.男、女患色盲的概率分别为eq \f(19,240),eq \f(3,260)
C.男人中患色盲的比例比女人中患色盲的比例大,可以认为患色盲与性别是有关的
D.调查人数太少,不能说明色盲与性别有关
答案 C
解析 男人中患色盲的比例为eq \f(38,480)=eq \f(19,240),要比女人中患色盲的比例eq \f(6,520)=eq \f(3,260)大,其差值为eq \b\lc\|\rc\|(\a\vs4\al\c1(\f(38,480)-\f(6,520)))≈0.067 6,差值较大,故认为患色盲与性别是有关的.
13.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
表2
表3
表4
A.成绩 B.视力
C.智商 D.阅读量
答案 D
解析 因为
χeq \\al(2,1)=eq \f(52×6×22-14×102,16×36×32×20)=eq \f(52×82,16×36×32×20),
χeq \\al(2,2)=eq \f(52×4×20-16×122,16×36×32×20)=eq \f(52×1122,16×36×32×20),
χeq \\al(2,3)=eq \f(52×8×24-12×82,16×36×32×20)=eq \f(52×962,16×36×32×20),
χeq \\al(2,4)=eq \f(52×14×30-6×22,16×36×32×20)=eq \f(52×4082,16×36×32×20),
则有χeq \\al(2,4)>χeq \\al(2,2)>χeq \\al(2,3)>χeq \\al(2,1),所以阅读量与性别有关联的可能性最大.
14.世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:
若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为eq \f(3,5),则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.
附:χ2=eq \f(nad-bc2,a+bc+da+cb+d).
临界值表:
答案 95%
解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A,由已知得P(A)=eq \f(q+35,100)=eq \f(3,5),
所以q=25,p=25,a=40,b=60.
χ2=eq \f(100×25×35-25×152,40×60×50×50)=eq \f(25,6)≈4.167>3.841=x0.05.
故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关.
15.(多选)有两个分类变量X,Y,其2×2列联表如下所示:
其中a,15-a均为大于5的整数,若依据小概率值α=0.05的独立性检验,认为X,Y有关,则a的值为( )
A.6 B.7
C.8 D.9
答案 CD
解析 由题意可知
χ2=eq \f(65×[a30+a-15-a20-a]2,20×45×15×50)
=eq \f(13×13a-602,20×45×3×2)>3.841,根据a>5且15-a>5,a∈Z,
求得当a=8或9时满足题意.
16.“中国式过马路”存在很大的交通安全隐患.某调查机构为了解路人对“中国式过马路”的态度是否与性别有关,从马路旁随机抽取30名路人进行了问卷调查,得到了如下列联表:
已知在这30人中随机抽取1人抽到反感“中国式过马路”的路人的概率是eq \f(8,15).
(1)请将上面的列联表补充完整(直接写结果,不需要写求解过程),并据此资料分析反感“中国式过马路”与性别是否有关?
(2)若从这30人中的女性路人中随机抽取2人参加一活动,记反感“中国式过马路”的人数为X,求X的分布列和均值.
附:χ2=eq \f(nad-bc2,a+bc+da+cb+d).
解 (1)
零假设为H0,反感“中国式过马路”与性别无关,由已知数据得χ2=eq \f(30×10×8-6×62,16×14×16×14)≈1.158<2.706=x0.1.
所以,没有充足的理由认为反感“中国式过马路”与性别有关.
(2)X的可能取值为0,1,2,
P(X=0)=eq \f(C\\al(2,8),C\\al(2,14))=eq \f(4,13),
P(X=1)=eq \f(C\\al(1,6)C\\al(1,8),C\\al(2,14))=eq \f(48,91),
P(X=2)=eq \f(C\\al(2,6),C\\al(2,14))=eq \f(15,91).
所以X的分布列为
X的均值为E(X)=0×eq \f(4,13)+1×eq \f(48,91)+2×eq \f(15,91)=eq \f(6,7).X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
组别
尿棕色素
合计
阳性数
阴性数
铅中毒病人
29
7
36
对照组
9
28
37
合计
38
35
73
学习成绩
上网
合计
经常
不经常
不及格
80
120
200
及格
120
680
800
合计
200
800
1 000
性别
喜欢
合计
体育
文娱
男生
21
23
44
女生
6
29
35
合计
27
52
79
零件
尺寸x
1.01
1.02
1.03
1.04
1.05
零件
个数y
甲
3
7
8
9
3
乙
7
4
4
4
a
机床加工
零件的质量
合计
合格零件数
不合格零件数
甲
乙
合计
机床加工
零件的质量
合计
合格零件数
不合格零件数
甲
24
6
30
乙
12
18
30
合计
36
24
60
知道想学专业
不知道想学专业
合计
男生
63
117
180
女生
42
82
124
合计
105
199
304
教师年龄
对新课程教学模式
合计
赞同
不赞同
老教师
10
10
20
青年教师
24
6
30
合计
34
16
50
X
Y
合计
Y=0
Y=1
X=0
a
21
73
X=1
8
25
33
合计
b
46
性别
作业量
合计
大
不大
男生
18
9
27
女生
8
15
23
合计
26
24
50
能按时完成
销售任务
不能按时完
成销售任务
合计
具有相关大学学历
57
42
99
不具有相关大学学历
36
65
101
合计
93
107
200
年龄
饮食习惯
合计
偏爱蔬菜
偏爱肉类
50岁以下
4
8
12
50岁以上
16
2
18
合计
20
10
30
种子
种子
合计
处理
未处理
得病
32
101
133
不得病
61
213
274
合计
93
314
407
时间
合计
晚上
白天
男婴
45
A
B
女婴
E
35
C
合计
98
D
180
性别
专业
合计
非统计专业
统计专业
男
13
10
23
女
7
20
27
合计
20
30
50
分数段
29~
40
41~
50
51~
60
61~
70
71~
80
81~
90
91~
100
午休考生
人数
23
47
30
21
14
31
14
不午休考
生人数
17
51
67
15
30
17
3
人数
合计
及格人数
不及格人数
午休
不午休
合计
人数
合计
及格人数
不及格人数
午休
80
100
180
不午休
65
135
200
合计
145
235
380
性别
打篮球
合计
喜爱
不喜爱
男生
6
女生
10
合计
48
性别
打篮球
合计
喜爱
不喜爱
男生
22
6
28
女生
10
10
20
合计
32
16
48
X
0
1
2
P
eq \f(9,38)
eq \f(10,19)
eq \f(9,38)
性别
成绩
合计
不及格
及格
男
6
14
20
女
10
22
32
合计
16
36
52
性别
视力
合计
好
不好
男
4
16
20
女
12
20
32
合计
16
36
52
性别
智商
合计
偏高
正常
男
8
12
20
女
8
24
32
合计
16
36
52
性别
阅读量
合计
丰富
不丰富
男
14
6
20
女
2
30
32
合计
16
36
52
年龄
西班牙队
合计
不喜欢
喜欢
高于40岁
p
q
50
不高于40岁
15
35
50
合计
a
b
100
α
0.10
0.05
0.010
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
X
Y
合计
Y1
Y2
X1
a
20-a
20
X2
15-a
30+a
45
合计
15
50
65
态度
性别
合计
男性
女性
反感
10
不反感
8
合计
30
态度
性别
合计
男性
女性
反感
10
6
16
不反感
6
8
14
合计
16
14
30
X
0
1
2
P
eq \f(4,13)
eq \f(48,91)
eq \f(15,91)
人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表优秀导学案: 这是一份人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表优秀导学案,共7页。学案主要包含了学习目标,自主学习,小试牛刀,经典例题,跟踪训练,当堂达标,参考答案等内容,欢迎下载使用。
数学选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表学案设计: 这是一份数学选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表学案设计,共5页。学案主要包含了规律方法,变式训练1,变式训练2,变式训练3等内容,欢迎下载使用。
2020-2021学年第八章 成对数据的统计分析8.3 分类变量与列联表学案设计: 这是一份2020-2021学年第八章 成对数据的统计分析8.3 分类变量与列联表学案设计,共18页。