人教A版普通高中数学一轮复习第九章第四节列联表与独立性检验学案
展开2.通过实例,了解独立性检验及其应用.
自查自测,核心回扣
知识点 列联表与独立性检验
1.判断下列说法的正误,正确的打”√”,错误的打”×”.
(1)2×2列联表中的数据是两个分类变量的频数.( √ )
(2)分类变量A和B的独立性检验无关,即两个分类变量互不影响.( × )
(3)χ2的大小是判断事件A和B是否相关的统计量.( √ )
(4)在2×2列联表中,若|ad-bc|越小,则说明两个分类变量之间关系越强.( × )
2.(教材改编题)如下2×2列联表中a,b的值分别为( )
A.27,38B.28,38
C.27,37D.28,37
A 解析:a=35-8=27,b=a+11=27+11=38.
3.已知P(χ2≥6.635)=0.01,P(χ2≥10.828)=0.001.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235,则根据小概率值α= 的χ2独立性检验,推断喜欢该项体育运动与性别有关.
0.01 解析:因为6.635<7.235<10.828,所以由检验规则可知,根据小概率值α=0.01的χ2独立性检验,推断喜欢该项体育运动与性别有关.
核心回扣
1.分类变量
为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.
2.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表:
(2)计算随机变量χ2=nad−bc2a+bc+da+cb+d,利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
下表为5个常用的小概率值和相应的临界值.
3.应用独立性检验解决实际问题的几个步骤
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要通过比较相应的频率,分析X和Y间的影响规律.
列联表与χ2的计算
1.为了研究某地动物受核辐射后对身体健康的影响,专家随机选取了110只羊进行了检测,并将有关数据整理为2×2列联表.
单位:只
则A,B,C,D的值依次为( )
A.20,80,30,50B.20,50,80,30
C.20,50,80,110D.20,80,110,50
B 解析:30+A=50,所以A=20,
B+10=60,所以B=50,
所以C=30+B=30+50=80,
D=A+10=20+10=30.
2.两个分类变量X和Y,其2×2列联表如表所示,对同一样本,以下数据能说明X与Y有关联的可能性最大的一组为( )
A.m=3B.m=4
C.m=5D.m=6
D 解析:由给定的2×2列联表,
对于A,m=3,χ2的预测值k1=20×3×8−3×626×14×9×11=20231;
对于B,m=4,χ2的预测值k2=21×3×8−4×627×14×9×12=0;
对于C,m=5,χ2的预测值k3=22×3×8−5×628×14×9×13=11182;
对于D,m=6,χ2的预测值k4=23×3×8−6×629×14×9×14=92441.
显然k4>k1>k3>k2,因此选项D中数据求得χ2的值最大,说明X与Y有关联的可能性最大.
关于列联表及χ2的计算
(1)2×2列联表在计算数据时要准确无误,关键是对涉及的变量分清类别.
(2)计算χ2时遵循先化简后计算的原则,充分的约分可以简化数据的运算.
列联表与独立性检验
【例1】某公司为了拓展业务,对该公司某款手机的潜在客户进行调查,随机抽取国内外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所示的等高堆积条形图.由等高堆积条形图得到的数据,根据小概率值α=0.005的χ2独立性检验,能否认为持乐观态度和国内外差异有关?
解:由题意得2×2列联表如下:
单位:名
零假设为H0:持乐观态度和国内外差异无关.
依表中数据计算得χ2=200×60×60−40×402100×100×100×100=8>7.879=x0.005,
根据小概率值α=0.005的独立性检验,推断H0不成立,即认为持乐观态度和国内外差异有关,此推断犯错误的概率不大于0.005.
独立性检验的一般步骤
(1)根据样本数据列出2×2列联表.
(2)根据公式χ2=nad−bc2a+bc+da+cb+d计算.
(3)比较χ2与临界值的大小关系,作统计推断.
甲、乙两城市之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城市之间的500个班次的长途客车准点情况,得到下面列联表:
单位:个
根据小概率值α=0.1的独立性检验,能否认为甲、乙两城市之间的长途客车是否准点与客车所属公司有关?
解:列联表如下:
单位:个
零假设为H0:甲、乙两城市之间的长途客车是否准点与客车所属公司无关.
根据表中数据,计算得到
χ2=500×240×30−210×202260×240×450×50≈3.205>2.706=x0.1.
根据小概率值α=0.1的独立性检验,推断H0不成立,即认为甲、乙两城市之间的长途客车是否准点与客车所属公司有关,此推断犯错误的概率不大于0.1.
独立性检验的综合应用
【例2】某人工智能公司想要了解其开发的语言模型准确率的达标(准确率不低于80%则认为达标)情况与使用的训练数据集大小是否有关联,该公司随机选取了大型数据集和小型数据集各50个,并记录了使用这些数据集训练的语言模型在测试数据集上的准确率,根据小型数据集的准确率数据绘制成如图所示的频率分布直方图(各组区间分别为[50,60),[60,70),[70,80),[80,90),[90,100]).
(1)求a的值,并完成下面的2×2列联表;
单位:个
(2)根据小概率值α=0.005的独立性检验,能否认为语言模型准确率是否达标与使用的训练数据集大小有关联?
解:(1)由10×(0.010+0.025+a+0.020+0.010)=1,解得a=0.035.
准确率不低于80%的小型数据集有50×(0.2+0.1)=15(个),
由此可得2×2列联表如下:
单位:个
(2)零假设为H0:语言模型准确率是否达标与使用的训练数据集大小无关联.
根据列联表中的数据,计算得到
χ2=100×30×35−20×15250×50×45×55=10011≈9.091>7.879=x0.005.
根据小概率值α=0.005的独立性检验,推断H0不成立,即认为语言模型准确率是否达标与使用的训练数据集大小有关联,此推断犯错误的概率不大于0.005.
关于独立性检验的综合应用
独立性检验的考查,往往与概率和抽样统计图等一起考查,这类问题的求解可以按各小题及提问的顺序,一步步进行下去,是比较容易解答的.单纯考查独立性检验往往用小题的形式,而且χ2的公式一般会在原题中给出.
以”智联世界,生成未来”为主题的2023世界人工智能大会在中国上海举行,人工智能的发展为许多领域带来了巨大的便利,但同时也伴随着一些潜在的安全隐患.为了调查不同年龄阶段的人对人工智能所持的态度,某机构从所在地区随机调查了100人,所得结果统计如下:
完成下列2×2列联表,并判断是否有99%的把握认为所持态度与年龄有关.
单位:人
解:根据题意,可得2×2列联表如下:
单位:人
χ2=100×25×10−20×45270×30×55×45≈8.129.
因为8.129>6.635,
所以有99%的把握认为对人工智能所持态度与年龄有关.
课时质量评价(六十)
1.某机构为调查网游爱好者是否有性别差异,通过调研数据统计得知在500名男生中有200名网游爱好者,在400名女生中有50名网游爱好者.若要确定爱好网游是否与性别有关时,用下列最适合的统计方法是( )
A.均值B.方差
C.独立性检验D.回归分析
C 解析:由题意可知,”爱好网游”与”性别”是两类变量,其是否有关,应用独立性检验判断.
2.为了解某大学的学生喜欢体育锻炼是否与性别有关,某机构用简单随机抽样方法在校园内调查了120名学生,得到如下2×2列联表:
单位:名
则a-b-c等于( )
A.7B.8
C.9D.10
C 解析:根据题意,可得c=120-73-25=22,a=74-22=52,b=73-52=21,
补充完整2×2列联表为:
单位:名
所以a-b-c=52-21-22=9.
3.根据分类变量X与Y的抽样数据,计算得到χ2=7.505,依据α=0.01的独立性检验(x0.01=6.635),结论为( )
A.变量X与Y不独立
B.变量X与Y不独立,这个结论犯错误的概率超过0.01
C.变量X与Y独立
D.变量X与Y独立,这个结论犯错误的概率不超过0.01
A 解析:依据α=0.01的独立性检验(x0.01=6.635),χ2=7.505>6.635=x0.01,
所以变量X与Y不独立,这个结论犯错误的概率不超过0.01,故A正确.
4.观察下列各图,其中两个分类变量X,Y之间关系最强的是( )
A B C D
D 解析:观察等高堆积条形图易知D选项的两个分类变量之间关系最强.
5.已知两个分类变量X,Y的可能取值分别为{x1,x2}和{y1,y2},通过随机调查得到样本数据,再整理成如下的2×2列联表:
若样本容量为75,且m<n,则当判断X与Y有关系的把握最小时,a的值为( )
A.5B.10
C.15D.17
C 解析:在两个分类变量的列联表中,当|ad-bc|的值越小时,认为两个分类变量有关的可能性越小.
令|10×30-mn|=0,得mn=10×30=300.
又因为样本容量为75,所以m+n+40=75,则n=35-m,
所以mn=m(35-m)=300,化简得m2-35m+300=0,解得m1=15,m2=20.
又因为m<n,所以m=15.
6.(多选题)(数学与文化)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的”看云识天气”的经验,并将这些经验编成谚语,如”天上钩钩云,地上雨淋淋””日落云里走,雨在半夜后”……小波同学为了验证”日落云里走,雨在半夜后”,观察了某地区100天的日落和夜晚天气,得到如下2×2列联表,并计算得到χ2≈19.05,则下列小波对该地区天气的判断正确的是( )
A.夜晚下雨的概率约为12
B.未出现”日落云里走”,夜晚下雨的概率约为514
C.依据α=0.005的独立性检验,认为”日落云里走”是否出现与夜晚天气有关
D.依据α=0.005的独立性检验,若出现”日落云里走”,则认为夜晚一定会下雨
ABC 解析:对于A,根据列联表可知,100天中有50天夜晚下雨,50天夜晚未下雨,
因此夜晚下雨的概率约为50100=12,A正确;
对于B,未出现”日落云里走”,夜晚下雨的概率约为2525+45=514,B正确;
对于C,χ2≈19.05>7.879=x0.005,
因此依据α=0.005的独立性检验,认为”日落云里走”是否出现与夜晚天气有关,C正确;
对于D,依据α=0.005的独立性检验,可判断”日落云里走,雨在半夜后”的说法犯错误的概率不超过0.005,但不代表出现”日落云里走”就一定会下雨,D错误.
7.(多选题)有甲、乙两个班级共计105人进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表.
已知从105人中随机抽取1人,成绩优秀的概率为27,则下列说法中正确的是( )
A.列联表中c的值为30,b的值为35
B.列联表中c的值为20,b的值为45
C.根据列联表中的数据,若按95%的可靠性要求,能认为”成绩与班级有关系”
D.根据列联表中的数据,若按95%的可靠性要求,不能认为”成绩与班级有关系”
BC 解析:由题意,从105人中随机抽取1人,成绩优秀的概率为27,
所以成绩优秀的人数为105×27=30,非优秀的人数为105-30=75,
所以c=30-10=20,b=75-30=45,
则χ2=105×10×30−20×45230×75×50×55=33655≈6.109>3.841.
若按95%的可靠性要求,能认为”成绩与班级有关系”.
8.有两个分类变量X和Y,根据其中一组观测数据得到如下的2×2列联表:
其中a,15-a均为大于5的整数,则a= 时,在犯错误的概率不超过0.01的前提下认为”X和Y之间有关系”.
9 解析:由题意可知χ2≥6.635,
则65×a30+a−15−a20−a220×45×50×15=1313a−6025 400≥6.635.
又由a>5且15-a>5,a∈N,得5<a<10.
综上得a=9.
9.(能力创新)为了解不同年龄段居民的主要阅读方式,某校兴趣小组在全市随机调查了200名居民,经统计这200人中通过电子阅读与纸质阅读的人数之比为3∶1,将这200人按年龄分组,其中统计通过电子阅读的居民得到的频率分布直方图如图所示.
(1)求a的值及通过电子阅读的居民的平均年龄;(同一组中数据用该组区间的中点值作代表)
(2)把年龄在[15,45)的居民称为青年组,年龄在[45,65]的居民称为中老年组,若选出的200人中通过纸质阅读的中老年有30人,请完成下面2×2列联表,依据α=0.025的独立性检验,能否认为阅读方式与年龄有关联?
单位:人
解:(1)由题图可得,(0.01+0.015+a+0.03+0.01)×10=1,解得a=0.035.
各组的频率依次为0.1,0.15,0.35,0.3,0.1,
所以通过电子阅读的居民的平均年龄为20×0.1+30×0.15+40×0.35+50×0.3+60×0.1=41.5(岁).
所以a的值为0.035,通过电子阅读的居民的平均年龄为41.5岁.
(2)因为200人中通过电子阅读与纸质阅读的人数之比为3∶1,
所以通过电子阅读的有150人,通过纸质阅读的有50人.
因为年龄在[15,45)的居民称为青年组,年龄在[45,65]的居民称为中老年组,
所以电子阅读的青年有150×(0.1+0.15+0.35)=90(人),中老年有150×(0.3+0.1)=60(人).
补全列联表如下:
单位:人
零假设为H0:阅读方式与年龄无关.
根据表中数据,计算得χ2=200×90×30−60×202150×50×110×90≈6.061>5.024.
所以依据α=0.025的独立性检验,我们推断H0不成立,即认为阅读方式与年龄有关联.此推断犯错误的概率不大于0.025.
x
y
合计
y1
y2
x1
a
8
35
x2
11
34
45
合计
b
42
80
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
身体
辐射程度
合计
高度辐射
轻微辐射
健康
30
A
50
不健康
B
10
60
合计
C
D
E
X
Y
合计
y1
y2
x1
3
6
9
x2
m
8
m+8
合计
m+3
14
m+17
代表
态度
合计
乐观
不乐观
国内
60
40
100
国外
40
60
100
合计
100
100
200
公司
准点情况
准点班次
未准点班次
A
240
20
B
210
30
公司
准点情况
合计
准点班次
未准点班次
A
240
20
260
B
210
30
240
合计
450
50
500
准确率
数据集
合计
大型数据集
小型数据集
达标
30
不达标
合计
准确率
数据集
合计
大型数据集
小型数据集
达标
30
15
45
不达标
20
35
55
合计
50
50
100
年龄/岁
[20,30)
[30,40)
[40,50)
[50 ,60)
[60 ,70]
频数
24
16
15
25
20
支持
20
13
12
15
10
态度
年龄
合计
50岁以上
(含50岁)
50岁以下
支持
不支持
合计
态度
年龄
合计
50岁以上(含50岁)
50岁以下
支持
25
45
70
不支持
20
10
30
合计
45
55
100
体育锻炼
性别
合计
男
女
喜欢
a
b
73
不喜欢
c
25
合计
74
体育锻炼
性别
合计
男
女
喜欢
52
21
73
不喜欢
22
25
47
合计
74
46
120
X
Y
y1
y2
x1
10
m
x2
n
30
日落云里走
夜晚天气
下雨
未下雨
出现
25
5
未出现
25
45
优秀
非优秀
合计
甲班
10
b
乙班
c
30
X
Y
合计
y1
y2
x1
a
15-a
15
x2
20-a
30+a
50
合计
20
45
65
年龄分组
阅读方式
合计
电子阅读
纸质阅读
青年
中老年
合计
α
0.15
0.1
0.05
0.025
0.01
0.005
0.001
xα
2.072
2.706
3.841
5.024
6.635
7.879
10.828
年龄分组
阅读方式
合计
电子阅读
纸质阅读
青年
90
20
110
中老年
60
30
90
合计
150
50
200
数学选择性必修 第三册8.3 分类变量与列联表精品当堂达标检测题: 这是一份数学选择性必修 第三册<a href="/sx/tb_c4000365_t7/?tag_id=28" target="_blank">8.3 分类变量与列联表精品当堂达标检测题</a>,文件包含人教A版高中数学选择性必修三同步讲义第21讲83列联表与独立性检验831分类变量与列联表+832独立性检验原卷版doc、人教A版高中数学选择性必修三同步讲义第21讲83列联表与独立性检验831分类变量与列联表+832独立性检验教师版doc等2份试卷配套教学资源,其中试卷共64页, 欢迎下载使用。
2024年高考数学第一轮复习专题训练第九章 §9.4 列联表与独立性检验: 这是一份2024年高考数学第一轮复习专题训练第九章 §9.4 列联表与独立性检验,共6页。试卷主要包含了635)=0,003 7 D.2,706,841,879等内容,欢迎下载使用。
【同步讲义】(人教A版2019)高中数学选修第三册:8.3 列联表与独立性检验 讲义: 这是一份【同步讲义】(人教A版2019)高中数学选修第三册:8.3 列联表与独立性检验 讲义,文件包含同步讲义人教A版2019高中数学选修第三册83列联表与独立性检验原卷版docx、同步讲义人教A版2019高中数学选修第三册83列联表与独立性检验解析版docx等2份试卷配套教学资源,其中试卷共60页, 欢迎下载使用。