备战2024年高考数学大一轮复习(人教A版-理)第十一章 §11.5 列联表与独立性检验
展开§11.5 列联表与独立性检验
考试要求 1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解独立性检验及其应用.
知识梳理
1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2.列联表:列出的两个分类变量的频数表,称为列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
3.独立性检验:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
思考辨析
判断下列结论是否正确(请在括号中打“√”或“×”)
(1)2×2列联表中的数据是两个分类变量的频数.( √ )
(2)两个分类变量的独立性检验无关,即两个分类变量互不影响.( × )
(3)K2的大小是判断两个分类变量是否相关的统计量.( √ )
(4)在2×2列联表中,若|ad-bc|越小,则说明两个分类变量之间的关系越强.( × )
教材改编题
1.某机构为调查网游爱好者是否有性别差异,通过调研数据统计:在500名男生中有200名爱玩网游,在400名女生中有50名爱玩网游.若要确定网游爱好是否与性别有关时,下列最适合的统计方法是( )
A.均值 B.方差
C.独立性检验 D.回归分析
答案 C
解析 由题意可知,“爱玩网游”与“性别”是两类变量,其是否有关,应用独立性检验判断.
2.如表是2×2列联表,则表中a,b的值分别为( )
y1
y2
总计
x1
a
8
35
x2
11
34
45
总计
b
42
80
A.27,38 B.28,38
C.27,37 D.28,37
答案 A
解析 a=35-8=27,b=a+11=27+11=38.
3.已知P(K2≥6.635)=0.01,P(K2≥10.828)=0.001.在检验喜欢某项体育运动是否与性别有关的过程中,某研究员搜集数据并计算得到K2=7.235,则有________的把握认为喜欢该项体育运动与性别有关.
答案 99%
解析 因为6.635<7.235<10.828,所以根据独立性检验,有99%的把握认为喜欢该项体育运动与性别有关.
题型一 列联表与K2的计算
例1 (1)为了解某大学的学生是否喜欢体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:
男生
女生
总计
喜欢
a
b
73
不喜欢
c
25
总计
74
则a-b-c等于( )
A.7 B.8 C.9 D.10
答案 C
解析 根据题意,可得c=120-73-25=22,a=74-22=52,b=73-52=21,
补充完整2×2列联表为:
男生
女生
总计
喜欢
52
21
73
不喜欢
22
25
47
总计
74
46
120
则a-b-c=52-21-22=9.
(2)为加强素质教育,使学生各方面全面发展,某学校对学生文化课与体育课的成绩进行了调查统计,结果如表:
体育课不及格
体育课及格
总计
文化课及格
57
221
278
文化课不及格
16
43
59
总计
73
264
337
在对体育课成绩与文化课成绩进行独立性检验时,根据以上数据可得到K2的值约等于( )
A.1.255 B.38.214
C.0.003 7 D.2.058
答案 A
解析 K2=
=≈1.255.
思维升华 2×2列联表是4行4列,计算时要准确无误,关键是对涉及的变量分清类别.
跟踪训练1 某次国际会议为了搞好对外宣传工作,会务组选聘了50名记者担任对外翻译工作,在如表“性别与会外语”的2×2列联表中,a+b+d=________.
会外语
不会外语
总计
男
a
b
20
女
6
d
总计
18
50
答案 44
解析 由题意得a+b+d+6=50,
所以a+b+d=50-6=44.
题型二 列联表与独立性检验
例2 (12分)(2022·全国甲卷)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数
未准点班次数
A
240
20
B
210
30
(1)根据上表,分别估计这两家公司在甲、乙两城之间长途客车准点的概率;[切入点:古典概型]
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?[关键点:K2的计算比较]
附:K2=,n=a+b+c+d.
P(K2≥k0)
0.1
0.05
0.01
k0
2.706
3.841
6.635
思维升华 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)计算K2=,其中n=a+b+c+d.
(3)比较K2与临界值的大小关系,作统计推断.
跟踪训练2 为了减少自身消费的碳排放,“绿色消费”等绿色生活方式渐成风尚.为获得不同年龄段的人对“绿色消费”意义的认知情况,某地研究机构将“90后与00后”作为A组,将“70后与80后”作为B组,并从A,B两组中各随机选取了100人进行问卷调查,整理数据后获得如下列联表:
单位:人
知晓
不知晓
总计
A组
75
25
100
B组
45
55
100
总计
120
80
200
附:K2=,n=a+b+c+d.
P(K2≥k0)
0.1
0.05
0.01
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
(1)若从样本内知晓“绿色消费”意义的120人中用分层抽样的方法随机抽取16人,应在A组、B组中各抽取多少人?
(2)能否有99.9%的把握认为对“绿色消费”意义的认知情况与年龄有关?
解 (1)由题意知,在A组中抽取的人数为16×=10,在B组中抽取的人数为16×=6.
(2)由题意,得K2==18.75>10.828,根据临界值表可知,有99.9%的把握认为对“绿色消费”意义的认知情况与年龄有关.
题型三 独立性检验的综合应用
例3 体育运动是强身健体的重要途径,《中国儿童青少年体育健康促进行动方案(2020-2030)》(下面简称“体育健康促进行动方案”)中明确提出青少年学生每天在校内参与不少于60分钟的中高强度身体活动的要求.随着“体育健康促进行动方案”的发布,体育运动受到各地中小学的高度重视,众多青少年的体质健康得到很大的改善.某中学教师为了了解体育运动对学生的数学成绩的影响情况,现从该中学高三年级的一次月考中随机抽取1 000名学生,调查他们平均每天的体育运动情况以及本次月考的数学成绩(单位:分)情况,得到如表数据:
数学
成绩
[30,50)
[50,70)
[70,90)
[90,110)
[110,130)
[130,150]
人数
25
125
350
300
150
50
运动达标人数
10
45
145
200
107
43
约定:平均每天进行体育运动的时间不少于60分钟的为“运动达标”,数学成绩排在年级前50%以内(含50%)的为“数学成绩达标”.
(1)请估计该中学高三年级本次月考数学成绩的平均分(同一组中的数据用该组区间的中点值作代表);
(2)完成2×2列联表,并判断能否有99.9%的把握认为“数学成绩达标”与“运动达标”有关.
单位:人
数学成绩达标
数学成绩不达标
总计
运动达标
运动不达标
总计
附:K2=,n=a+b+c+d.
P(K2≥k0)
0.010
0.005
0.001
k0
6.635
7.879
10.828
解 (1)该中学高三年级本次月考数学成绩的平均分=×(25×40+125×60+350×80+300×100+150×120+50×140)=91.5,
所以估计该中学高三年级本次月考数学成绩的平均分为91.5分.
(2)列联表如表所示:
单位:人
数学成绩达标
数学成绩不达标
总计
运动达标
350
200
550
运动不达标
150
300
450
总计
500
500
1 000
K2==≈90.9>10.828,
∴根据临界值表可知有99.9%的把握认为“数学成绩达标”与“运动达标”有关.
思维升华 独立性检验的考查,往往与概率和抽样统计图等一起考查,这类问题的求解往往按各小题及提问的顺序,一步步进行下去,是比较容易解答的,考查单纯的独立性检验往往用小题的形式,而且K2的公式一般会在原题中给出.
跟踪训练3 某奶茶品牌公司计划在W市某区开设加盟分店,为了确定在该区开设分店的个数,该公司对该市已开设分店的5个区域的数据作了初步处理后得到下列表格,记x表示在5个区域开设分店的个数,y表示这x个分店的年收入之和.
x(个)
2
3
4
5
6
y(十万元)
2.5
3
4
4.5
6
参考公式:=,=-;
K2=,n=a+b+c+d.
临界值表:
P(K2≥k0)
0.1
0.05
0.01
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
(1)该公司经过初步判断,可用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;
(2)如果该公司最终决定在该区选择两个合适的地段各开设一个分店,根据市场调查得到如下统计数据,分店一每天的顾客平均为30人,其中5人会购买该品牌奶茶,分店二每天的顾客平均为80人,其中20人会购买该品牌奶茶.根据列联表判断是否有90%的把握认为顾客下单与分店所在地段有关.
解 (1)由题意可得,==4,
==4,
iyi=2×2.5+3×3+4×4+5×4.5+6×6=88.5,
=22+32+42+52+62=90,
设y关于x的线性回归方程为=x+,
则===0.85,
=-=4-0.85×4=0.6,
∴y关于x的线性回归方程为=0.85x+0.6.
(2)由题意可知2×2列联表如表所示:
不下单
下单
总计
分店一
25
5
30
分店二
60
20
80
总计
85
25
110
∴K2==≈0.863<2.706,
∴根据临界值表可知没有90%的把握认为顾客下单与分店所在地段有关.
课时精练
1.观察下列各图,其中两个分类变量x,y之间关系最强的是( )
答案 D
解析 观察等高条形图易知D选项两个分类变量之间关系最强.
2.下列关于独立性检验的说法正确的是( )
A.独立性检验是对两个分类变量是否具有线性相关关系的一种检验
B.独立性检验可以100%确定两个分类变量之间是否具有某种关系
C.利用K2独立性检验推断吸烟与患肺病的关联中,若有99%的把握认为吸烟与患肺病有关时,我们就可以说在100个吸烟的人中,有99人患肺病
D.对于独立性检验,随机变量K2的值越小,判定“两变量有关系”时犯错误的概率越大
答案 D
解析 对于A,独立性检验是通过计算K2来判断两个分类变量是否存在关联的可能性的一种方法,
并非检验二者是否是线性相关,故错误;
对于B,独立性检验并不能100%确定两个分类变量之间是否具有某种关系,故错误;
对于C,99%是指“抽烟”和“患肺病”存在关联的可能性,并非抽烟的人中患肺病的发病率,故错误;
对于D,根据K2计算的定义可知该选项正确.
3.某地政府调查育龄妇女生育意愿与家庭年收入高低的关系时,随机调查了当地3 000名育龄妇女,用独立性检验的方法处理数据,并计算得K2=7.326,则根据这一数据以及参考数据,判断育龄妇女生育意愿与家庭年收入高低有关系的可信度( )
(参考数据:P(K2≥10.828)≈0.001,P(K2≥7.879)≈0.005,P(K2≥6.635)≈0.01,P(K2≥3.841)≈0.05,P(K2≥2.706)≈0.1)
A.低于1% B.低于0.5%
C.高于99% D.高于99.5%
答案 C
解析 由于K2=7.326∈(6.635,7.879),
而P(K2≥7.879)≈0.005,P(K2≥6.635)≈0.01,所以可信度高于99%.
4.根据分类变量x与y的观察数据,计算得到K2=2.974.依据下面给出的临界值表,
P(K2
≥k0)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
可知下列判断中正确的是( )
A.有95%以上的把握认为变量x与y没有关系
B.有95%以上的把握认为变量x与y有关系
C.变量x与y没有关系,这个推断犯错误的概率不超过0.1
D.变量x与y有关系,这个推断犯错误的概率不超过0.1
答案 D
解析 因为K2=2.974>2.706,且2.974<3.841,
所以依据独立性检验知,变量x与y有关系,这个推断犯错误的概率不超过0.1.
5.2022年卡塔尔世界杯于11月21日拉开帷幕.某同学通过随机调查某小区100位居民是否观看世界杯比赛,得到以下列联表:
观看世界杯
不观看世界杯
总计
男
40
20
60
女
15
25
40
总计
55
45
100
经计算K2≈8.249.
附表:
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
参照附表,下列结论正确的是( )
A.有99.9%的把握认为“该小区居民是否观看世界杯与性别有关”
B.有99.9%的把握认为“该小区居民是否观看世界杯与性别无关”
C.在犯错误的概率不超过0.005的前提下,认为“该小区居民是否观看世界杯与性别有关”
D.在犯错误的概率不超过0.001的前提下,认为“该小区居民是否观看世界杯与性别无关”
答案 C
解析 由题意得,K2≈8.249>7.879,参照附表,可得在犯错误的概率不超过0.005的前提下,认为“该小区居民是否观看世界杯与性别有关”.
6.为考查某种营养品对儿童身高增长的影响,选取部分儿童进行试验,根据100个有放回简单随机样本的数据,得到如下列联表,由表可知,下列说法正确的是( )
有明显增长
无明显增长
总计
食用
a
10
50
未食用
b
30
50
总计
60
40
100
参考公式:K2=,其中n=a+b+c+d.
参考数据:
P(K2≥k0)
0.1
0.05
0.01
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
A.a=b=30
B.K2≈12.667
C.从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是
D.根据独立性检验,有99.9%的把握认为该营养品对儿童身高增长有影响
答案 D
解析 由题可知a=50-10=40,b=50-30=20,所以A错误;
K2=≈16.667>10.828,
所以根据独立性检验,有99.9%的把握认为该营养品对儿童身高增长有影响,所以B错误,D正确;从样本中随机抽取1名儿童,抽到食用该营养品且身高有明显增长的儿童的概率是=,所以C错误.
7.如表是对于“喜欢运动与性别是否有关”的2×2列联表,依据表中的数据,得到K2≈________(结果保留到小数点后3位).
喜欢运动
不喜欢运动
总计
男
40
28
68
女
5
12
17
总计
45
40
85
答案 4.722
解析 K2=≈4.722.
8.一项研究同年龄段的男、女生的注意力差别的脑功能实验,其实验数据如表所示:
注意力稳定
注意力不稳定
男生
29
7
女生
33
5
则K2≈________(精确到小数点后三位),依据独立性检验________95%的把握认为注意力的稳定性与性别有关.(选填“有”或“没有”)
参考数据:
P(K2≥k0)
0.1
0.05
0.01
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
答案 0.538 没有
解析 由表中数据可知a=29,b=7,c=33,d=5,n=a+b+c+d=74,
根据K2=,
计算可知
K2=
≈0.538<3.841,
所以没有95%的把握认为注意力的稳定性与性别有关.
9.(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品
二级品
总计
甲机床
150
50
200
乙机床
120
80
200
总计
270
130
400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:K2=,n=a+b+c+d.
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解 (1)根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床生产的产品中一级品的频率是=0.6.
(2)根据题表中的数据可得
K2==≈10.256.
因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
10.某花圃为提高某品种花苗质量,开展技术创新活动,某研究所在实验地分别用甲、乙方法培育该品种花苗.为观测其生长情况,分别在实验地随机抽取花苗各50株,对每株进行综合评分,将每株所得的综合评分制成如图所示的频率分布直方图.记综合评分为80 及以上的花苗为优质花苗.
(1)求图中a的值,并求综合评分的中位数;
(2)填写下面的2×2列联表,并根据独立性检验,判断能否有99.9%的把握认为优质花苗与培育方法有关,请说明理由.
优质花苗
非优质花苗
总计
甲培育法
20
乙培育法
10
总计
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.1
0.05
0.01
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
解 (1)由频率分布直方图的性质可知,0.005×10+0.010×10+0.025×10+10a+0.020×10=1,
解得a=0.040,
因为(0.005+0.010+0.025)×10=0.4<0.5,
0.4+0.040×10=0.8>0.5,
所以中位数位于[80,90)内,
设中位数为x,则有0.4+0.040×(x-80)=0.5,解得x=82.5.
故综合评分的中位数为82.5.
(2)由(1)得优质花苗的频率为0.6,
所以样本中优质花苗的数量为60,
2×2列联表如下:
优质花苗
非优质花苗
总计
甲培育法
20
30
50
乙培育法
40
10
50
总计
60
40
100
K2=≈16.667>10.828,
所以根据独立性检验,有99.9%的把握认为优质花苗与培育方法有关.
11.某中学共有1 000人,其中男生700人,女生300人,为了了解该校学生每周平均体育锻炼时间的情况以及经常进行体育锻炼的学生是否与性别有关(经常进行体育锻炼是指:每周平均体育锻炼时间不少于4小时),现在用分层抽样的方法从中收集200位学生每周平均体育锻炼时间的样本数据(单位:小时),其频率分布直方图如图所示.已知在样本中,有40位女生每周平均体育锻炼的时间超过4小时,根据独立性检验原理,下列说法正确的是( )
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.10
0.05
0.01
0.005
k0
2.706
3.841
6.635
7.879
A.有95%的把握认为“该校学生每周平均体育锻炼时间与性别无关”
B.有90%的把握认为“该校学生每周平均体育锻炼时间与性别有关”
C.有90%的把握认为“该校学生每周平均体育锻炼时间与性别无关”
D.有95%的把握认为“该校学生每周平均体育锻炼时间与性别有关”
答案 B
解析 由频率分布直方图可知, 每周平均体育锻炼时间不少于4小时的频率为2×(0.15+0.125+0.075+0.025)=0.75,故经常进行体育锻炼的学生有200×0.75=150(人).又其中有40位女生每周平均体育锻炼的时间超过4小时,故有150-40=110(位)男生经常锻炼.根据分层抽样的方法可知,样本中男生的人数为×200=140,女生的人数为×200=60.列出2×2列联表有:
男生
女生
总计
经常锻炼
110
40
150
不经常锻炼
30
20
50
总计
140
60
200
故K2=≈3.17,
因为2.706<3.17<3.841.故有90%的把握认为“该校学生每周平均体育锻炼时间与性别有关”.
12.北京冬奥会的举办掀起了一阵冰雪运动的热潮.某高校在本校学生中对“喜欢滑冰是否与性别有关”做了一次调查,参与调查的学生中,男生人数是女生人数的3倍,有的男生喜欢滑冰,有的女生喜欢滑冰.若根据独立性检验的方法,有95%的把握认为喜欢滑冰和性别有关,则参与调查的男生人数可能为( )
参考公式:K2=,其中n=a+b+c+d.
参考数据:
P(K2≥k0)
0.10
0.05
0.025
0.010
k0
2.706
3.841
5.024
6.635
A.12 B.18 C.36 D.48
答案 C
解析 设男生人数为3x,则女生人数为x,且x∈N*,可得列联表如下:
男生
女生
总计
喜欢滑冰
2x
不喜欢滑冰
x
总计
3x
x
4x
所以K2==,
因为有95%的把握认为喜欢滑冰和性别有关,
所以∈[3.841,5.024),x∈N*,
解得11
13.近年来,由于大学生不理智消费导致财务问题的新闻层出不穷,一时间人们对大学生的消费观充满了质疑.为进一步了解大学生的消费情况,对S城某大学的10 000名(其中男生6 000名,女生4 000名)在校本科生按性别采用分层抽样的方式抽取的1 000名学生进行了问卷调查,其中有一项是针对大学生每月的消费金额进行调查统计.通过整理得到如图所示的频率分布直方图.已知在抽取的学生中,月消费金额超过2 000元的女生有150人,根据上述数据和频率分布直方图,判断下列说法正确的是( )
参考数据与参考公式:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
K2=,其中n=a+b+c+d.
A.月消费金额超过2 000元的女生人数少于男生人数
B.所调查的同学中月消费金额不超过500元的共有4人
C.样本数据的中位数约为1 750元
D.在犯错误的概率不超过0.001的前提下,认为大学生月消费金额在2 000元以上与性别有关
答案 D
解析 由频率分布直方图知,(0.004+0.013+0.014+a+0.027+0.039+0.08)×5=1,
解得a=0.023,
故月消费金额超过2 000元的大学生人数为(0.023+0.014+0.013)×5×1 000=250,
由分层抽样知,男生、女生抽样的人数分别为600和400,
由题知,月消费金额超过2 000元的男生人数为100,少于女生人数,故A错误;
月消费金额不超过500元的人数为0.004×5×1 000=20,故B错误;
又由频率分布直方图知,消费金额小于1 750元的频率为(0.004+0.027+0.039)×5+0.08×5×=0.55>0.5.故C错误;
由条件可以列出列联表:
男生
女生
总计
消费金额不超过2 000元
500
250
750
消费金额超过2 000元
100
150
250
总计
600
400
1 000
故K2==>10.828,
所以在犯错误的概率不超过0.001的前提下,认为大学生月消费金额在2 000元以上与性别有关.
14.为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:
未患病
患病
总计
服用药物
a
50-a
50
未服用药物
80-a
a-30
50
总计
80
20
100
若在本次考察中得出“在犯错误的概率不超过0.01的前提下认为药物有效”的结论,则a的最小值为________.(其中a≥40且a∈N*)(参考数据:≈2.58)
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.1
0.05
0.01
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
答案 46
解析 由题意可得
K2=≥6.635,
整理得(100a-4 000)2≥502×42×6.635,
所以100a-4 000≥200×≈200×2.58=516或100a-4 000≤-200×≈-200×2.58=-516,解得a≥45.16或a≤34.84,又因为a≥40且a∈N*,所以a≥46,所以a的最小值为46.
2024年数学高考大一轮复习第十一章 §11.5 列联表与独立性检验: 这是一份2024年数学高考大一轮复习第十一章 §11.5 列联表与独立性检验,共7页。
2024年数学高考大一轮复习第十章 §10.5 列联表与独立性检验(附答单独案解析): 这是一份2024年数学高考大一轮复习第十章 §10.5 列联表与独立性检验(附答单独案解析),共7页。
2024年数学高考大一轮复习第十章 §10.5 列联表与独立性检验(附答单独案解析): 这是一份2024年数学高考大一轮复习第十章 §10.5 列联表与独立性检验(附答单独案解析),共8页。试卷主要包含了635)=0,003 7 D.2,706,841,879等内容,欢迎下载使用。