2025高考数学一轮复习-8.3.1-分类变量与列联表【课件】
展开1 |分类变量与列联表
1.分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这 类随机变量称为分类变量.分类变量的取值可以用实数表示.2.列联表假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为
第八章 成对数据的统计分析
2×2列联表给出了成对分类变量数据的交叉分类频数.3.两个分类变量之间关联关系的定性分析方法(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行 比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的 频数表来进行分析.(2)图形分析法:与表格相比,图形更能直观地反映两个分类变量间是否互相影响,常 用等高堆积条形图展示列联表数据的频率特征.
1.假定通过简单随机抽样得到了X和Y的抽样数据列联表,如表所示.
则χ2=① .2.利用χ2的取值推断分类变量X和Y是否② 独立 的方法称为χ2独立性检验,读作 “卡方独立性检验”,简称独立性检验.
3. χ2独立性检验中几个常用的小概率值和相应的临界值.
1.分类变量中的变量与函数中的变量是同一概念. ( ✕ )变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量,有时可 以把分类变量的不同取值用数字表示,但这时的数字除了分类以外没有其他含义, 而函数中的变量分为自变量与因变量,都是数的集合,有它们各自的意义.2.2×2列联表中的数据是两个分类变量的频数. ( √ )3.事件A和B的独立性检验无关,即两个事件互不影响. ( ✕ )4. χ2的大小是判断事件A和B是否相关的统计量. ( √ )5.若计算得χ2=7.197,则认为两个变量间有关系的出错概率不超过0.01. ( √ )6.在2×2列联表中,若|ad-bc|越小,则说明两个分类变量之间关系越强. ( ✕ )
判断正误,正确的画“ √” ,错误的画“ ✕” .
1 |由χ2进行独立性检验
“人机大战,柯洁哭了,机器赢了”,2017年5月27日,19岁的世界围棋第一人柯洁0∶ 3不敌人工智能系统AlphaG,落泪离席.许多人认为这场比赛是人类的胜利,也有许 多人持反对意见,有网友为此进行了调查.在参与调查的2 600名男性中,有1 560人 持反对意见,2 400名女性中,有1 118人持反对意见.
1.在运用这些数据判断“性别”与“人机大战是不是人类的胜利”的关系时,应采 用哪种统计方法?提示:判断“性别”与“人机大战是不是人类的胜利”这两个变量的关系,符合独 立性检验的基本思想.2.如何根据问题中的数据对分类变量作出分析?
提示:列出2×2列联表,计算χ2,将求得的χ2与临界值比较,即可得相应结论.
应用独立性检验解决实际问题大致应包括以下几个主要环节:(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释;(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;(3)根据检验规则得出推断结论;(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规 律.注意,上述几个环节的内容可以根据不同情况进行调整.例如,在有些时候,分类变量 的抽样数据列联表是问题中给定的.
手机给人们的生活带来便捷,但同时也对中学生的生活和学习造成了严重的影响, 某校高一几个学生成立研究性学习小组,就使用手机对学习成绩的影响随机抽取 了该校100名学生的期末考试成绩并制成如下的表格,则下列说法正确的是( )单位:人
A.在犯错误的概率不超过0.001的前提下认为使用手机与学习成绩有关B.在犯错误的概率不超过0.001的前提下认为使用手机与学习成绩无关C.有99.5%的把握认为使用手机对学习成绩没有影响D.没有99%的把握认为使用手机对学习成绩有影响解析 由题中表格得,χ2= ≈49.495>10.828=x0.001,所以在犯错误的概率不超过0.001的前提下认为使用手机与学习成绩有关.故选A.答案 A
2 |独立性检验与统计、概率的综合应用
通过频率分布直方图中的统计功能完善2×2列联表,从而对事件进行独立性检 验,准确读取频率分布直方图中的数据,进行分组统计是解题的关键.解决独立性检 验的问题要注意明确两类主体,明确研究的两类问题,再就是准确列出2×2列联表, 准确计算χ2.在写出2×2列联表中a,b,c,d的值时,注意一定要按顺序.
随着智能手机的普及,手机计步软件迅速流行开来,这类软件能自动记载每个人每 日健步走的步数,从而为科学健身提供一定的帮助.某市工会为了解该市市民每日 健步走的情况,从本市市民中随机抽取了2 000名(其中不超过40岁的市民恰好有1 0 00名),利用手机计步软件统计了他们某天健步走的步数(单位:千步),并将样本数据 分为[3,5),[5,7),[7,9),[9,11),[11,13),[13,15),[15,17),[17,19),[19,21]九组,将抽取的不超
过40岁的市民的样本数据绘制成频率分布直方图,将40岁以上的市民的样本数据 绘制成频数分布表,并利用该样本的频率分布估计总体的概率分布.
(1)现规定,日健步走步数不低于13 000步的为“健步达人”,填写下面列联表, 依据α=0.001的独立性检验,分析是不是“健步达人”是否与年龄有关;单位:人
(2)(i)利用样本平均数和中位数估计该市不超过40岁的市民日健步走步数(单 位:千步)的平均数和中位数;(ii)由频率分布直方图可以认为,不超过40岁的市民日健步走步数Z(单位:千步)近似 地服从正态分布N(μ,σ2),其中μ近似为样本平均数 (每组数据取区间的中点值),σ的值已求出约为3.64.现从该市不超过40岁的市民中随机抽取5人,记其中日健步走步 数Z位于[4.88,15.8]的人数为X,求X的数学期望.参考公式:χ2= ,其中n=a+b+c+d.参考数据:
若Z~N(μ,σ2),则P(μ-σ≤Z≤μ+σ)≈0.682 7,P(μ-2σ≤Z≤μ+2σ)≈0.954 5.
解析 (1)列联表为单位:人
零假设为H0:是不是“健步达人”与年龄无关.计算可得χ2= ≈28.986>10.828=x0.001,依据α=0.001的独立性检验,推断H0不成立,即认为是不是“健步达人”与年龄有关.(2)(i)样本平均数为 =4×0.04+6×0.06+8×0.10+10×0.10+12×0.30+14×0.20+16×0.10+18×0.08+20×0.02=12.16.由前4组的频率之和为0.04+0.06+0.10+0.10=0.30,前5组的频率之和为0.30+0.30=0. 6,知样本中位数落在第5组,设样本中位数为t,则(t-11)×0.15=0.5-0.3,所以t= .故可以估计该市不超过40岁的市民日健步走步数的平均数为12.16,中位数为 .(ii)[μ-2σ,μ+σ]=[4.88,15.8],而P(μ-2σ≤Z≤μ+σ)= P(μ-2σ≤Z≤μ+2σ)+ P(μ-σ≤Z≤μ+σ)≈0.818 6,
高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表优秀课件ppt: 这是一份高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表优秀课件ppt,共27页。PPT课件主要包含了复习导入,新知探索,课堂总结等内容,欢迎下载使用。
高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表优质ppt课件: 这是一份高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表优质ppt课件,共60页。
人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表教学ppt课件: 这是一份人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表教学ppt课件