高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表完美版ppt课件
展开1.了解随机变量χ2的意义,通过对典型案例分析,2.了解独立性检验的基本思想和方法.
山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:
问题 如何判定“喜欢体育还是文娱与性别是否有联系”?提示 可通过表格与图形进行直观分析,也可通过统计分析定量判断.
独立性检验的公式及临界值
假设H0表示玩电脑游戏与注意力集中没有关系(通常称H0为零假设);用事件A表示不玩电脑游戏,B表示注意力不集中.若H0成立↔ 事件A与B独立↔P(AB)=P(A)P(B) .
即(a+b+c+d)a=(a+b)(a+c).
∴ |ad-bc|越小,说明玩电脑游戏与注意力集中之间的关系越弱;|ad-bc|越大,说明玩电脑游戏与注意力集中之间的关系越强.
为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作卡方独立性检验,简称独立性检验.
若H0成立,即玩电脑游戏与注意力集中没有关系,则χ2应该很小;若H0不成立,即玩电脑游戏与注意力集中有关系,则χ2应该很大.那么,究竟χ2大到什么程度,可以推断H0不成立呢?
统计学家们根据统计数据得到了如下的χ2临界值表:
例如,对于一个小概率值α=0.05,有如下的具体检验规则: (1)当χ2x0.05=3.841时,我们推断H0不成立,即认为X与Y不独立,该推断犯错误的概率不超过0.05; (2)当χ2˂x0.05=3.841时,我们没有充分证据推断H0不成立,可以认为X与Y独立.
依据小概率值0.001的卡方独立性检验,分析本节开头情境问题数据,能否据此推断玩电脑游戏与注意力集中之间有关系?
因此,可以推断玩电脑游戏与注意力集中之间有关系,该推断犯错误的概率不超过0.1%.
零假设为H0: 分类变量X与Y相互独立,即两校学生的数学成绩优秀率无差异. 根据表中的数据,计算得到
例2 依据小概率值α=0.1的χ2 独立性检验,分析例1中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异?
根据小概率值α=0.1的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两校的数学成绩优秀率没有差异.
解决独立性检验问题的基本步骤
思考 例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗?
事实上,如前所述,例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以例1的推断依据不太充分,在例2中,我们用χ2独立性检验对零假设H0进行了检验. 通过计算,发现χ2 ≈0.837小于α=0.1所对应的临界值2.706,因此认为没有充分证据推断H0不成立,所以接受H0 ,推断出两校学生的数学成绩优秀率没有显著差异的结论. 这个检验结果意味着,抽样数据中两个频率的差异很有可能是由样本随机性导致的. 因此,只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.由此可见,相对于简单比较两个频率的推断,用χ2独立性检验得到的结果更理性、更全面,理论依据也更充分.
零假设为H0: 疗法与疗效独立,即两种疗法效果没有差异. 由已知数据列出列联表.
例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良. 采用有放回简单随机抽样的方法对治疗情况进行检查,得到了如下数据: 抽到接受甲种疗法的患儿67名,其中未治愈15名,治愈52名; 抽到接受乙种疗法的患儿69名,其中未治愈6名,治愈63名. 试根据小概率值α=0.005的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
根据小概率值α=0.005的χ2独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为两种疗法效果没有差异.
对犯错误概率的解释在零假设H0成立的前提下,随着小概率值α的逐渐减小, χ2统计量对应的临界值xα逐渐增大,则事件{χ2 ≥xα}越来越不容易发生,零假设越来越不容易被拒绝;随着小概率值α的逐渐增大, χ2统计量对应的临界值xα逐渐减小,则事件{χ2 ≥xα}越来越容易发生,零假设越来越容易被拒绝.例如,对于例3中的数据,经计算得χ2 ≈4.881.(1) 当小概率值α=0.005时,x0.005=7.879, 此时χ2 ≈4.881<7.879,则没有充分理由拒绝零假设. 因此可以接受H0,即认为两种疗法的效果没有差异.(2)当小概率值α=0.05时,x0.05=3.841,此时χ2 ≈4.881>3.841,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05.(3)当小概率值α=0.1时,x0.05=2.706, 此时χ2 ≈4.881>2.706,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.1.
观察 在例3的2×2列联表中,若对调两种疗法的位置或对调两种疗效的位置,则卡方计算公式中a, b, c, d的赋值都会相应地改变. 这样做会影响χ2取值的计算结果吗?
这说明,对调两种疗法的位置,不会影响χ2取值的计算结果,同理对调两种疗效的位置也不会影响结果.
零假设为H0: 吸烟与患肺癌之间无关联,由表中数据可得
例4 为研究吸烟是否与肺癌有关,某肿瘤研究所采取有放回简单随机抽样的方法,调查了9965人,得到成对样本观测数据的分类统计结果,如下表所示. 依据小概率值α=0.001的独立性检验,分析吸烟是否会增加患肺癌的风险.
根据小概率值α=0.001的χ2独立性检验,推断H0不成立,即认为吸烟与患肺癌有关联,此推断犯错误的概率不大于0.001.
根据列联表中的数据计算,不吸烟者中不患肺癌和患肺癌的频率分别为
吸烟者中不患肺癌和患肺癌的频率分别为
因此可以推断乙种疗法的效果比甲种疗法好.
在被调查者中,吸烟者患肺癌的频率是不吸烟者患肺癌的频率的4倍以上,于是,根据频率稳定于概率的原理,我们可以认为吸烟者患肺癌的概率明显大于不吸烟者患肺癌的概率,即吸烟更容易引发肺癌.
应用独立性检验解决实际问题大致应包括以下几个主要环节: (1) 提出零假设H0: X和Y相互独立,并给出在问题中的解释. (2) 根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较. (3) 根据检验规则得出推断结论. (4) 在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律. 注意,上述几个环节的内容可以根据不同情况进行调整. 例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.
思考 独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗?
简单地说,反证法是在某种假设H0之下,推出一个矛盾结论,从而证明H0不成立;而独立性检验是在零假设H0之下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不大于这个小概率. 另外,在全部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误.独立性检验的本质是比较观测值与期望值之间的差异,由χ2所代表的这种差异的大小是通过确定适当的小概率值进行判断的. 这是一种非常重要的推断方法,不仅有相当广泛的应用,也开启了人类认识世界的一种新的思维方式.
1. 对于例3中的抽样数据,采用小概率值α=0.05的独立性检验,分析乙种疗法的效果是否比甲种疗法好.
根据题意,可得
根据小概率值α=0.05的χ2独立性检验,推断H0不成立,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05.
甲种疗法未治愈和治愈的频率分别是
乙种疗法未治愈和治愈的频率分别是
2. 根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,是否会得出不同的结论? 为什么?
解:可能会得出不同的结论. 理由如下: 对同一抽样数据,计算出来的χ2的值是确定的,在独立性检验中,基于不同的小概率值α的检验规则,对应不同的临界值x0,其与χ2的大小关系可能不同,相当于检验的标准发生变化,因此结论可能会不同.
3. 为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有放回简单随机样本的数据,得到如下列联表:
依据α=0.05的独立性检验,分析药物A对预防疾病B的有效性.
零假设为H0: 药物A与预防疾病B无关联,即药物A对预防疾病B没有效果,根据列联表中数据,经计算得到
根据小概率值α=0.05的χ2独立性检验,没有充分证据推断H0不成立,即可以认为药物A对预防疾病B没有效果.
4. 从某学校获取了容量为400的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下:
依据α=0.05的独立性检验,能否认为数学成绩与语文成绩有关联?
零假设为H0: 数学成绩与语文成绩独立,即数学成绩与语文成绩没有关联,根据列联表中数据,经计算得到
根据小概率值α=0.05的χ2独立性检验,我们可以推断H0不成立,即认为数学成绩与语文成绩有关联,该推断犯错误的概率不超过0.05.
数学成绩不优秀的人中语文成绩不优秀和优秀的频率分别为
数学成绩优秀的人中语文成绩不优秀和优秀的频率分别为
由此可以看出,数学成绩优秀的人中语文成绩优秀的频率明显高于数学成绩不优秀的人中语文成绩优秀的频率. 根据频率稳定于概率的原理,我们可以推断,数学成绩优秀的人其语文成绩优秀的概率较大.
1.对两个分类变量A,B的下列说法中正确的个数为( )①A与B无关,即A与B互不影响;②A与B关系越密切,则χ2的值就越大;③χ2的大小是判定A与B是否相关的唯一依据A.0 B.1 C.2 D.3解析 ①正确,A与B无关即A与B相互独立;②不正确,χ2的值的大小只是用来检验A与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.答案 B
2.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:
则χ2的观测值约为( )A.0.600 B.0.828C.2.712 D.6.004
3.考察棉花种子经过处理跟生病之间的关系得到下表数据:
根据以上数据,可得出( )A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的
4.(多选题)对于分类变量X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越小
解析 χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,χ2越小,“X与Y有关系”的可信程度越小.答案 BD
5.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得的数据.
(1)计算a,b,c的值;(2)文科学生总成绩不好与数学成绩不好有关系吗?
解 (1)由478+a=490,得a=12.由a+24=c,得c=12+24=36.b=478+399=877.(2)零假设为H0:文科学生总成绩不好与数学成绩不好没有关系.计算得
根据小概率值α=0.05的χ2独立性检验,我们推断H0不成立,即认为文科学生总成绩不好与数学成绩不好有关系,此推断犯错误的概率不大于0.05.
1.(2021·河南省南阳市期中)为了检验两种不同的课堂教学模式对学生的成绩是否有影响,现从高二年级的甲(实行“问题—探究式”模式)、乙(实行“自学—指导式”模式)两个班中每班任意抽取20名学生进行测试,他们的成绩(总分150分)如下.甲班:88 92 95 98 103 108 110 112 118 118 120 121 126 132 134 135 140 142 146 148乙班:96 97 104 107 108 108 114 117 119 121 124 124 125 127 132 135 135 137 138 147记成绩在120分以上(包括120分)为优秀,其他的成绩为一般,试根据小概率值α=0.1的独立性检验,分析这两种课堂教学模式对学生的成绩是否有影响.
解:零假设为H0:课堂教学模式与学生的成绩相互独立.根据题中所给数据得到如下2×2列联表:
没有充分证据推断H0不成立,因此可以认为H0成立,即认为这两种课堂教学模式对学生的成绩没有影响.
2.(2022•江西二模)第24届北京冬季奥林匹克运动会于2022年2月4日至2月20日在北京和张家口联合举办.这是中国历史上第一次举办冬季奥运会,它掀起了中国人民参与冬季运动的大热潮.某中学共有学生1200名,其中男生640名,女生560名,按性别分层抽样,从中抽取60名学生进行调查,了解他们是否参与过滑雪运动.情况如下:
(Ⅰ)若x10,y10,求参与调查的女生中,参与过滑雪运动的女生比未参与过滑雪运动的女生多的概率.(Ⅱ)若参与调查的女生中,参与过滑雪运动的女生比未参与过滑雪运动的女生少8人,试根据以上2×2列联表,判断是否有95%的把握认为“该校学生是否参与过滑雪运动与性别有关”.
x+y=28,x10,y10,
(x,y)的取值结果有(10,18),(11,17),(12,16),(13,15),(14,14),(15,13),(16,12),(17,11),(18,10)9种.其中x˃y的有4种,
所以参与过滑雪运动的女生比未参与过滑雪运动的女生多的概率
参与调查的60名学生中,女生人数为28人,男生人数为32人,则m=32-20=12,
故有95%的把握认为“该校学生是否参与过滑雪运动与性别有关”.
3.(2022•辽宁模拟)共享单车是指企业与政府合作,在校园、地铁站点、公交站点、居民区、商业区、公共服务区等提供自行车单车共享服务,是共享经济的一种新形态.为了研究广大市民在共享单车上的使用情况,某公司在我市随机抽取了200名用户进行调查,得到如下数据:
(1)如果认为每周使用超过3次的用户为“喜欢骑行共享单车”,请完成2×2列联表;
(2)判断能否有97.5%的把握认为是否“喜欢骑行共享单车”与性别有关?
得到如下2×2列联表:
所以有97.5%的把握认为是否“喜欢骑行共享单车”与性别有关.
1. 小概率值α的临界值:忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2 ≥xα)=α成立. 我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准,概率值α越小,临界值xα越大.
3. 基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2
高中数学人教A版 (2019)选择性必修 第三册7.5 正态分布优质课课件ppt: 这是一份高中数学人教A版 (2019)选择性必修 第三册<a href="/sx/tb_c4000360_t3/?tag_id=26" target="_blank">7.5 正态分布优质课课件ppt</a>,文件包含75《正态分布》课件-人教版高中数学选修三pptx、75《正态分布》分层作业原卷版-人教版高中数学选修三docx、75《正态分布》分层作业解析版-人教版高中数学选修三docx等3份课件配套教学资源,其中PPT共27页, 欢迎下载使用。
高中数学人教A版 (2019)选择性必修 第三册7.1 条件概率与全概率公式完整版ppt课件: 这是一份高中数学人教A版 (2019)选择性必修 第三册<a href="/sx/tb_c4000356_t3/?tag_id=26" target="_blank">7.1 条件概率与全概率公式完整版ppt课件</a>,文件包含711《条件概率》课件-人教版高中数学选修三pptx、711《条件概率》分层作业原卷版-人教版高中数学选修三docx、711《条件概率》分层作业解析版-人教版高中数学选修三docx等3份课件配套教学资源,其中PPT共25页, 欢迎下载使用。
数学选择性必修 第三册第六章 计数原理6.2 排列与组合完整版课件ppt: 这是一份数学选择性必修 第三册<a href="/sx/tb_c4000352_t3/?tag_id=26" target="_blank">第六章 计数原理6.2 排列与组合完整版课件ppt</a>,文件包含624《组合数》课件-人教版高中数学选修三pptx、624《组合数》分层作业原卷版-人教版高中数学选修三docx、624《组合数》分层作业解析版-人教版高中数学选修三docx等3份课件配套教学资源,其中PPT共25页, 欢迎下载使用。