










高中数学人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表图文ppt课件
展开1.了解随机变量χ2的意义,通过对典型案例分析。2.了解独立性检验的基本思想和方法。
前面我们通过2×2列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联. 对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大.因此,需要找到一种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算.
根据我们通过简单随机抽样得到了X和Y的抽样数据列联表,如表8.3-3所示.
对于随机样本,表8.3-3中的频数a,b,c,d都是随机变量,而表8.3-2中的响应数据是这些随机变量的一次观测结果.
思考:如何基于②中的四个等式及列联表8.3-3中的数据,构造适当的统计量,对成对的分类变量X和Y是否相互独立作出推断?
显然,分别考虑③中的四个差的绝对值很困难.我们需要找到一个既合理又能够计算分布的统计量,来推断是否成立.一般来说,若频数的期望值较大,则③中相应的差的绝对值也会较大;而若频数的期望值较小,则③中相应的差的绝对值也会较小.为了合理地平衡这种影响,我们将四个差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量:
思考:例1和例2都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗?
事实上,如前所述,例1只是根据一个样本的两个频率间存在差异得出两校学生数学成绩优秀率有差异的结论,并没有考虑由样本随机性可能导致的错误,所以那里的推断依据不太充分.
解:零假设为H0:疗法与疗效独立,即两种疗法效果没有差异.
将所给数据进行整理,得到两种疗法治疗数据的列联表,如表8.3-5所示. 表8.3-5 单位:人
表8.3-6 单位:人
解:零假设为H0:吸烟与患肺癌之间无关联.
总结上面的例子,应用独立性检验解决实际问题大致应包括以下几个主要环节:
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释.
(3)根据检验规则得出推断结论.
(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.
注意,上述几个环节的内容可以根据不同情况进行调整例如,在有些时候,分类变量的抽样数据列联表是问题中给定的.
思考:独立性检验的思想类似于我们常用的反证法,你能指出二者之间的相同和不同之处吗?
简单地说,反证法是在某种假设H0之下,推出一个矛盾结论,从而证明H0不成立;而独立性检验是在零假设H0之下,如果出现一个与H0相矛盾的小概率事件,就推断不成立,且该推断犯错误的概率不大于这个小概率.另外,在全部逻辑推理正确的情况下,反证法不会犯错误,但独立性检验会犯随机性错误.
1. 小概率值α的临界值:忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2 ≥xα)=α成立. 我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准,概率值α越小,临界值xα越大.
3. 基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2
5.独立性检验的一般步骤:
(1)提出零假设H0:X和Y相互独立,并给出在问题中的解释. (2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较. (3)根据检验规则得出推断结论. (4)在X和Y不独立的情况下,根据需要,通过比较相应的频率, 分析X和Y间的影响规律.
先假设两个分类变量X与Y无关系,利用上述公式根据观测数据求出K2的观测值k,再得出X与Y有关系的程度.(1)如果k≥10.828,就有______的把握认为“X与Y有关系” (2)如果k≥7.879,就有______的把握认为“X与Y有关系”;
(3)如果k≥_____,就有99%的把握认为“X与Y有关系” (4)如果k≥5.024,就有97.5%的把握认为“X与Y有关系” (5)如果k≥3.841,就有_____的把握认为“X与Y有关系” (6)如果k≥2.706,就有_____的把握认为“X与Y有关系”.
完成教材:练习3.并完成自主学习课本例3,
2.根据同一抽查数据推断两个分类变量之间是否有关联,应用不同的小概率值,是否会得出不同的结论?为什么?
3.为考察某种药物A对预防疾病B的效果,进行了动物试验,根据105个有放回简单随机样本的数据,得到如下列联表:
零假设H0为:药物A与预防疾病B无关联,即药物A对预防疾病B没有效果.
4.从某学校获取了容量为400的有放回简单随机样本,将所得数学和语文期末考试成绩的样本观测数据整理如下:
零假设为H0:数学成绩与语文成绩独立,即数学成绩与语文成绩没有关联.
由此可以看出,数学成绩优秀的人中语文成绩优秀的频率明显高于数学成绩不优秀的人中语文成绩优秀的频率.根据频率稳定于概率的原理,我们可以推断,数学成绩优秀的人其语文成绩优秀的概率较大.
1.为什么必须基于成对样本数据推断两个分类变量之间是否有关联?
我们要研究的问题是同一个总体的两个分类变量之间是否有关联,成对样本观测数据是来自于对同一个总体的两个分类变量的观测,只有成对样本数据才能反映两个分类变量之间是否有关联,以及关联的方式和程度.
3.等高堆积条形图在两个分类变量之间关联性的研究中能够起到什么作用?
可以更加直观地反映两个分类变量之间是否具有关联性.
4.对于已经获取的成对样本数据,检验结论“两个变量之间有关联”的实际含义是什么?检验结论“两个变量之间没有关联”的实际含义又是什么?
检验结论“两个变量之间有关联”是“两个变量不独立”的另一种说法,指在零假设“两个变量独立”之下,成对样本数据显示在一次试验中某个不利于这个假设的小概率事件发生了,由此推断零假设不成立,从而得出“两个变量不独立”的检验结论.检验结论“两个变量之间没有关联”是“两个变量独立”的另一种说法,指在零假设“两个变量独立”之下,成对样本数据显示在一次试验中某个不利于这个假设的小概率事件没有发生,因此不能推断零假设不成立,按照通常的习惯接受零假设,即得出“两个变量独立”的检验结论.
5.为了研究高三年级学生的性别和身高是否大于170 cm的关联性,调查了某中学所有高三年级的学生,整理得到如下列联表:
请画出列联表的等高堆积条形图,判断该中学高三年级学生的性别和身高是否有关联.如果结论是性别与身高有关联,请解释它们之间如何相互影响.
6.第5题中的身高变量是数值型变量还是分类变量?为什么?
分类变量.因为第5题中的身高变量只有两个不同的取值(低于170 cm和不低于170 cm),用于区分两类不同的身高现象.
7.从第5题的高三学生中获取容量为40的有放回简单随机样本,由样本数据整理得到如下列联表:
(2)不一致.原因是根据全面调查数据作判断,其结论是确定且准确的.而根据样本数据作推断,会因为随机性导致样本数据不具代表性,从而不能得出和全面调查一致的结论.
8.调查某医院一段时间内婴儿出生的时间和性别的关联性,得到如下的列联表:
与例2中的结论不一样,原因是每个数据都扩大为原来的10倍,相当于样本量变大为原来的10倍,导致推断结论发生了变化.
高中数学人教A版 (2019)选择性必修 第三册6.2 排列与组合图文课件ppt: 这是一份高中数学人教A版 (2019)选择性必修 第三册<a href="/sx/tb_c4000352_t3/?tag_id=26" target="_blank">6.2 排列与组合图文课件ppt</a>,文件包含人教A版数学高二选择性必修第三册621排列课件pptx、人教A版数学高二选择性必修第三册621排列教案docx等2份课件配套教学资源,其中PPT共18页, 欢迎下载使用。
高中数学人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表集体备课课件ppt: 这是一份高中数学人教A版 (2019)选择性必修 第三册<a href="/sx/tb_c4000365_t3/?tag_id=26" target="_blank">第八章 成对数据的统计分析8.3 分类变量与列联表集体备课课件ppt</a>,共51页。PPT课件主要包含了自学导引,临界值,独立性检验,预习自测,答案4722,课堂互动,素养达成,答案BD等内容,欢迎下载使用。
高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表集体备课课件ppt: 这是一份高中数学人教A版 (2019)选择性必修 第三册8.3 分类变量与列联表集体备课课件ppt,共10页。PPT课件主要包含了复习回顾,新课导入,问题情境,新知探究,概念生成,典例解析,巩固练习,方法归纳,课堂小结等内容,欢迎下载使用。