- 7.4.1《 二项分布》课件 课件 2 次下载
- 7.4.2《 超几何分布》课件 课件 2 次下载
- 7.5《 正态分布》课件 课件 3 次下载
- 8.1《成对数据的统计相关性》 课件 课件 2 次下载
- 8.2《 一元线性回归模型及其应用》课件 课件 2 次下载
高中人教A版 (2019)8.3 分类变量与列联表完整版ppt课件
展开1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解2×2列联表与独立性检验及其应用.重点:理解独立性检验的基本思想及实施步骤.难点:χ2的含义、独立性检验及其应用.
一、分类变量及其关联性
在现实生活中,人们经常需要回答一定范围内的两种现象或性质之间是否存在关联性或相互影响的问题.例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等.在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用1,0表示,等等.本节我们主要讨论取值于{0,1}的分类变量的关联性问题.
问题 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查.全校学生的普查数据如下:523名女生中有331名经常锻炼;601名男生中有473名经常锻炼.你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗?
为了清楚起见,我们用表格整理数据,如表8.3-1所示. 表8.3-1 单位:人
在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存.我们将如表8.3-1这种形式的数据统计表称为2×2列联表(cntingency table).2×2列联表给出了成对分类变量数据的交叉分类频数.以表8.3-1为例,它包含了X和Y的如下信息:最后一行的前两个数分别是事件{Y=0}和{Y=1}中样本点的个数;最后一列的前两个数分别是事件{X=0}和{X=1}中样本点的个数;中间的四个格中的数是表格的核心部分,给出了事件{X=x,Y=y}(x,y=0,1)中样本点的个数;右下角格中的数是样本空间中样本点的总数.
三、独立性检验的零假设
考虑以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.我们希望判断事件{X=1}和{Y=1}之间是否有关联.注意到{X=0}和{X=1},{Y=0}和{Y=1}都是互为对立事件,与前面的讨论类似,我们需要判断下面的假定关系H0:P(Y=1|X=0)=P(Y=1|X=1)是否成立,通常称H0为零假设或原假设.这里,P(Y=1|X=0)表示从{X=0}中随机选取一个样本点,该样本点属于{X=0,Y=1}的概率;而P(Y=1|X=1)表示从{X=1}中随机选取一个样本点,该样本点属于{X=1,Y=1}的概率.
根据已经学过的概率知识,下面的四条性质彼此等价:{X=0}与{Y=0}独立;{X=0}与{Y=1}独立;{X=1}与{Y=0}独立;{X=1}与{Y=1}独立.如果这些性质成立,我们就称分类变量X和Y独立.这相当于下面四个等式成立:P(X=0,Y=0)=P(X=0)P(Y=0);P(X=0,Y=1)=P(X=0)P(Y=1);P(X=1,Y=0)=P(X=1)P(Y=0);P(X=1,Y=1)=P(X=1)P(Y=1).因此,我们可以用概率语言,将零假设改述为H0:分类变量X和Y独立.
四、独立性检验的统计量χ2及其临界值
统计学家建议,用随机变量χ2取值的大小作为判断零假设H0是否成立的依据,当它比较大时推断H0不成立,否则认为H0成立.那么,究竟χ2大到什么程度,可以推断H0不成立呢?或者说,怎样确定判断χ2大小的标准呢?
根据小概率事件在一次试验中不大可能发生的规律,上面的想法可以通过确定一个与H0相矛盾的小概率事件来实现.在假定H0的条件下,对于有放回简单随机抽样,当样本容量n充分大时,统计学家得到了χ2的近似分布.忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立: P(χ2≥xα)=α. ④我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.概率值α越小,临界值xα越大.当总体很大时,抽样有、无放回对χ2的分布影响较小.因此,在应用中往往不严格要求抽样必须是有放回的.
由④式可知,只要把概率值α取得充分小,在假设H0成立的情况下,事件{χ2≥xα}是不大可能发生的.根据这个规律,如果该事件发生,我们就可以推断H0不成立.不过这个推断有可能犯错误,但犯错误的概率不会超过α.基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2
1.等高堆积条形图的简单应用例1 [2020·广东广州市执信中学高三月考]为了解户籍、性别对生育二孩选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人.绘制不同群体中倾向选择生育二孩与倾向选择不生育二孩的人数比例图(如图所示),其中阴影部分表示倾向选择生育二孩的对应比例,则下列叙述中错误的是( )A.是否倾向选择生育二孩与户籍有关B.是否倾向选择生育二孩与性别无关C.倾向选择生育二孩的人员中,男性人数与女性人数相同D.倾向选择不生育二孩的人员中,农村户籍人数少于城镇户籍人数
【解析】由不同群体中倾向选择生育二孩与倾向选择不生育二孩的人数比例图知:在A中,∵ 城镇户籍倾向选择生育二孩的比例为40%,农村户籍倾向选择生育二孩的比例为80%,∴ 是否倾向选择生育二孩与户籍有关,故A正确;在B中,∵ 男性倾向选择生育二孩的比例为60%,女性倾向选择生育二孩的比例为60%,∴ 是否倾向选择生育二孩与性别无关,故B正确;在C中,∵ 男性倾向选择生育二孩的比例为60%,人数为60×60%=36,女性倾向选择生育二孩的比例为60%,人数为40×60%=24,∴ 倾向选择生育二孩的人员中,男性人数比女性人数多,故C错误;在D中,∵ 倾向选择不生育二孩的人员中,农村户籍人数为50×(1-80%)=10,城镇户籍人数为50×(1-40%)=30,∴ 倾向选择不生育二孩的人员中,农村户籍人数少于城镇户籍人数,故D正确.【答案】C
2.[2020·福建宁德高二月考]“微信”和“QQ”是两款社交产品,小明为了解不同群体对这两款产品的首选情况,统计了周围老师和同学关于首选“微信”或“QQ”的比例,得到如图所示的等高堆积条形图.根据等高堆积条形图中的信息,可判断下列说法正确的是( )A.对老师而言,更倾向于首选“微信”B.对学生而言,更倾向于首选“QQ”C.首选“微信”的老师比首选“微信”的学生多D.如果首选“微信”的老师比首选“微信”的学生多,那么小明统计的老师人数一定比学生多
3.[2020·河北张家口高三月考]如图是调查某学校高一、高二年级学生参加社团活动的等高堆积条形图,阴影部分的高表示参加社团的频率.已知该校高一、高二年级学生人数均为600人(所有学生都参加了调查),现从参加社团的同学中按分层随机抽样的方式抽取45人,则抽取的高二学生人数为( )A.9 B.18 C.27 D.36
◆2×2列联表与等高堆积条形图的关系与特点2×2列联表与等高堆积条形图都可以用来分析两个分类变量之间是否有关系,但是等高堆积条形图能直观反映出两个分类变量之间是否相互影响,而2×2列联表则需要相关计算才能确定.
二、独立性检验的基本思想及综合应用
1.对χ2≥xα含义的理解例3 [2020·安徽芜湖高三月考]在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )A.若χ2>6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D.以上三种说法都不正确
【解析】若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1% 的可能性使得判断出现错误,并不是说某人吸烟,那么他有99%的可能患有肺癌,更不是说在100个吸烟的人中必有99人患有肺癌.故应选C.【答案】C
2.独立性检验的基本思想在实际问题中的应用例4 [2020·吉林四平高三检测]为了研究每周累计户外暴露时间是否足够(单位:小时)与近视发病率的关系,对某中学一年级100名学生进行不记名问卷调查,得到如下数据:(1)用样本估计总体思想估计该中学一年级学生的近视率;(2)能否在犯错误的概率不超过0.01的前提下认为不足够的户外暴露时间与近视有关系?
◆独立性检验的步骤(1)构造2×2列联表;(2)计算χ2;(3)查表确定有多大的把握判定两个变量有关系.【注意】 用独立性检验解题应注意的问题:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的xα值与求得的χ2值相比较.另外,表中第一行数据表示两个变量没有关联的可能性P,所以其有关联的可能性为1-P.
训练题 [2020·福建师大附中高二期中]为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:
若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高堆积条形图.(1)根据已知条件完成2×2列联表;(2)判断是否有99%的把握认为是否为“阅读达人”跟性别有关.
解:(1)由频数分布表得“阅读达人”的人数是11+7+2=20,根据等高堆积条形图得2×2列联表如下:
(2)由列联表可得χ2= ≈ 4.327 <6.635,故没有99%的把握认为是否为“阅读达人”跟性别有关.
数学人教A版 (2019)8.3 分类变量与列联表课文ppt课件: 这是一份数学人教A版 (2019)8.3 分类变量与列联表课文ppt课件,共55页。
人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表集体备课ppt课件: 这是一份人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表集体备课ppt课件,共50页。PPT课件主要包含了列联表与独立性检验,分类变量与列联表,独立性检验,高考遇,知识绘,题型诀,巩固练,题型3独立性检验等内容,欢迎下载使用。
高中数学人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表教学演示课件ppt: 这是一份高中数学人教A版 (2019)选择性必修 第三册第八章 成对数据的统计分析8.3 分类变量与列联表教学演示课件ppt,共54页。PPT课件主要包含了读教材·知识梳理,研题型·典例精析,扣课标·素养提升,频率特征,是否相互影响,无关系,不成立,所以X的分布列为等内容,欢迎下载使用。