第59讲 统计-2023届高考数学二轮复习经典结论微专题
展开第59讲、统计
通过一、抽样方法
1.简单随机抽样:从元素个数为N的总体中不放回地抽取容量为的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫作简单随机抽样.
简单随机抽样必须具备以下特点:
(1) 简单随机抽样要求被抽取的样本的总体个数N是有限的;
(2) 简单随机样本数n小于等于样本总体的个数N;
(3) 简单随机样本是从总体中逐个抽取的;
(4) 简单随机抽样是一种不放回的抽样;
(5) 简单随机抽样的每个个体呗抽取的可能性均为
2.系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法。系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样。
(1)当总体容量N较大时,采用系统抽样.
(2)将总体分成均衡的若干部分指的是将总体分段,分段的间隔要求相等。因此,系统抽样又称等距抽样,分段的间隔一般为
(3)预先制定的规则指的是在第一段内采用简单随机抽样确定一个起始编号,在此编号的基础上加上分段间隔的整数倍即为抽样编号.
3. 分层抽样:当总体由明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的部分,每一部分叫作层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫作分层抽样.
(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比。
通关二、频率分布直方图与茎叶图
1.画出频率分布直方图的步骤
(1)计算极差:找出数据的最大值与最小值,计算它们的差;
(2)决定组距与组教;取组距,用决定组数;
(3)决定分点:决定起点,进行分组;
(4)列频率分布表:对落入各小组的数据累计,算出各小组的频数,除以样本容量,得到各小组的频率;
(5)绘制频率分布直方围:以教据的值为横坐标,以的值为纵坐标绘制直方图.
小长方形的面积=组距×=频率.
2.频率分布折线图和总体密度曲线
(1)频率分布折线图:连结频率分布直方图中各小长方形上端的中点,即得频率分布折线图.
(2)总体密度曲线:随着样本容量的增加,图时所分组数增加,组距减小,相应的频率分布折线图会越来越接近于一条光滑曲线,即总体密度曲线.
3.制作茎叶图的步骤
(1)将数据分为“茎”“叶”两部分;
(2)将最大茎与最小茎之间的数宇按大小顺序排成一列,并画上竖线作为分隔线;
(3)将各个数据的“叶”在分界线的一侧对应茎处按一定次序同行列出.
通关三、独立性检验
- 独立性检验的有关概念
② 分类变量:可以利用不同“值”表示个体所属的不同类别的变量称为分类变量.
②2×2列联表:假设有两个分类变量 X 和 Y ,它们的可能取值分别为|x1,x2|和| y1,y2|,其样本频数列联表称为2×2列联表,如下表所示:
| y1 | y2 | 总计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
2.统计量:为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量, (其中n=a+b+c+d为样本容量) .
3.两个分类变量A和B是否有关系的判断方法
①当时,没有充分的证据判定变量A,B有关联,可以认为变量A,B没有关联;
③ 当时,有90%的把握判定变量A,B有关联;
④ 当时,有95%的把握判定变量A,B有关联;
⑤ 当时,有99%的把握判定变量A,B有关联;
⑥ 当时,有99.9%的把握判定变量A,B有关联;
通关四、回归分析
1.n个观测值的n个点大致分布在一条直线的附近,若所求的直线方程为,其中.
2.我们将这个方程叫作回归直线方程,,叫作回归系数,相应的直线叫作回归直线.
要点诠释:
其中,,称为样本点的中心.
结论一、抽样方法中的计算问题的求法
1.系统抽样中的计算问题:系统抽样中被抽取的两个样本编号的间距相等,据此,若有n个总体,希望抽取m个体,确定抽样间距时,若为整数,则抽样间距为;否则,一般先剔除几个个体,使得为整数,抽样间距一般为不大于的最大整数.
2.分层抽样中的计算问题:分层抽样满足“”即或”,据此在已知每层间的个体数量或数量比、样本容量、总体数量中的两个时,就可以求出第三个.
【例1】 交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( ).
A.101 B.808 C.1212 D.2012
【答案】 B
【解析】 因为甲社区有驾驶员96人,在甲社区中抽取驾驶员的人数为12,所以每个个体被拍到的概率为品 18,样本容量为12+21+25+43=101,所以这四个社区驾驶员的总人数N为.故选B.
【变式】 某学校为了解1000名新生的身体素质,将这些学生编号1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( ).
A.8号学生 B.200号学生 C.616号学生 D.815号学生
【答案】 C
【解析】 因为要从1000名学生中抽取一个容量为100的样本,所以系统抽样的分段间隔为.因为46号学生被抽到,则根据系统拍样的性质可知,第一组随机抽取一个号码为6,以后每个号码都比前一个号码增加10,所有号码数是以6为首项,以10为公差的等差数列,设其数列为,则当n=62时,,即在第62组抽到的是616号学生.故选C.
结论二、频率分布直方图的理解
【例2】某高校调查了200名学生每周的自习时间(单位:时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( ).
A.56 B.60 C.120 D.140
【答案】 D
【解析】自习时间不少于22.5小时的频率为:(0.16+0.08+0.04)×2.5=0.7,故自习时间不少于22.5小时的频数为:0.7×200=140故选D
【变式】某电子商务公司对10000名网络购物者2019年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内其频率分布直方图如图所示.
(1)直方图中的a=_______.
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.
【答案】(1)3 (2)6000
【解析】(1)由题意,根据直方图的性质得(1.5+2.5+a+2.0+0.8+0.2) ×0.1=1解得a=3.
(2) 由直方图得(3+2.0+0.8+0.2) ×0.1×10000=6000.
结论三、茎叶图
1.茎叶图是统计中用来表示数据的一种图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.
2对于样本数据较少,但较为集中的一组数据:若数据是两位整数,则将十位数字作茎,个位数字作叶;若数据是三位整数,则将百位、十位数字作茎,个位数字作叶,样本数据为小数时做类似处理.
3茎叶图通常用来记录两值教的数据,它可以用来分析单组数据,也可以对两组数据进行比较,通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,是否关于该茎对称,是否分布均匀等.
【例3】从甲乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示),设甲乙两组数据的平均数分别为,,中位数分别为,,则( ).
甲 乙
8 6 5 0
8 8 4 0 0 1 0 2 8
7 5 2 2 0 2 3 3 7
8 0 0 3 1 2 4 4 8
3 1 4 2 3 8
- B.
C. , m甲>m乙 D. ,m甲<m乙
【答案】 B
【解析】甲的平均数
乙的平均数
所以.甲的中位数为20,乙的中位数为29,所以m甲<m乙,故选B.
【变式】如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则和的值分别为
A.3,5 B.5,5 C.3,7 D.5,7
【答案】A
【解析】由已知中甲组数据的中位数为65,故乙组数据的中位数也为65,即,
则乙组数据的平均数为:66,故,故选.
结论四、用样本的数字特征估计总体的数字特征
1.平均数、中位数、众数
数字特征 | 样本数据 |
平均数 | 样本数据的算术平均数 |
中位数
| 将数据按大小依次排列,处在最中间位置的一个 数据(或最中间两个数据的平均数) |
众数 | 出现次数最多的数据 |
2.样本方差与标准差
3.平均数、方差的有关性质
【例4】如图所示,样本和分别取自两个不同的总体,它们的样本平均数分别为、,样本标准差分别为,,则
A., B.,
C., D.,
【答案】B
【解析】样本的数据均不大于10,而样本的数据均不小于10,
显然,由图可知中数据波动程度较大,中数据较稳定,
.故选:.
【变式】为评估一种农作物的种植效果,选了块地作试验田.这块地的亩产量(单位:分别是,,,,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是
A.,,,的平均数 B.,,,的标准差
C.,,,的最大值 D.,,,的中位数
【答案】B
【解析】在中,平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标,故不可以用来评估这种农作物亩产量稳定程度;
在 中,标准差能反映一个数据集的离散程度,故可以用来评估这种农作物亩产量稳定程度;
在中,最大值是一组数据最大的量,故不可以用来评估这种农作物亩产量稳定程度;
在中,中位数将数据分成前半部分和后半部分,用来代表一组数据的“中等水平”,
故不可以用来评估这种农作物亩产量稳定程度.故选:.
结论五、独立性检验
1. 独立性检验原理只能解决两个对象,且每个对象有两类属性的问题,所以对于一个实际问题,我们首先要确定能否用独立性检验的思想加以解决;
2. 如果确实属于这类问题,要科学地抽取样本,样本容量要适当,不可太小,根据数据列出 列联表;
3. 提出假设H0 : 所研究的两类对象 (X, Y)无关;
4.根据公式计算的值;
5. 比较观测值 k与临界值表中相应的检验水平,根据小概率原理肯定或者否定假设, 即判断X, Y是否相关.
【例5】某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
| 满意 | 不满意 |
男顾客 | 40 | 10 |
女顾客 | 30 | 20 |
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有的把握认为男、女顾客对该商场服务的评价有差异?
附:.
0.050 | 0.010 | 0.001 | |
3.841 | 6.635 | 10.828 |
【解析】(1)由题中数据可知,男顾客对该商场服务满意的概率,
女顾客对该商场服务满意的概率;
(2)由题意可知,,
故有的把握认为男、女顾客对该商场服务的评价有差异.
【变式】某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:
| 超过 | 不超过 |
第一种生产方式 |
|
|
第二种生产方式 |
|
|
(3)根据(2)中的列联表,能否有的把握认为两种生产方式的效率有差异?
附:,
0.050 | 0.010 | 0.001 | |
3.841 | 6.635 | 10.828 |
【解析】(1)根据茎叶图中的数据知,第一种生产方式的工作时间主要集中在之间,
第二种生产方式的工作时间主要集中在之间,所以第二种生产方式的工作时间较少些,效率更高;
(2)这40名工人完成生产任务所需时间按从小到大的顺序排列后,排在中间的两个数据是79和81,计算它们的中位数为;
由此填写列联表如下;
| 超过 | 不超过 | 总计 |
第一种生产方式 | 15 | 5 | 20 |
第二种生产方式 | 5 | 15 | 20 |
总计 | 20 | 20 | 40 |
(3)根据(2)中的列联表,计算
,
能有的把握认为两种生产方式的效率有差异.
结论六、回归直线方程
要点诠释:
线性回归直线一定经过样本点的中心(),据此性质可以解决有关的计算问题、判断结论的正确性。
【例6】为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入(万元) | 8.2 | 8.6 | 10.0 | 11.3 | 11.9 |
支出(万元) | 6.2 | 7.5 | 8.0 | 8.5 | 9.8 |
根据上表可得回归直线方程,其中,据此估计,该社区一户收入为15万元家庭年支出为
A.11.4万元 B.11.8万元 C.12.0万元 D.12.2万元
【答案】B
【解析】由题意可得,
,代入回归方程可得,
所以回归方程为,
把代入方程可得,故选.
【变式】为了研究某班学生的脚长(单位:厘米)和身高(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为,已知,,,该班某学生的脚长为24厘米,据此估计其身高为 厘米。
A.160 B.163 C.166 D.170
【解析】由线性回归方程为,
则,,
则数据的样本中心点,
由回归直线方程样本中心点,则,
所以回归直线方程为,
当时,,则估计其身高为166,故选.
第44讲 共线、共面与截面-2023届高考数学二轮复习经典结论微专题: 这是一份第44讲 共线、共面与截面-2023届高考数学二轮复习经典结论微专题,文件包含第44讲共线共面与截面-解析版docx、第44讲共线共面与截面-原卷版docx等2份试卷配套教学资源,其中试卷共15页, 欢迎下载使用。
第51讲 圆的方程-2023届高考数学二轮复习经典结论微专题: 这是一份第51讲 圆的方程-2023届高考数学二轮复习经典结论微专题,文件包含第51讲圆的方程-解析版docx、第51讲圆的方程-原卷版docx等2份试卷配套教学资源,其中试卷共15页, 欢迎下载使用。
第47讲 空间角度关系-2023届高考数学二轮复习经典结论微专题: 这是一份第47讲 空间角度关系-2023届高考数学二轮复习经典结论微专题,文件包含第47讲空间角度关系-解析版docx、第47讲空间角度关系-原卷版docx等2份试卷配套教学资源,其中试卷共15页, 欢迎下载使用。