专题09 统计(公式、定理、结论图表)-备战2024年新高考数学必背知识手册
展开统计(公式、定理、结论图表)
1.全面调查和抽样调查
调查方式 | 全面调查(普查) | 抽样调查 |
定义 | 对每一个调查对象都进行调查的方法,称为全面调查,又称普查 | 根据一定目的,从总体中①抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查 |
相关概念 | 总体:在一个调查中,我们把调查对象的全体称为总体. 个体:组成总体的每一个调查对象称为个体 | 样本:把从总体中抽取的那部分个体称为样本. 样本量:样本中包含的个体数称为样本量 |
2.简单随机抽样的概念
放回简单随机抽样 | 不放回简单随机抽样 |
一般地,设一个总体含有N(N为正整数)个个体,从中②逐个抽取n(1≤n<N)个个体作为样本 | |
如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都③相等,我们把这样的抽样方法叫做放回简单随机抽样 | 如果抽取是不放回的,且每次抽取时总体内④未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样 |
放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本 |
3.抽签法
先把总体中的个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个⑤不透明的盒里,充分搅拌.最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的个体数.
4.随机数法
(1)定义:先把总体中的个体编号,用随机数工具产生已编号范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本,重复上述过程,直到抽足样本所需要的个体数.
(2)产生随机数的方法:(i)用随机试验生成随机数;(ii)用信息技术生成随机数.
5.总体均值和样本均值
(1)总体均值:一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称 =⑥=⑦为总体均值,又称总体平均数.
(2)总体均值加权平均数的形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式=⑧.
(3)如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称 =⑨=⑩为样本均值,又称样本平均数.
6.分层随机抽样的相关概念
(1)分层随机抽样的定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行①简单随机抽样,再把所有子总体中抽取的样本②合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
(2)比例分配:在分层随机抽样中,如果每层③样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.
7.画频率分布直方图的步骤
(1)求极差:极差为一组数据中①最大值与②最小值的差;
(2)决定组距与组数:当样本容量不超过100时,常分成③5~12组,为方便起见,一般取等长组距,并且组距应力求“取整”;
(3)将数据分组;
(4)列频率分布表:一般分四列:分组、④频数累计、频数、⑤频率.其中频数合计应是样本容量,频率合计是⑥1;
(5)画频率分布直方图:横轴表示分组,纵轴表示⑦.
小长方形的面积=组距×⑧=⑨频率,各小长方形的面积的总和等于1.
8.其他统计图表
统计图表 | 主要应用 |
扇形图 | 直观描述各部分数据在全部数据中所占的比例 |
条形图和直方图 | 直观描述不同类别或分组数据的频数和频率 |
折线图 | 反映统计对象在不同时间(或其他合适情形)的发展变化情况 |
9.第p百分位数
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有①p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
10.计算一组n个数据的第p百分位数的步骤
第1步,按②从小到大排列原始数据.
第2步,计算i=③n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的④平均数.
11.四分位数
⑤第25百分位数,⑥第50百分位数,⑦第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
12.众数、中位数和平均数的定义
(1)众数:一组数据中①出现次数最多的数.
(2)中位数:一组数据按大小顺序排列后,处于②中间位置的数.如果这组数据是偶数个,则取③中间两个数据的平均数.
(3)平均数:一组数据的④和除以数据个数所得到的数.
13.众数、中位数、平均数与频率分布直方图的关系
(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的⑤横坐标与小矩形的⑥面积的乘积之和近似代替.
(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该⑦相等.
(3)众数:众数是⑧最高小矩形底边的中点所对应的数据.
【特别提醒】
众数、中位数和平均数的比较
名称 | 优点 | 缺点 |
平均数 | 与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感 | 任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大 |
中位数 | 不受少数几个极端数据(即排序靠前或靠后的数据)的影响 | 对极端值不敏感 |
众数 | 体现了样本数据的最大集中点 | 众数只能传递数据中信息很少的一部分,对极端值不敏感 |
14.一组数据x1,x2,…,xn的方差和标准差
数据x1,x2,…,xn的方差为①=②,标准差为③.
15.总体方差和总体标准差
(1)总体方差和标准差:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体的平均数为,则称S2=④为总体方差,S=⑤为总体标准差.
(2)总体方差的加权形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=.
16.样本方差和样本标准差
如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2=⑦为样本方差,s=⑧为样本标准差.
17.标准差的意义
标准差刻画了数据的⑨离散程度或⑩波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.
【特别提醒】
对标准差和方差概念的理解
(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.
(2)标准差、方差的取值范围:[0,+∞).
标准差、方差为0时,样本各数据全相等,表明数据没有波动幅度,数据没有离散性.
(3)因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的离散程度上是一样的,但在解决实际问题时,一般多采用标准差.
18.分层随机抽样的方差
设样本容量为n,平均数为,其中两层的个体数量分别为n1,n2,两层的平均数分别为,,方差分别为,,则这个样本的方差为s2=[+(-)2]+[+(-)2].
<解题方法与技巧>
1.使用分层随机抽样法应遵循的原则
(1)将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;
(2)分层随机抽样为保证每个个体等可能入样,需在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.
2.进行分层随机抽样的相关计算时,常用到的关系
(1)=;
(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比;
(3)样本的平均数和各层的样本平均数的关系:
=+=+.
典例1:某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是( )
A.分层抽样法,系统抽样法 B.分层抽样法,简单随机抽样法
C.系统抽样法,分层抽样法 D.简单随机抽样法,分层抽样法
【思路点拨】此题为抽样方法的选取问题.当总体中个体较多而且差异又不大时宜采用系统抽样,采用系统抽样在每小组内抽取时应按规则进行;当总体中的个体差异较大时,宜采用分层抽样;当总体中个体较少时,宜采用随机抽样.
【解析】依据题意,第①项调查应采用分层抽样法、第②项调查应采用简单随机抽样法.故选B.
【总结升华】采用什么样的抽样方法要依据研究的总体中的个体情况来定.
3.频率分布直方图的性质
(1)因为小长方形的面积=组距×=频率,所以各小长方形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组的频率的大小.
(2)在频率分布直方图中,各小长方形的面积的总和等于1.
(3)样本容量=.
4.频率分布直方图中第p百分位数的计算方法
方法一:(1)确定百分位数所在的区间[a,b);(2)确定小于a和小于b的数据所占的百分比分别为fa%,fb%,则第p百分位数为a+×(b-a).
方法二:设出百分位数的值,利用百分位数的定义计算.
典例2:为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁-18岁的男生体重(kg) ,得到频率分布直方图如下:
根据上图可得这100名学生中体重在〔56.5,64.5〕的学生人数是( )
(A)20 (B)30 (C)40 (D)50
【答案】C;
【解析】根据运算的算式:体重在〔56.5,64.5〕学生的累积频率为2×0.03+2×0.05+2×0.05+2×0.07=0.4,则体重在〔56.5,64.5〕学生的人数为0.4×100=40.
5.利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
6.利用样本数字特征进行决策时的两个关注点
(1)平均数与每一个数据都有关,可以反映更多的总体信息,但受极端值的影响较大;中位数是样本数据所占频率的等分线,不受极端值的影响;众数只能体现数据的最大集中点,无法客观反映总体特征.
(2)当平均数大于中位数时,说明数据中存在许多较大的极端值;反之,说明数据中存在许多较小的极端值.
7.众数、中位数、平均数与频率分布直方图的关系
众数 | 众数是最高小长方形底边的中点所对应的数据,表示样本数据的中心值 |
中位数 | ①在频率分布直方图中,中位数左边和右边的直方图面积相等,由此可以估计中位数的值,但是有偏差; ②表示样本数据所占频率的等分线 |
平均数 | ①平均数等于每个小长方形的面积乘小长方形底边中点的横坐标之和; ②平均数是频率分布直方图的重心,是频率分布直方图的平衡点 |
8.计算分层随机抽样的方差s2的步骤
(1)确定,,,;
(2)确定;
(3)应用公式s2=[+]+[+]计算s2.
9.数据分析的要点
要正确处理此类问题,首先要抓住问题中的关键词语,全方位地进行必要的计算、分析,而不能习惯性地仅从平均数的大小去决定哪一组的成绩好,解决像这样的实际问题还得从实际的角度去分析.
典例3:甲、乙两人在一次射击比赛中各射靶5次.两人成绩的统计表如甲表、乙表所示,请根据你所学统计知识,进一步判断这两个人这次比赛中的成绩情况.
甲表:
乙表:
【解析】甲、乙两人比赛的中位数、平均数如下:
甲的平均数是;
乙的平均数是;
甲、乙的平均数都是6,甲的中位数是6,乙的中位数是5,甲的总体成绩好些;
从方差看,甲的方差是,
乙的方差是;
甲的成绩较乙的成绩好;
甲的极差是8―4=4,乙的极差是9―5=4.
【总结升华】平均数、众数、中位数描述了数据的集中趋势,极差、方差和标准差描述了数据的波动大小,也可以说反映了各个数据与其平均数的离散程度,方差越大,数据的离散程度越大,越不稳定;方差越小,数据的离散程度越小,越稳定.
专题18 成对数据的统计分析(公式、定理、结论图表)-备战2024年新高考数学必背知识手册: 这是一份专题18 成对数据的统计分析(公式、定理、结论图表)-备战2024年新高考数学必背知识手册,共7页。试卷主要包含了成对数据的统计相关性,一元线性回归模型及其应用,列联表与独立性检验等内容,欢迎下载使用。
专题16 计数原理(公式、定理、结论图表)-备战2024年新高考数学必背知识手册: 这是一份专题16 计数原理(公式、定理、结论图表)-备战2024年新高考数学必背知识手册,共11页。试卷主要包含了计数原理,排列,组合,二项式定理,杨辉三角形等内容,欢迎下载使用。
专题15 导数及其应用(公式、定理、结论图表)-备战2024年新高考数学必背知识手册: 这是一份专题15 导数及其应用(公式、定理、结论图表)-备战2024年新高考数学必背知识手册,共8页。试卷主要包含了曲线在点处切线,曲线过点处切线,利用导数求最值,.解决优化问题的步骤,))等内容,欢迎下载使用。