第1讲 统计(知识点串讲)(复习讲义)
展开第一讲 统计
1.简单随机抽样
(1)定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),且每次抽取时各个个体被抽到的机会都相等,就称这样的抽样方法为简单随机抽样.
(2)常用方法:抽签法和随机数法.
2.分层抽样
(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)适用范围:适用于总体由差异比较明显的几个部分组成时.
(3)在分层抽样中:=.
3.简单随机抽样和分层抽样的异同点
相同点:等概率性。两种抽样方法的共同点都是等概率不放回抽样.若样本容量为n,总体的个体数为N,则用这两种方法抽样时,每个个体被抽到的概率都是.
不同点:
(1)简单随机抽样:总体容量较少,尤其是样本容量较少.
(2)分层抽样:适用于总体由差异明显的几部分组成的情形.
例1.(2019·山东泰安模拟)某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n=( )
A.660 B.720
C.780 D.800
【答案】B [由题意知,=,解得n=720.]
练习.(2019·山东德州检测) 2018年11月11日的“双十一”又掀购物狂潮,淘宝网站对购物情况做了一项调查,收回的有效问卷共500 000份,其中购买下列四种商品的人数统计如下:服饰鞋帽198 000人;家居用品94 000人;化妆品116 000人;家用电器92 000人.为了解消费者对商品的满意度,淘宝网站用分层抽样的方法从中选出部分问卷进行调查,已知在购买“化妆品”这一类中抽取了116人,则在购买“家居用品”这一类中应抽取的问卷份数为( )
A.92 B.94
C.116 D.118
【答案】B [设在购买“家居用品”这一类中应抽取的问卷份数为x,因为在购买“化妆品”这一类中抽取了116人,所以=,解得x=94.]
4.常用统计图表
(1)频率分布表的画法:
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
(2)频率分布直方图:反映样本频率分布的直方图.
①横轴表示样本数据,纵轴表示,每个小矩形的面积表示样本落在该组内的频率.
②频率分布直方图中的常见结论
1)众数的估计值为最高矩形的中点对应的横坐标.
2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
例2. (2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用 水量 | [0,0.1) | [0.1, 0.2) | [0.2, 0.3) | [0.3, 0.4) | [0.4, 0.5) | [0.5, 0.6) | [0.6, 0.7) |
频数 | 1 | 3 | 2 | 4 | 9 | 26 | 5 |
使用了节水龙头50天的日用水量频数分布表
日用 水量 | [0,0.1) | [0.1, 0.2) | [0.2, 0.3) | [0.3, 0.4) | [0.4, 0.5) | [0.5, 0.6) |
频数 | 1 | 5 | 13 | 10 | 16 | 5 |
(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
解 (1)如图所示.
(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,
因此该家庭使用节水龙头后,日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为1=×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为2=×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
(3)频率分布折线图和总体密度曲线
①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.
②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
(4)茎叶图的画法:
第一步:将每个数据分为茎(高位)和叶(低位)两部分;
第二步:将各个数据的茎按大小次序排成一列;
第三步:将各个数据的叶依次写在其茎的右(左)侧.
例3.(2019年武汉月考)为了解某校教师使用多媒体进行教学的情况,采用简单随机抽样的方法,从该校400名授课教师中抽取20名,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图表示如图所示.据此可估计该校上学期400名教师中,使用多媒体进行教学次数在[16,30)内的人数为( )
|
|
|
|
|
|
|
0 | 7 | 9 |
|
|
|
|
1 | 3 | 3 | 5 | 6 | 7 |
|
2 | 1 | 2 | 4 | 5 | 8 | 8 |
3 | 0 | 1 | 4 | 7 |
|
|
4 | 1 | 1 | 2 |
|
|
|
A.100 B.160
C.200 D.280
【答案】B [观察茎叶图,抽取的20名教师中使用多媒体教学次数在[16,30)内的有8人,所以该区间段的频率为=0.4,因此全校400名教师使用多媒体教学次数在[16,30)内的有400×0.4=160(人).]
5.样本的数字特征
(1)标准差是样本数据到平均数的一种平均距离.
(2)标准差:s= .
(3)方差:s2=[(x1-)2+(x2-)2+…+(xn-)2].
(xn是样本数据,n是样本容量,是样本平均数).
6.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)数据x1,x2,…,xn的方差为s2.
①数据x1+a,x2+a,…,xn+a的方差也为s2;
②数据ax1,ax2,…,axn的方差为a2s2.
例4.(2019·山东青州模拟)已知一组数据4.7,4.8,5.1,5.4,5.5,则该组数据的方差是____________.
【答案】0.1 [这组数据的平均数
==5.1,则方差s2=
==0.1.]
练习 (1)(2018·江苏卷)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为____________.
【答案】90 [这5位裁判打出的分数分别是89,89,90,91,91,因此这5位裁判打出的分数的平均数为=90.]
(2)(2019·齐鲁名校联考)为比较甲、乙两地某月14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图,考虑以下结论:
甲 |
| 乙 | ||||
9 | 8 | 6 | 2 | 8 | 9 |
|
| 1 | 1 | 3 | 0 | 1 | 2 |
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( )
A.①③ B.①④
C.②③ D.②④
【答案】B [由题中茎叶图,知甲==29,
s甲= =;
乙==30,
s乙=
=. 所以甲<乙,s甲>s乙.]
7.两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
8.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.=,=-b
9.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
例5.(2019·山东临沂模拟)x和y的散点图如图所示,则下列说法中所有正确命题的序号为____________.
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关系数的平方为r,用=x+拟合时的相关系数的平方为r,则r>r;
③x,y之间不能建立线性回归方程.
【答案】①② [由相关关系定义知①②正确.]
例6.(2019·山东泰安月考)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x(个) | 10 | 20 | 30 | 40 | 50 |
加工时间y(min) | 62 |
| 75 | 81 | 89 |
现发现表中有一个数据看不清,请你推断出该数据的值为____________.
【答案】68 [由=30,得=0.67×30+54.9=75.设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.]
练习. (2018·全国卷Ⅱ)下图是某地区2000年到2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)