第3讲 统计案例(知识点串讲)(复习讲义)
展开第3讲 统计案例
1.两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2.回归方程
(1)最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
,.
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
例1.(2019·山东泰安月考)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x(个) | 10 | 20 | 30 | 40 | 50 |
加工时间y(min) | 62 |
| 75 | 81 | 89 |
现发现表中有一个数据看不清,请你推断出该数据的值为____________.
练习. (2019年潮州月考)以下是某地收集到的新房屋的销售价格y和房屋的面积x的数据:
房屋面积x(m2) | 115 | 110 | 80 | 135 | 105 |
销售价格y(万元) | 24.8 | 21.6 | 18.4 | 29.2 | 22 |
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中画出回归直线;
(3)根据(2)的结果估计当房屋面积为150 m2时的销售价格.
4.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
| y1 | y2 | 总计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
例2.(2019·山东枣庄模拟)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
| 理科 | 文科 |
男 | 13 | 10 |
女 | 7 | 20 |
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为____________.
练习. (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
| 超过m | 不超过m |
第一种生产方式 |
|
|
第二种生产方式 |
|
|
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
练习. (2019·山东烟台模拟)某校高二年级共有1 600名学生,其中男生960名,女生640名.该校组织了一次满分为100分的数学学业水平模拟考试.根据研究,在正式的学业水平考试中,本次成绩在[80,100]的学生可取得A等(优秀),在[60,80)的学生可取得B等(良好),在[40,60)的学生可取得C等(合格),不到40分的学生只能取得D等(不合格).为研究这次考试成绩优秀是否与性别有关,现按性别采用分层抽样的方法抽取100名学生,将他们的成绩按从低到高分成[30,40),[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]七组加以统计,绘制成如图所示的频率分布直方图.
(1)估计该校高二年级学生在正式的数学学业水平考试中成绩不合格的人数;
(2)请你根据已知条件将下列2×2列联表补充完整.并判断是否有90%的把握认为“该校高二年级学生在本次考试中数学成绩优秀与性别有关”?
| 数学成绩优秀 | 数学成绩不优秀 | 合计 |
男生 | a=12 | b= |
|
女生 | c= | d=34 |
|
合计 |
|
| n=100 |