- 专题09 随机抽样与用样本估计总体(重难点突破)-【教育机构专用】2022年春季高一数学辅导讲义(新教材人教A版2019) 其他 0 次下载
- 专题10 统计案例(课时训练)-【教育机构专用】2022年春季高一数学辅导讲义(新教材人教A版2019) 试卷 0 次下载
- 专题11 随机事件的概率与事件的相互独立性(课时训练)-【教育机构专用】2022年春季高一数学辅导讲义(新教材人教A版2019) 试卷 0 次下载
- 专题11 随机事件的概率与事件的相互独立性(重难点突破)-【教育机构专用】2022年春季高一数学辅导讲义(新教材人教A版2019) 其他 1 次下载
- 专题12 概率(课时训练)-【教育机构专用】2022年春季高一数学辅导讲义(新教材人教A版2019) 试卷 0 次下载
专题10 统计案例(重难点突破)-【教育机构专用】2022年春季高一数学辅导讲义(新教材人教A版2019)
展开专题10 统计案例
【重难点知识点网络】:
一、 相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
二、线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+__,则==,=-.其中,是回归方程的斜率,是在y轴上的截距,回归直线一定过样本点的中心(,).
三、回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
(4)相关指数:R2=1-.其中 (yi-i)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.
四、 独立性检验
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为
| y1 | y2 | 总计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
则随机变量K2=,其中n=a+b+c+d为样本容量.
【知识必备】
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
【重难点题型突破】:
一、相关关系判断
例1、(2021·浙江杭州市·高二课时练习)对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
【变式训练1-1】、(2021·合肥市第六中学高三其他模拟(文))年的“金九银十”变成“铜九铁十”,全国各地房价“跳水”严重,但某地二手房交易却“逆市”而行.下图是该地某小区年月至年月间,当月在售二手房均价(单位:万元/平方米)的散点图.(图中月份代码分别对应年月年月)
根据散点图选择和两个模型进行拟合,经过数据处理得到的两个回归方程分别为和,并得到以下一些统计量的值:
| ||
注:是样本数据中的平均数,是样本数据中的平均数,则下列说法不一定成立的是( )
A.当月在售二手房均价与月份代码呈正相关关系
B.根据可以预测年月在售二手房均价约为万元/平方米
C.曲线与的图形经过点
D.回归曲线的拟合效果好于的拟合效果
【变式训练1-2】、(多选题)(2021·重庆西南大学附中高二期末)对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中正确的是( )
A.由样本数据得到的回归方程必过样本中心
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数为r=﹣0.9362,则变量y和x之间具有线性相关关系
二、线性回归方程分析
例2、(2020·全国高三专题练习)为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:
天数(天) | 3 | 4 | 5 | 6 |
繁殖个数(千个) | 2.5 | 3 | 4.5 |
由最小二乘法得与的线性回归方程为,则当时,繁殖个数的预测值为
A.4.9 B.5.25
C.5.95 D.6.15
【变式训练2-1】、为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如表所示:
父亲身高x(cm) | 174 | 176 | 176 | 176 | 178 |
儿子身高y(cm) | 175 | 175 | 176 | 177 | 177 |
则y对x的线性回归方程为( )
A.=x-1 B.=x+1
C.=88+x D.=176
【变式训练2-2】、(2014新课标2)某地区2007年至2013年农村居民家庭纯收入y(单位:千元)的
数据如下表:
年份 | 2007 | 2008 | 2009 | 2010 | 2011 | 2012 | 2013 |
年份代号t | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
人均纯收入y | 2.9 | 3.3 | 3.6 | 4.4 | 4.8 | 5.2 | 5.9 |
(Ⅰ)求y关于t的线性回归方程;
(Ⅱ)利用(Ⅰ)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估计公式分别为:
,
【变式训练2-3】、某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对
年销售量(单位:t)和年利润(单位:千元)的影响,对近8年的年宣传费和年销售量(=1,
2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
46.6 | 563 | 6.8 | 289.8 | 1.6 | 1469 | 108.8 |
表中, =.
(Ⅰ)根据散点图判断,与哪一个适宜作为年销售量关于年宣传费的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立关于的回归方程;
(Ⅲ)已知这种产品的年利率与、的关系为.根据(Ⅱ)的结果回答下列问题:
(ⅰ)年宣传费=49时,年销售量及年利润的预报值是多少?
(ⅱ)年宣传费为何值时,年利率的预报值最大?
附:对于一组数据,,,,其回归线的斜率和截距的最小二乘估计分别为,.
三、独立性检测
例3、(2018年全国Ⅲ卷理数)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
| 超过m | 不超过m |
第一种生产方式 |
|
|
第二种生产方式 |
|
|
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:,
0.050 | 0.010 | 0.001 | |
k | 3.841 | 6.635 | 10.828 |
【变式训练3-1】、(湖南长沙雅礼中学、河南省实验中学2019届联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:
空气污染指数 | (0,50] | (50,100] | (100,150] | (150,200] | (200,300] | (300,+∞) |
空气质量等级 | 优 | 良 | 轻度污染 | 中度污染 | 重度污染 | 严重污染 |
某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双
号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.
(1)求频率分布直方图中m的值;
(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;
(3)该市环保局为了调查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:
空气质量 | 优 | 良 | 轻度污染 | 中度污染 | 重度污染 | 严重污染 |
天数 | 11 | 27 | 11 | 7 | 3 | 1 |
根据限行前6年180天与限行后60天的数据,计算并填写2×2列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.
| 空气质量优、良 | 空气质量污染 | 总计 |
限行前 |
|
|
|
限行后 |
|
|
|
总计 |
|
|
|
参考数据:
P(K2≥k0) | 0.15 | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 |
k0 | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 |
参考公式:K2=,其中n=a+b+c+d.
【变式训练3-2】、(2019·全国高二专题练习(理))为推行“新课堂”教学法,某老师分别用传统教学和“新课堂”两种不同的教学方式在甲、乙两个平行班进行教学实验,为了解教学效果,期中考试后,分别从两个班级中各随机抽取20名学生的成绩进行统计,作出如图所示的茎叶图,若成绩大于70分为“成绩优良”.
(1)分别计算甲、乙两班的样本中,前10名成绩的平均分,并据此判断哪种教学方式的教学效果更佳;
(2)由以上统计数据填写下面2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”?
| 甲班 | 乙班 | 总计 |
成绩优良 |
|
|
|
成绩不优良 |
|
|
|
总计 |
|
|
|
(3)从甲、乙两班40个样本中,成绩在60分以下(不含60分)的学生中任意选取2人,记ξ为所抽取的2人中来自乙班的人数,求ξ的分布列及数学期望.
附:K2=(n=a+b+c+d),
P(K2≥k0) | 0.10 | 0.05 | 0.025 | 0.010 |
k0 | 2.706 | 3.841 | 5.024 | 6.635 |