![清单40 变量间的相关关系与统计案例(原卷版)-2022年新高考数学一轮复习知识方法清单与跟踪训练第1页](http://img-preview.51jiaoxi.com/3/3/12928639/0/0.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![清单40 变量间的相关关系与统计案例(原卷版)-2022年新高考数学一轮复习知识方法清单与跟踪训练第2页](http://img-preview.51jiaoxi.com/3/3/12928639/0/1.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
![清单40 变量间的相关关系与统计案例(原卷版)-2022年新高考数学一轮复习知识方法清单与跟踪训练第3页](http://img-preview.51jiaoxi.com/3/3/12928639/0/2.jpg?x-oss-process=image/resize,w_794,m_lfit,g_center/sharpen,100)
清单40 变量间的相关关系与统计案例(原卷版)-2022年新高考数学一轮复习知识方法清单与跟踪训练
展开
这是一份清单40 变量间的相关关系与统计案例(原卷版)-2022年新高考数学一轮复习知识方法清单与跟踪训练,共21页。试卷主要包含了知识与方法清单,跟踪检测,填空题,解答题等内容,欢迎下载使用。
清单40 变量间的相关关系与统计案例
一、知识与方法清单
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是确定性的函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系,带有随机性.
(2)相关关系与函数关系的异同点
(1)相同点:两者均是指两个变量的关系.
(2)不同点:
①函数关系是一种确定性关系,而相关关系是一种非确定性关系;
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
【对点训练1】下列说法中正确的是( )
①某地区感染流感人数与外来流感患者人数是具有相关关系的两个变量;
②两个变量之间没有确定的函数关系,则这两个变量相关;
③如果两个变量之间具有线性相关关系,那么回归直线经过样本中心点;
④与有相关关系,且回归方程为,则与正相关.
A.①②③ B.①②④ C.①③④ D.①②③④
2.两个变量的线性相关
(1)如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫回归直线.
【对点训练2】(2021重庆巴蜀中学高三月考)(多选题)中国茶文化博大精深,茶水的口感与茶叶类型和水的温度有关为了建立茶水温度随时间变化的函数模型,小明每隔1分钟测量一次茶水温度,得到若干组数据,,,,绘制了如图所示的散点图.小明选择了如下2个函数模型来拟合茶水温度随时间的变化情况,函数模型一:;函数模型二:,下列说法正确的是( )
A.变量与具有负的相关关系
B.由于水温开始降得快,后面降得慢,最后趋于平缓,因此模型二能更好的拟合茶水温度随时间的变化情况
C.若选择函数模型二,利用最小二乘法求得到的图象一定经过点
D.当时,通过函数模型二计算得,用温度计测得实际茶水温度为65.2,则残差为0.1
3. 回归直线方程
(1)通过求的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.该式取最小值时的,的值即分别为,.
(2)两个具有线性相关关系的变量的一组数据:,,…,,其回归方程为,则
【对点训练3】近年来,新能源产业蓬勃发展,已成为我市的一大支柱产业.据统计,我市一家新能源企业近5个月的产值如下表:
月 份
5月
6月
7月
8月
9月
月份代码
1
2
3
4
5
产值亿元
16
20
27
30
37
(1)根据上表数据,计算与的线性相关系数,并说明与的线性相关性强弱;(,则认为与线性相关性很强;,则认为与线性相关性不强)
(2)求出关于的线性回归方程,并预测10月该企业的产值.
参考公式:;
参考数据:.
4. 样本点的中心一定在回归直线上.
【对点训练4】(2020江苏马坝高中高三期中)已知,取值如表:
画散点图分析可知:与线性相关,且求得回归方程为,则__________.
5.散点图
(1)散点图:将样本中n个数据点(xi,yi)(i=1,2,…,n)描在平面
直角坐标系中得到的图形.
(2)从散点图上看,如果点分布在从左下角到右上角的区域内,那么两个变量的这种相关关系称为正相关;如果点分布在从左上角到右下角的区域内,那么两个变量的这种相关关系称为负相关.
【对点训练5】对四组数据进行统计,获得以下散点图,关于其相关系数的比较,正确的是( )
A. B.
C. D.
6.相关系数
r=,当时,表示两个变量正相关;当时,表示两个变量负相关.的绝对值越接近1,表示两个变量的线性相关性越强;的绝对值越接近0,表示两个变量的线性相关性越弱.通常当的绝对值大于时,便认为两个变量具有很强的线性相关关系.当时,
【对点训练6】(2020·山东·高三专题练习)如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的个点所对应的数据的相关系数最大,则应当去掉的点是__________.
7.若所有样本点都在回归直线上,则。
【对点训练7】在一组样本数据为,,…,不全相等的散点图中,若所有样本点都在直线上,则这组样本数据的相关系数_______.
8.回归分析的三个步骤
(1)判断两个变量是否线性相关:可利用经验,也可以画散点图.
(2)求回归直线方程,注意运算的准确性.
(3)根据回归直线进行预测:估计值不是实际值,两者会有一定的误差.
【对点训练8】实施新规后,某商场2020年1月份至10月份的收入情况如表.
月份
1
2
3
4
5
6
7
8
9
10
收入(万元)
10
12
15
13
16
17
15
16
16
20
并计算得,,,.
(1)是否可用线性回归模型拟合与的关系?请用相关系数加以说明;(当时,那么变量,有较强的线性相关关系)
(2)建立关于的回归方程(结果保留1位小数),并预测该商场12月份的收入情况.(结果保留整数)
附:,.
9.残差图:
利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重的估计值等,
这样作出的图形称为残差图.
【对点训练9】(2021宁夏·银川一中三模)关于线性回归的描述,有下列命题:
①回归直线一定经过样本中心点;
②相关系数的绝对值越大,拟合效果越好;
③相关指数越接近1拟合效果越好;
④残差平方和越小,拟合效果越好.
其中正确的命题个数为( )
A.1 B.2 C.3 D.4
10.相关系数.越大,说明残差平方和越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,表示解释变量对于预报变量变化的贡献率,越接近于1,表示回归的效果越好.
【对点训练10】甲、乙、丙、丁四名同学在建立变量的回归模型时,分别选择了4种不同的模型,并计算出了相应的相关指数如右表,则哪个同学的模型最好( )
甲
乙
丙
丁
0.78
0.98
0.85
0.63
A.甲 B.乙 C.丙 D.丁
11.非线性回归问题的处理方法
一般地,有些非线性回归模型通过变换可以转化为线性回归模型,即借助于线性回归模型研究呈非线性回归关系的两个变量之间的关系:
(1)如果散点图中的点分布在一个直线状带形区域,可以选用线性回归模型来建模;
(2)如果散点图中的点分布在一个曲线状带形区域,要先对变量作适当的变换,再利用线性回归模型来建模.
(3)非线性回归方程的求法
①根据原始数据(x,y)作出散点图;
②根据散点图,选择恰当的拟合函数。
【对点训练11】(202陕西渭南高三月考)某保险公司根据官方公布的历年营业收入,制成表格如下:
表1
年份
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
年份序号x
1
2
3
4
5
6
7
8
9
10
营业收入y(亿元)
0.52
9.36
33.6
132
352
571
912
1207
1682
2135
由表1,得到下面的散点图:
根据已有的函数知识,某同学选用二次函数模型(b和a是待定参数)来拟合y和x的关系.这时,可以对年份序号做变换,即令,得,由表1可得变换后的数据见表2.
表2
T
1
4
9
16
25
36
49
64
81
100
Y
0.52
9.36
33.6
132
352
571
912
1207
1682
2135
(1)根据表中数据,建立y关于t的回归方程(系数精确到个位数);
(2)根据(1)中得到的回归方程估计2021年的营业收入,以及营业收入首次超过4000亿元的年份.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.
参考数据:.
12.分类变量
(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)对分类变量说明
分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等等.分类变量的取值有时可用数字来表示但这时的数字除了分类以外没有其他的含义.如用“0”表示“男”,用“1”表示“女”.
【对点训练12】(2021·河北·模拟预测)有两个分类变量和,其中一组观测值为如下的2×2列联表:
总计
15
50
总计
20
45
65
其中,均为大于5的整数,则__________时,在犯错误的概率不超过的前提下为“和之间有关系”.附:
13. 列联表
(1)像下表所示列出两个分类变量的频数表,称为列联表.假设有两个分类变量和,它们的可能取值分别为和,其样本频数列联表(称为列联表)为
y1
y2
总计
x1
a
b
x2
c
d
总计
(2)对2×2列联表的说明
在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad-bc|越小,关系越弱;|ad-bc|越大,关系越强.
【对点训练13】(2020安徽蚌埠三模)某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高条形图,则________ (填“能”或“不能”)有以上的把握认为是否持乐观态度与国内外差异有关.
附.
0.050
0.010
0.005
0.001
k
3.841
6.635
7.879
10.828
14.判断两个分类变量是否有关系的两种常用方法
(1)利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.
(2)一般地,在等高条形图中, 相差越大,两个分类变量有关系的可能性就越大.
【对点训练14】2.(2022·全国·高三专题练习(文))假设有两个变量x与y的2×2列联表如下表:
a
b
c
d
对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为( )
A. B.
C. D.
15. 独立性检验
构造一个随机变量 ,其中为样本容量.
如果的观测值,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过.上面这种利用随机变量来判断“两个分类变量有关系”的方法称为独立性检验.
【对点训练15】(2021江苏省如皋中学高三月考)为落实十三五规划节能减排的国家政策,某职能部门对市场上两种设备的使用寿命进行调查统计,随机抽取型和型设备各台,得到如下频率分布直方图:
(1)估算型设备的使用寿命的第百分位数.
(2)将使用寿命超过小时和不超过小时的台数填入下面的列联表:
超过小时
不超过小时
总计
型
型
总计
根据上面的列联表,能否有的把握认为使用寿命是否超过小时与型号有关?
(3)已知用频率估计概率,现有一项工作需要台同型号设备同时工作小时才能完成,工作期间设备损坏立即更换同型号设备(更换设备时间忽略不计),型和型设备每台的价格分别为1万元和万元,型和型设备每台每小时耗电分别为度和度,电价为元/度.只考虑设备的成本和电费,你认为应选择哪种型号的设备,请说明理由.参考公式:,.
参考数据:
0.050
0.010
0.001
3.841
6.635
10.828
16.在实际问题中常用的几个数值
(1)k>6.635表示认为“X与Y有关系”犯错误的概率不超过0.01.
(2)k>3.841表示认为“X与Y有关系”犯错误的概率不超过0.05.
(3)k>2.706表示认为“X与Y有关系”犯错误的概率不超过0.1.
【对点训练16】8.(2022·全国·高三专题练习)春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到列联表:
分类
做不到“光盘”
能做到“光盘”
男
45
10
女
30
15
由此列联表得到的正确结论是( )
A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”
D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”
二、跟踪检测
一、单选题
1.对两个变量y与x进行回归分析,分别选择不同的模型,它们的相关系数r如下,其中拟合效果最好的模型是( )
A.0.2 B.0.8 C.-0.98 D.-0.7
2.为考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:
患病
未患病
总计
服用药
10
40
50
没服用药
20
30
50
总计
30
70
100
附:,其中
()
0.05
0.010
0.001
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“服药与患病无关”
B.在犯错误的概率不超过0.1%的前提下,认为“服药与患病有关”
C.有95%以上的把握认为“服药与患病有关”
D.有95%以上的把握认为“服药与患病无关”
3.某校团委对“学生性别和喜欢某热门软件是否有关”作了一次调查,其中被调查的女生人数是男生人数的,男生喜欢该软件的人数占男生人数的,女生喜欢该软件的人数占女生人数.若有95%的把握认为是否喜欢该软件和性别有关,则男生至少有( )
0.050
0.010
3.841
6.635
A.12人 B.6人 C.10人 D.18人
4.(2021·广东肇庆市高三月考)据一组样本数据,,…,,求得经验回归方程为,且.现发现这组样本数据中有两个样本点和误差较大,去除后重新求得的经验回归直线的斜率为1.2,则( )
A.变量与具有正相关关系
B.去除两个误差较大的样本点后,重新求得的回归方程仍为
C.去除两个误差较大的样本点后,的估计值增加速度变快
D.去除两个误差较大的样本点后,相应于样本点的残差为0.05
5.(2022·全国·高三专题练习(文))对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中不正确的是( )
A.由样本数据得到的回归方程=x+必过样本中心(,)
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.直线=x+和各点(x1,y1),(x2,y2),…,(xn,yn)的偏差是该坐标平面上所有直线与这些点的偏差中最小的
6.为了解某高校学生使用手机支付和现金支付的情况,抽取了部分学生作为样本,统计其喜欢的支付方式,并制作出如等高条形图:
根据图中的信息,下列结论中不正确的是( )
A.样本中多数男生喜欢手机支付
B.样本中的女生数量少于男生数量
C.样本中多数女生喜欢现金支付
D.样本中喜欢现金支付的数量少于喜欢手机支付的数量
7.某校为了了解学生性别与对篮球运动的态度(喜欢或不喜欢),随机抽取部分同学进行了一次调查,其中被调查的男生和女生人数相同,得到如图所示的等高条形统计图,若有超过的把握认为性别与对篮球运动的态度有关,则被调查的总人数可能为( )
附:,其中.
A. B. C. D.
8.变量x,y的线性相关系数为,变量m,n的线性相关系数为,下列说法错误的是( )
A.若,则说明变量x,y之间线性相关性强
B.若,则说明变量x,y之间的线性相关性比变量m,n之间的线性相关性强
C.若,则说明变量x,y之间的相关性为正相关
D.若,则说明变量x,y之间线性不相关
9.已知相关变量和的散点图如图所示,若用与拟合时的相关系数分别为则比较的大小结果为( )
A. B. C. D.不确定
10.(2021河南商丘高三月考)某服装品牌市场部门为了研究销售情况,统计了一段时间内该品牌不同服装的单价(元)和销售额(元)的数据,整理得到下面的散点图:
已知销售额单价销量,根据散点图,下面四个回归方程类型中最适宜作为服装销量与单价的回归方程类型的是( )
A. B. C. D.
11.如下表,根据变量与之间的对应数据可求出.其中.现从这个样本点对应的残差中任取一个值,则残差不大于的概率为( )
A. B. C. D.
12.某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:
第天
1
2
3
4
5
使用人数()
15
173
457
842
1333
由表中数据可得y关于x的回归方程为,则据此回归模型相应于点(2,173)的残差为( )
A. B. C.3 D.2
二、多选题
13.(2022江苏高三专题练习)以下结论正确的是( )
A.根据列联表中的数据计算得出,而,则有99%的把握认为两个分类变量有关系
B.的值越大,两个事件的相关性就越大
C.在回归分析中,相关指数越大,说明残差平方和越小,回归效果越好
D.在回归直线中,变量时,变量的值一定是15
14.(2021广东深圳市高三月考)某电子商务平台每年都会举行“年货节”商业促销狂欢活动,现统计了该平台从2012年到2020年共9年“年货节”期间的销售额(单位:亿元)并作出散点图,将销售额y看成年份序号x(2012年作为第1年)的函数.运用Excel软件,分别选择回归直线和三次函数回归曲线进行拟合,效果如下图,则下列说法中正确的是( )
A.销售额y与年份序号x呈正相关关系
B.销售额y与年份序号x线性相关显著
C.三次函数回归曲线的拟合效果好于回归直线的拟合效果
D.根据三次函数回归曲线可以预测2021年“年货节”期间的销售额约为8454亿元
15.(2021江苏泰州中学高三月考)(多选)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,随机观察了他所在地区的100天中的“日落云里走”的情况和后半夜天气情况,得到如下数据,
后半夜天气情况
“日落云里走”的情况
下雨
未下雨
总计
出现
25
5
30
未出现
25
45
70
总计
50
50
100
并计算得到,则小波对该地区天气的判断正确的是( )
A.后半夜下雨的概率约为
B.未出现“日落云里走”时,后半夜下雨的概率约为
C.有99%的把握认为“‘日落云里走’是否出现”与“后半夜是否下雨”有关
D.若出现“日落云里走”,则后半夜有99%的可能会下雨
16.(2021重庆市实验中学高三开学考试)下列说法正确的是( )
A.根据一组样本数据的散点图判断出两个变量,线性相关,由最小二乘法求得其回归方程为,若样本中心点为,则
B.已知随机变量的数学期望,若,则
C.用相关指数来刻画回归的效果,的值越接近,说明模型的拟合效果越好
D.已知袋中装有大小完全相同的个红球和个黑球,若有放回地从中摸球,用事件表示“第一次摸到红球”,事件表示“第二次摸到黑球”,则事件与事件是相互独立事件
17.(2021重庆市杨家坪中学高三月考)某校计划在课外活动中新增攀岩项目,为了解学生喜欢攀岩和性别是否有关,面向学生开展了一次随机调查,其中参加调查的男女生人数相同,并绘制如下等高条形图,则( )
A.参与调查的学生中喜欢攀岩的男生人数比喜欢攀岩的女生人数多
B.参与调查的女生中喜欢攀岩的人数比不喜欢攀岩的人数多
C.若参与调查的男女生人数均为100人,则有的把握认为喜欢攀岩和性别有关
D.无论参与调查的男女生人数为多少,都有的把握认为喜欢攀岩和性别有关
三、填空题
18.(2021黑龙江佳木斯一中三模)下列说法正确的有_____.
①统计中用相关系数r来衡量两个变量之间的线性关系的强弱.线性相关系数r越大,两个变量的线性相关性越强;反之,线性相关性越弱.
②在线性回归模型中,计算相关指数R2≈0.6,表明解释变量解释了60%预报变量的变化.
③为了了解本校高三学生1159名学生的三模数学成绩情况,准备从中抽取一个容量为50的样本,现采用系统抽样的方法,需要从总体中剔除9个个体,在整体抽样过程中,每个个体被剔除的概率和每个个体被抽到的概率分别是和.
④随机变量X~N(μ,σ2),则当μ一定时,曲线的形状由σ确定,σ越小,曲线越“矮胖”.
⑤身高x和体重y的关系可以用线性回归模型y=bx+a+e来表示,其中e叫随机误差,则它的均值E(e)=0.
19.和的散点图如图所示,则下列说法中所有正确命题的序号为______.
①,是负相关关系;
②,之间不能建立线性回归方程;
③在该相关关系中,若用拟合时的相关指数为,用拟合时的相关指数为,则.
20.如图所示是世界20个地区受教育程度的人口百分比与人均收入的散点图,样本点基本集中在一个条型区域,因此两个变量呈线性相关关系.利用散点图中的数据建立的回归方程为,若受教育的人口百分比相差10%,则其人均收入相差_________.
四、解答题
21.(2021河南省实验中学高三月考)为推动实施健康中国战略,树立国家大卫生、大健康概念,手机也推出了多款健康运动软件,如“微信运动”.张先生的微信朋友圈内有位好友参与了“微信运动”,他随机选取了位微信好友(女人,男人),统计其在某一天的走路步数.其中,女性好友的走路步数数据记录如下:
男性好友走路的步数情况可分为五个类别:(步(说明:“”表示大于等于0,小于等于2000,下同),(步),(步),(步),(步及以上),且三种类别入数比例为,将统计结果绘制如图所示的条形图.若某人一天的走路步数超过步被系统认定为“卫健型”,否则被系统认定为“进步型”.
卫健型
进步型
总计
男
20
女
20
总计
40
(1)若以张先生选取的好友当天行走步数的频率分布来估计所有微信好友每日走路步数的概率分布,请估计张先生的微信好友圈里参与“微信运动”的名好友中,每天走路步数在步的人数;
(2)请根据选取的样本数据完成下面的列联表并据此判断能否有以上的把握认定“认定类型”与“性别”有关?
(3)若按系统认定类型从选取的样本数据中在男性好友中按比例选取人,从该10人中再任意选取人,记选到“卫健型”的人数为;女性好友中按比例选取人,从该5人中再任意选取人,记选到“卫健型”的人数为,求事件“”的概率.
附:,
22.为了更好的指导青少年健康饮食,某机构调查了本地区不同身高的未成年男性,得到他们的体重的平均值,并对数据做了初步处理,得到下面的散点图及一些统计量的值.
(其中,)
(1)根据散点图判断回归方程①;②都可以作为这个地区未成年男性体重千克与身高厘米的回归方程,请结合相关系数判断哪一个回归方程更合适,并说明理由;
(2)根据(1)的判断结果及表中的数据写出体重千克与身高厘米的回归方程;
(3)若体重超过相同身高男性体重平均值的倍为偏胖,低于倍为偏瘦,现该地区有一名身高厘米的未成年男性,根据(2)的结果请你给出一个合理建议,指出他的体重应该控制在多少千克的范围内?
参考数据:;参考公式:样本的相关系数,其回归直线方程 的斜率和截距的估计值分别为,.
相关试卷
这是一份清单40 变量间的相关关系与统计案例(解析版)-2022年新高考数学一轮复习知识方法清单与跟踪训练,共32页。试卷主要包含了知识与方法清单,跟踪检测,填空题,解答题等内容,欢迎下载使用。
这是一份清单33 抛物线(原卷版)-2022年新高考数学一轮复习知识方法清单与跟踪训练,共12页。试卷主要包含了知识与方法清单,跟踪检测,填空题,解答题等内容,欢迎下载使用。
这是一份清单32 双曲线(原卷版)-2022年新高考数学一轮复习知识方法清单与跟踪训练,共13页。试卷主要包含了知识与方法清单,跟踪检测,填空题,解答题等内容,欢迎下载使用。