所属成套资源:新高考数学一轮复习考点分类提升 讲义(2份,原卷版+解析版)
新高考数学一轮复习考点分类提升 第51讲 回归方程与独立性检验(讲义)(2份,原卷版+解析版)
展开
这是一份新高考数学一轮复习考点分类提升 第51讲 回归方程与独立性检验(讲义)(2份,原卷版+解析版),文件包含新高考数学一轮复习考点分类提升第51讲回归方程与独立性检验讲义原卷版doc、新高考数学一轮复习考点分类提升第51讲回归方程与独立性检验讲义解析版doc等2份试卷配套教学资源,其中试卷共38页, 欢迎下载使用。
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)散点图:把成对样本数据用平面直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(3)正相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.从散点图中看,满足正相关的点落在一条从左下角到右上角的直线附近.
(4)负相关:如果从整体上看,当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,我们就称这两个变量负相关.从散点图中看,满足负相关的点落在一条从左上角到右下角的直线附近.
(5)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
2.相关系数:
(1)公式:.
(2)当时,表明两个变量正相关;当时,表明两个变量负相关.
越接近于1,表明两个变量的线性相关性越强.越接近于0,表明两个变量之间几乎不存在线性相关关系.通常大于0.75时,认为两个变量有很强的线性相关性.
3.经验回归方程
已知Y与x的n对样本数据为,令,当a,b的取值为时,Q达到最小.我们将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的叫做的最小二乘估计.
4.列联表与独立性检验
(1)分类变量:我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.
(2)列联表:按研究问题的需要,将数据分类统计并做成表格加以保存,将下表这种形式的数据统计表称为2×2列联表.
(3),其中.
5.常用结论
(1)求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点.
(2)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
(3)根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
考点一:最小二乘法求回归直线方程
例1.(2023·新疆·统考二模)为了研究某公司工作人员人数x(单位:名)和月销售量y(单位:万元)的关系,从该公司随机抽取10名工作人员,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为.已知,,.若该公司工作人员为25名,据此估计其月销售量为( )
A.195B.200C.205D.210
【答案】C
【分析】计算、,根据回归方程的性质求出的值,再利用回归方程计算时的值.
【详解】根据题意,计算,,;
∴,
∴,
当时,可得,
所以估计其月销售量约为.
故选:C.
例2.为了研究某种病毒在特定环境下随时间变化的繁殖情况,得到了一些数据,绘制成散点图,发现用模型拟合比较合适.令,得到x,z满足下表:
经计算得,则( )
A.B.C.D.
【答案】A
【分析】根据最小二乘法,中心点必须在直线上即可求解.
【详解】根据题目所给的数据得 , ,
,
即 , ;
故选:A.
例3.某种产品的广告支出与销售额(单位:万元)之间有下表关系,与的线性回归方程为,当广告支出6万元时,随机误差的效应即离差(真实值减去预报值)为( ).
A.1.6B.8.4C.11.6D.7.4
【答案】A
【分析】代入,得到,从而得到随机误差的效应即离差.
【详解】当时,,故随机误差的效应即离差为.
故选:A
例4.某研究所收集、整理数据后得到如下列表:
由两组数据可以得到线性回归方程为,则______.
【答案】0.4
【分析】求出样本中心点,代入回归方程即可求解
【详解】根据题意可得,,,
又,所以
故答案为:
例5.已知的对应值如下表所示:
若与线性相关,且回归直线方程为,则__________.
【答案】
【分析】利用回归直线方程经过样本中心点,即可求出结果.
【详解】由表可知,,
因为回归直线方程经过样本中心点,
所以,
解得.
故答案为:2.
考点二:非线性回归问题
例6.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)的影响,对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图.根据散点图判断,下面四个回归模型中,最适合的是( )
A.y=bx+aB.C.D.
【答案】C
【分析】根据样本点分布的分布情况和函数的图象特征判断.
【详解】解:由散点图看出,样本点分布在开口向右的抛物线(上支)附近,
整体趋势递增,单位增长率逐渐变小,
所以函数较适宜,
故选:C
例7.(2023·山东德州·统考一模)黄河鲤是我国华北地区的主要淡水养殖品种之一,其鳞片金黄、体形梭长,尤以色泽鲜丽、肉质细嫩、气味清香而著称.为研究黄河鲤早期生长发育的规律,丰富黄河鲤早期养殖经验,某院校研究小组以当地某水产养殖基地的黄河鲤仔鱼为研究对象,从出卵开始持续观察20天,试验期间,每天固定时段从试验水体中随机取出同批次9尾黄河鲤仔鱼测量体长,取其均值作为第天的观测值(单位:),其中,.根据以往的统计资料,该组数据可以用Lgistic曲线拟合模型或Lgistic非线性回归模型进行统计分析,其中a,b,u为参数.基于这两个模型,绘制得到如下的散点图和残差图:
(1)你认为哪个模型的拟合效果更好?分别结合散点图和残差图进行说明:
(2)假定,且黄河鲤仔鱼的体长与天数具有很强的相关关系.现对数据进行初步处理,得到如下统计量的值:,,,,,,其中,,根据(1)的判断结果及给定数据,求关于的经验回归方程,并预测第22天时仔鱼的体长(结果精确到小数点后2位).
附:对于一组数据,,…,其回归直线的斜率和截距的最小二乘估计分别为,;参考数据:.
【答案】(1)拟合效果更好,答案见解析
(2),
【分析】(1)根据散点图,结合两个模型的特征进行判断即可;
(2)根据对数的运算性质,结合题中所给的公式和数据进行求解即可.
【详解】(1)Lgistic非线性回归模型拟合效果更好.
从散点图看,散点更均匀地分布在该模型拟合曲线附近;
从残差图看,该模型下的残差更均匀地集中在以残差为0的直线为对称轴的水平带状区域内.
(2)将转化为,
则,所以,
所以.
所以关于的经验回归方程为.
当时,体长.
例8.(2023·四川·校联考三模)党的二十大报告提出,从现在起,中国共产党的中心任务就是团结带领全国各族人民全面建成社会主义现代化强国、实现第二个百年奋斗目标,以中国式现代化全面推进中华民族伟大复兴.高质量发展是全面建设社会主义现代化国家的首要任务.加快实现高水平科技自立自强,才能为高质量发展注入强大动能.某科技公司积极响应,加大高科技研发投入,现对近十年来高科技研发投入情况分析调研,其研发投入(单位:亿元)的统计图如图1所示,其中年份代码、、、分别指年、年、、年.
现用两种模型①,②分别进行拟合,由此得到相应的回归方程,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下值:
表中,.
(1)根据残差图,比较模型①、②的拟合效果,应选择哪个模型?并说明理由;
(2)根据(1)中所选模型,求出关于的回归方程;根据所选摸型,求该公司年高科投研发投入的预报值.(回归系数精确到).
附:对于一组数据、、、,其回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)选模型②比较合适,理由见解析
(2)回归方程为,该公司年高科投研发投入的预报值为亿元
【分析】(1)根据残差点的分布可得出结论;
(2)令,可得出,利用参考数据可求出、的值,求出关于的回归方程,然后将代入回归方程,可得出该公司年高科投研发投入的预报值.
【详解】(1)应该选择模型②,理由如下:
由于模型②残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,故选模型②比较合适.
(2)根据模型②,令,研发投入与可用线性回归来拟合,所以.
则,所以,
则关于的线性回归方程为,
所以关于的回归方程为.
年,即时,(亿元),
所以该公司年高科技研发投入的预报值为(亿元).
考点三:计算卡方进行独立性检验
例9.(2023·陕西榆林·统考三模)若由一个列联表中的数据计算得,则( )
A.能有的把握认为这两个变量有关系
B.能有的把握认为这两个变量没有关系
C.能有的把握认为这两个变量有关系
D.能有的把握认为这两个变量没有关系
【答案】A
【分析】通过所给的观测值,同临界值表中的数据进行比较,得到结论.
【详解】因为,所以能有的把握认为这两个变量有关系.
故选:A
例10.(2023·宁夏银川·校联考二模)有如下四个命题:
①甲乙两组数据分别甲:1,2,3,4,5,6,7,8,9;乙:1,2,3,4,5,6,7,8,9,10.则甲乙的中位数分别为5和5.5.
②相关系数,表明两个变量的相关性较弱.
③若由一个列联表中的数据计算得的观测值约为4.567,则认为两个变量有关,此推断犯错误的概率不超过0.05.
附
④用最小二乘法求出一组数据的回归直线方程后要进行残差分析,相应数据的残差是指.
以上命题错误的序号是__________.
【答案】②
【分析】求出两组数据的中位数判断①;利用相关系数的意义判断②;利用的观测值与要求的临界值对判断③;利用残差的意义判断④.
【详解】对于①,甲组数据的中位数为,乙组数据的中位数为,故①正确;
对于②,相关系数时,两个变量有很强的相关性,故②错误;
对于③,的观测值约为,认为两个变量有关,此推断犯错误的概率不超过,故③正确;
对于④,残差分析中,相应数据的残差,故④正确,
所以命题错误的序号是②.
故答案为:②
例11.某中学统计了一个班40名学生中每一个学生的英语成绩与语文成绩,并制成了一个不完整的列联表如下:
则____________(填“有”或“没有”)的把握认为学生的英语成绩与语文成绩有关.
参考公式:,其中.
参考数据:
【答案】有
【分析】先将列联表填写完整,再计算进行判断.
【详解】由题意可得列联表如下:
则,
因此有的把握认为学生的英语成绩与语文成绩有关.
故答案为:有.
例12.(2023·广东·统考模拟预测)某学校开展消防安全教育活动,邀请消防队进校园给师生进行培训,培训结束后抽取了部分学生进行消防安全知识测试(满分100分),所得分数统计如表①所示,并按照学生性别进行分类,所得数据如表②所示.
表①
表②
(1)估计这次测试学生得分的平均值;(每组数据以所在区间的中点值为代表)
(2)依据小概率值的独立性检验,能否判断男生和女生对消防安全知识的掌握情况有差异?
参考公式:.
参考数据:
【答案】(1)82
(2)能判断男生和女生对消防安全知识的掌握情况有差异.
【分析】(1)根据每一组的频率,以及每组的中间值,代入公式求平均数;
(2)根据数据,结合列联表,计算求得的值,再根据参考公式求,和参考数据对比后,即可判断.
【详解】(1)依题意,估计平均值为.
(2)依题意,,解得,
可得列联表:
则,
故依据的独立性检验,能判断男生和女生对消防安全知识的掌握情况有差异.
一、单选题
1.对具有线性相关关系的变量,测得一组数据如下表,根据表中数据,利用最小二乘法得到回归直线方程,据此模型预测当时,y的估计值为( )
A.210B.210.5C.211.5D.212.5
【答案】C
【分析】求出样本中心,然后确定回归直线方程,即可求解预测当时,的估计值.
【详解】由题意可知:,
.
∵回归直线方程经过样本中心,∴,,
回归直线方程为:,
当时,的估计值为:.
故选:C.
2.某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价(元)和销售量(件)之间的一组数据如表所示:
按公式计算,与的回归直线方程是:,相关系数,则下列说法错误的是( )
A.变量,线性负相关且相关性较强;B.;
C.当时,的估计值为12.8;D.相应于点的残差为0.4.
【答案】D
【分析】根据相关性、相关系数判断A选项;利用样本中心点判断B选项;将代入回归直线方程,由此判断C选项;求得时的估计值,进而求得对应的残差,从而判断D选项.
【详解】对A,由表可知随增大而减少,可认为变量,线性负相关,且由相关系数可知相关性强,故A正确.
对B,价格平均,销售量.
故回归直线恒过定点,故,故B正确.
对C,当时,,故C正确.
对D,相应于点的残差,故D不正确.
故选:D
3.由数据,,…,可得关于的线性回归方程为,若,则( )
A.48B.52C.56D.80
【答案】A
【分析】根据回归直线方程必过样本中心即可求出结果.
【详解】因为,所以,所以,所以.
故选:A.
4.用模型拟合一组数据组,其中;设,得变换后的线性回归方程为,则( )
A.B.70C.D.35
【答案】C
【分析】根据回归直线方程,必过样本点中心,再利用换元公式,以及对数运算公式,化简求值.
【详解】因为,所以,,
即,
所以.
故选:C
5.以模型去拟合一组数据,设将其变换后得到线性回归方程,则原模型中的值分别是( )
A., B.,
C.,D.,
【答案】B
【分析】根据已知条件,结合对数函数的公式可得, 再结合线性回归方程即可求解.
【详解】
两边取对数,可得,
令 可得
∵线性回归方程
∴, 解得.
故选:B.
6.为了发展学生的兴趣和个性特长,培养全面发展的人才.某学校在不加重学生负担的前提下.提供个性、全面的选修课程.为了解学生对于选修课《学生领导力的开发》的选择意愿情况,对部分高二学生进行了抽样调查,制作出如图所示的两个等高条形图,根据条形图,下列结论正确的是( )
A.样本中不愿意选该门课的人数较多
B.样本中男生人数多于女生人数
C.样本中女生人数多于男生人数
D.该等高条形图无法确定样本中男生人数是否多于女生人数
【答案】B
【分析】根据等高条形图直接判断各个选项即可.
【详解】对于A,由图乙可知,样本中男生,女生都大部分愿意选择该门课,
则样本中愿意选该门课的人数较多,A错误;
对于BCD,由图甲可知,在愿意和不愿意的人中,都是男生占比较大,
所以可以确定,样本中男生人数多于女生人数,B正确,CD错误.
故选:B.
7.(2023·宁夏银川·校联考一模)考查棉花种子经过处理跟生病之间的关系得到如表数据:
根据以上数据,则( )
A.种子是否经过处理决定是否生病
B.种子是否经过处理跟是否生病无关
C.种子是否经过处理跟是否生病有关
D.以上都是错误的
【答案】C
【分析】根据表格提供的数据作出判断.
【详解】由列联表中的数据可知,
种子经过处理,得病的比例明显降低,
种子未经过处理,得病的比例要高些,
所以可得结论:种子是否经过处理跟是否生病有关.
故选:C
二、解答题
8.为了解温度对物质参与的某种化学反应的影响,研究小组在不同温度条件下做了四次实验,实验中测得的温度x(单位:°C)与的转化率y% (转化率=)的数据如下表所示:
(1)求y与x的相关系数(结果精确到0.01);
(2)该研究小组随后又进行了一次该实验,其中的起始量为50 g,反应结束时还剩余2.5 g,若已知y关于x的线性回归方程为,估计这次实验是在多少摄氏度的温度条件下进行的..
参考数据: ,,,.
参考公式:相关系数
【答案】(1)
(2)85°C
【分析】(1)计算出,带入相关系数的计算公式,即可算出答案.
(2)由线性回归方程必过样本中心点,即可算出的值,根据题意算出带入回归方程即可算出答案.
【详解】(1),
所以
;
(2)根据回归直线的性质,,即,得.
由条件可知,
令,得,
因此估计这次实验是在85°C的温度条件下进行的.
9.(2023·山东·校联考二模)根据国家统计局统计,我国2018—2022年的新生儿数量如下:
(1)由表中数据可以看出,可用线性回归模型拟合新生儿数量与年份编号的关系,请用相关系数加以说明;
(2)建立关于的回归方程,并预测我国2023年的新生儿数量.
参考公式及数据:,,,,,.
【答案】(1)理由见解析
(2),预测年的新生儿数量约为万人
【分析】(1)根据所给数据求出、,即可求出相关系数,从而判断即可;
(2)由(1)中数据求出,,即可得到回归直线方程,再将代入计算可得.
【详解】(1)因为,,
,
又,
,
所以,
因为与的相关系数近似为,说明与的线性相关程度相当高,
从而可以用线性回归模型拟合与的关系.
(2)由(1)可得,
所以,
所以关于的回归方程为,
将年对应的年份编号代入回归方程得,
所以我国年的新生儿数量约为万人.
10.习近平总书记在十九大报告中指出,必须树立和践行“绿水青山就是金山银山”的生态文明发展理念,这将进一步推动新能源汽车产业的迅速发展.以下是近几年我国某新能源乘用车的年销售量数据及其散点图:
(1)某位同学根据以上数据和散点图,得出与的销售(万辆)两种回归模型①,②,请判断哪一种模型更适宜?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立关于的回归方程,并预测2020年我国某新能源采用车的销售量(精确到0.1).
(3)我们可以用来刻画模型的拟合效果,越接近于1,表示回归的效果越好,现由散点图的样本点分布,也可以认为样本点集中在曲线的附近,用非线性回归模型求得关于的回归方程为,且.试与(2)中所求的回归模型比较,请用说明哪种模型的拟合效果更好.
附:最小二乘估计公式:,
参考数据(下面的,),,,,
【答案】(1);(2),79.7万辆;(3)第(2)问中的回归模型拟合效果更好.
【分析】(1)根据散点图点的分布直接判断;(2)先求均值,再代公式得,即得回归方程,最后把代入得估计值;(3)根据公式先求(2)中所求的回归方程对应值,再比较大小即可作判断.
【详解】(1)根据散点图,更适宜作为年销量关于年份代码的回归方程;
(2)依题意,
,
,
,
所以.
把代入,得.
故预测2020年我国某新能源乘用车的销量为79.7万辆.
(3)对于(2)中所求得的线性回归模型,,,
.
因为,
所以(2)中的回归模型拟合效果更好.
【点睛】本题考查散点图、求线性回归方程、利用线性回归方程估计、计算相关系数,考查基本分析求解能力,属中档题.
11.(2023·河南·校联考模拟预测)清明节,又称踏青节、行清节、三月节、祭祖节等,是传统的重大春祭节日,扫墓祭祀、缅怀祖先,是中华民族自古以来的优良传统.某社区进行流动人口统计,随机抽取了100人了解他们今年是否回老家祭祖,得到如下不完整的列联表:
(1)根据统计完成以上列联表,并根据表中数据估计该社区流动人口中50周岁以上的居民今年回老家祭祖的概率;
(2)能否有99.9%的把握认为回老家祭祖与年龄有关?
参考公式:,其中.
参考数据:
【答案】(1)列联表见解析;所求概率为
(2)有99.9%的把握认为是否回老家祭祖与年龄有关
【分析】(1)根据已知数据补全列联表后,由古典概型概率公式计算概率;
(2)计算出后可得结论.
【详解】(1)补全表格如下:
该社区中50周岁以上的居民今年回老家祭祖的概率为;
(2)∵,
∴有99.9%的把握认为是否回老家祭祖与年龄有关.
12.(2023·浙江·校联考三模)为贯彻落实习近平总书记关于学生近视问题的指示精神和《教育等八部门关于印发的通知》以及《中国防治慢性病中长期规划(2017-2025年)》等文件要求,切实提升我省儿童青少年视力健康整体水平,实施了,“明眸”工程.各中小学为推进近视综合防控,落实“明眸”工程,开展了近视原因的调查.其校为研究本校的近视情况与本校学生是否有长时间使用电子产品习惯的关系,在已近视的学生中随机调查了100人,同时在未近视的学生中随机调查了100人,得到如下数据:
(1)能否有99%的把握认为患近视与长时间使用电子产品的习惯有关?
(2)据调查,某校患近视学生约为46%,而该校长时间使用电子产品的学生约为30%,这些人的近视率约为60%.现从每天非长时间使用电子产品的学生中任意调查一名学生,求他患近视的概率.
附:,其中.
【答案】(1)有的把握认为患近视与长时间使用电子产品的习惯有关
(2)
【分析】(1)根据条件,利用公式求出,即可判断出结果;
(2)先弄清事件的构成,再利用条件概率公式即可求出结果.
【详解】(1)零假设为:学生患近视与长时间使用电子产品无关.
根据小概率的独立性检验,没有充分证据推断出成立,所以不成立,
即有的把握认为患近视与长时间使用电子产品的习惯有关.
(2)设“长时间使用电子产品的学生”,“非长时间使用电子产品的学生”,
“任意调查一人,此人患近视”,
则,且互斥,,
根据全概率公式有
,
所以.总计
总计
考点一
最小二乘法求回归直线方程
考点二
非线性回归问题
考点三
计算卡方进行独立性检验
天数x(天)
2
3
4
5
6
z
1.5
4.5
5.5
6.5
7
2
4
5
6
8
30
40
60
70
80
x
2
3
4
5
6
y
3
7
9
10
11
0
2
4
6
8
1
11
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
0.050
0.010
0.001
3.841
6.635
10.828
英语成绩及格
英语成绩不及格
总计
语文成绩及格
20
语文成绩不及格
11
总计
25
40
0.1
0.05
0.01
2.706
3.841
6.635
英语成绩及格
英语成绩不及格
总计
语文成绩及格
20
4
24
语文成绩不及格
5
11
16
总计
25
15
40
得分
人数
50
100
200
400
250
男生
女生
得分不低于80分
4a
b
得分低于80分
a
b
0.01
0.005
0.001
6.635
7.879
10.828
男生
女生
总计
得分不低于80分
400
250
650
得分低于80分
100
250
350
总计
500
500
1000
x
2
4
5
6
8
y
20
40
60
70
80
价格
9
9.5
10
10.5
11
销售量
11
10
8
6
5
项目
种子处理
种子未处理
总计
得病
32
101
133
不得病
192
213
405
总计
224
314
538
x
45
55
65
75
y
23
38
65
74
年份编号
1
2
3
4
5
年份
2018
2019
2020
2021
2022
新生儿数量(单位:万人)
1523
1465
1200
1062
956
年份
2015
2016
2017
2018
2019
分年代码
1
2
3
4
5
某新能源车年销量(万辆)
1.5
5.9
17.7
32.9
55.6
回老家
不回老家
总计
50周岁及以下
55
50周岁以上
15
40
总计
100
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
回老家
不回老家
总计
50周岁及以下
5
55
60
50周岁以上
15
25
40
总计
20
80
100
长时间使用电子产品
非长时间使用电子产品
近视
45
55
未近视
20
80
0.10
0.05
0.01
0.005
0.001
2.706
3.841
6.635
7.879
10.828
相关试卷 更多
- 1.电子资料成功下载后不支持退换,如发现资料有内容错误问题请联系客服,如若属实,我们会补偿您的损失
- 2.压缩包下载后请先用软件解压,再使用对应软件打开;软件版本较低时请及时更新
- 3.资料下载成功后可在60天以内免费重复下载
免费领取教师福利