备战高二数学下学期期中(人教B)清单06 线性回归模型及独立性检验(考点梳理)(原卷版)
展开
这是一份备战高二数学下学期期中(人教B)清单06 线性回归模型及独立性检验(考点梳理)(原卷版),共20页。试卷主要包含了变量的相关关系,样本相关系数,6B.10C.10,5B.58C.60D.62,15B.1等内容,欢迎下载使用。
清单01 相关关系
1.变量的相关关系
2.样本相关系数
①样本相关系数r的计算公式:.
②样本相关系数r的性质:
清单02 回归模型
1.一元线性回归模型
①最小二乘法:即使得样本数据的点到回归直线的距离的平方和最小.
若变量x与y具有线性相关关系,有n个样本数据,则回归方程中,
.
其中,称为样本点的中心.
②线性回归模型,其中称为随机误差,自变量称为解释变量,因变量称为预报变量
2.判断回归模型的拟合效果
清单03 独立性检验
1.2×2列联表
设X,Y为两个变量,它们的取值分别为和,其样本频数列联表(列联表)如下:
2.独立性检验
①利用随机变量(也可表示为)(其中为样本容量)来判断“两个变量有关系”的方法称为独立性检验;
②基于小概率值的检验规则:
当时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过;
当时,我们没有充分证据推断H0不成立,可以认为X和Y独立
【考点题型一】相关关系的辨析及计算()
【例1】某景区试卖一款纪念品,现统计了该款纪念品的定价(单位:元)与销量(单位:百件)的对应数据,如下表所示:
(1)求该纪念品定价的平均值和销量的平均值;
(2)计算与的相关系数;
(3)由(2)的计算结果,判断能否用线性回归模型拟合与的关系,并说明理由.
参考数据:.
参考公式:相关系数.
【变式1-1】为研究光照时长(小时)和种子发芽数量(颗)之间的关系,某课题研究小组采集了9组数据,绘制散点图如图所示,并对进行线性回归分析.若在此图中加上点后,再次对进行线性回归分析,则下列说法正确的是( )
A.不具有线性相关性B.相关系数变大
C.相关系数变小D.相关系数不变
【变式1-2】对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )
A.B.
C.D.
【变式1-3】根据如表样本数据:
得到回归方程,(回归方程的斜率,截距,满足:),则下列结论:
①变量x与y是线性正相关关系,②变量x与y是线性负相关关系,③,④,其中正确的是( )
A.①③B.②③C.①④D.②④
【变式1-4】某企业坚持以市场需求为导向,合理配置生产资源,不断探索、改革销售模式.下表是该企业每月生产的一种核心产品的产量(件)与相应的生产总成本(万元)的五组对照数据:
试求与的相关系数,并利用相关系数说明与是否高度正相关.(结果保留两位小数)
参考公式:.
参考数据:.
【考点题型二】样本中心点的应用()
【例2】已知由一组样本数据确定的经验回归方程为,且,发现有两组数据与误差较大,去掉这两组数据后,重新求得经验回归直线的斜率为1.4,那么当时,的值为( )
A.9.6B.10C.10.6D.9.4
【变式2-1】已知和之间的一组数据如右表;与线性相关,且回归方程为,为的方差的0.6倍,则当时, .
【变式2-2】某种兼职工作虽然以计件的方式计算工资,但是对于同一个人的工资与其工作时间还是存在一定的相关关系,已知小孙的工作时间(单位:小时)与工资(单位:元)之间的关系如表:
若对的线性回归方程为,则的值为( )
A.56.5B.58C.60D.62.5
【变式2-3】已知个点大致呈线性分布,其中,且数据的回归直线方程为,则的最小值为 .
【变式2-4】蚊虫的繁殖生长与气温有密切关系,某地科研机构通过观测数据得到该地蚊虫密度与年平均气温(单位:)的关系可用模型来拟合,利用观测数据求得,且,若,则的最大值为( )
A.B.C.D.
【考点题型三】线性回归模型的应用()
【例3】近几年我国新能源汽车产业快速发展,据行业数据显示,新能源汽车的数量在不断增加.下表为某城市统计的近5年新能源汽车的新增数量,其中为年份代号,(单位:万辆)代表新增新能源汽车的数量.
(1)计算样本相关系数,判断是否可以用线性回归模型拟合与的关系,当时,可以认为两个变量有很强的线性相关性;否则,没有很强的线性相关性.
(2)求关于的经验回归方程,并据此估计该城市2026年的新增新能源汽车的数量;
参考数据:.参考公式:.
【变式3-1】年初,甲流在国内肆意横行,下表是某单位统计了5天内每日新增患甲流的员工人数.
已知现用最小二乘法算得线性回归方程是( )
A.B.C.D.
【变式3-2】某市为创建全国文明城市,自2019年1月1日起,在机动车斑马线礼让行人方面,通过公开违规行车的照片及车牌号,效果显著.下表是该市人民广场某路口连续5年监控设备抓拍到该路口机动车不礼让行人的统计数据:记方案执行时间为执行后第年,不礼让行人车数为(单位:百辆).
(1)求不礼让行人车数与执行时间之间的经验回归方程;
(2)预测该路口2025年不礼让行人车数.
参考公式:经验回归方程中斜率和截距的最小二乘法估计公式分别为,.
【变式3-3】2023年是全面贯彻落实党二十大精神的开局之年,也是实施“十四五”规划承上启下的关键之年,经济增长呈现稳中有进的可喜现象.2023年8月4日,贵州省工业和信息化厅召开推进贵州刺梨产业高质量发展专题会议,安排部署加快推进特色优势产业刺梨高质量发展工作,集中资源、力量打造“贵州刺梨”公共品牌.贵州省为做好刺梨产业的高质量发展,项目组统计了全省近5年刺梨产业综合总产值的各项数据如下:
年份,综合产值(单位:亿元)
(1)根据表格中的数据,可用一元线性回归模型刻画变量与变量之间的线性相关关系,请用相关系数加以说明(精确到0.01);
(2)求出关于的经验回归方程,并预测2023年底贵州省刺梨产业的综合总产值.
参考公式:
相关系数.回归方程中斜率和截距的最小二乘法估计公式分别为,;
参考数据:,,,,,.
【变式3-4】为了检查一批零件的质量是否合格,检查员计划从中依次随机抽取零件检查:第次检查抽取号零件,测量其尺寸(单位:厘米).检查员共进行了100次检查,整理并计算得到如下数据:,,.
(1)这批零件共有1000个.若在抽查过程中,质量合格的零件共有60个,估计这批零件中质量合格的零件数量;
(2)若变量与存在线性关系,记,求回归系数的值;
(3)在抽出的100个零件中,检查员计划从中随机抽出20个零件进行进一步检查,记抽出的20个零件中有对相邻序号的零件,求的数学期望.
示例零件序号为“1、2、4、5”与“1、2、3、5”时均恰有2对相邻序号的零件.
参考公式:(1)线性回归方程:,其中,.
(2)期望的线性性质:,其中是若干随机变量.
【考点题型四】残差与相关指数问题()
【例4】已知变量x和变量y的一组成对样本数据(,2,3,…,18),其中,其经验回归方程为,现又增加了2个样本点,,得到新样本的经验回归方程为.在新的经验回归方程下,若样本的残差为,则m的值为( )
A.3.15B.1.75C.2.35D.1.95
【变式4-1】在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2016年至2023年的新增光伏装机量进行调查,根据散点图选择了两个模型进行拟合,并得到相应的经验回归方程.为判断模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1)甲同学通过计算残差作出了两个模型的残差图,如图所示;
(2)乙同学求出模型①的残差平方和为0.4175、模型②的残差平方和为1.5625;
(3)丙同学分别求出模型①的决定系数、模型②的决定系数为;
经检验,模型①拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是 .(填“甲”或“乙”或“丙”)
【变式4-2】某团队尝试用回归模型甲、乙、丙、丁描述人的1000米跑步成绩与肺活量的关系,已知模型甲、乙、丙、丁对应的决定系数分别为,则拟合效果最好的模型是( )
A.甲B.乙C.丙D.丁
【变式4-3】2023年全国竞走大奖赛(第1站)暨世锦赛及亚运会选拔赛3月4日在安徽黄山开赛.重庆队的贺相红以2小时22分55秒的成绩打破男子35公里竞走亚洲纪录.某田径协会组织开展竞走的步长和步频之间的关系的课题研究,得到相应的试验数据:
(1)根据表中数据,得到步频和步长近似为线性相关关系,求出关于的回归直线方程,并利用回归方程预测,当步长为时,步频约是多少?
(2)记,其中为观测值,为预测值,为对应的残差,求(1)中步长的残差的和,并探究这个结果是否对任意具有线性相关关系的两个变量都成立?若成立,请证明;若不成立,请说明理由.
参考数据:,.
参考公式:,.
【变式4-4】身高体重指数(BMI)的大小直接关系到人的健康状况,某高中高三(1)班班主任为了解该班学生的身体健康状况,从该班学生中随机选取5名学生,测量其身高、体重的数据如下表.
(1)求体重关于身高的线性回归方程,并预测身高为180cm的同学的体重;
(2)试分析学生的体重差异约有多少是由身高引起的?(注:结果保留两位小数)参考公式:线性回归方程中,,,其中,为样本平均值,.
【考点题型五】非线性回归分析()
【例5】经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度(单位:)和产卵数的10组观测数据作了初步处理,得到如图所示的散点图及一些统计量表.
表中,,.
(1)根据散点图判断,,与哪一个适宜作为与之间的回归方程模型(给出判断即可,不必说明理由),并求出关于的回归方程;
(2)某兴趣小组抽取两批鱼卵,已知第一批中共有5个鱼卵,其中“死卵”有2个;第二批中共有6个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.
附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计分别为,.
【变式5-1】用模型拟合一组数据时,为了求出回归方程,设,其变换后得到的线性回归方程为,则c=( )
A.0.5B.C.D.
【变式5-2】以模型去拟合一组数据时,已知如下数据:,则实数k的值为 .
【变式5-3】如图是某市2011年至2020年当年在售二手房均价(单位:千元/平方米)的散点图(图中年份代码1~10分别对应2011年~2020年).现根据散点图选择用和两个模型对年份代码和房价的关系进行拟合,经过数据处理得到两个模型对应回归方程的相关指数和一些统计量的值,如下表:
表中,.
(1)请利用相关指数判断:哪个模型的拟合效果更好;并求出该模型对应的回归方程(参数估计值精确到0.01);
(2)根据(1)得到的方程预计;到哪一年,该市的当年在售二手房均价能超过10.5千元/平方米.
参考公式:对于一组数据,,…,,其回归线的斜率和截距的最小二乘估计分别为:,.参考数据:,.
【变式5-4】《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴,要大力推进数字乡村建设,推进智慧农业发展.某乡村合作社借助互联网直播平台进行农产品销售,众多网红主播参与到直播当中,在众多网红直播中,统计了名网红直播的观看人次和农产品销售量的数据,得到如图所示的散点图.
(1)利用散点图判断,和哪一个更适合作为观看人次和销售量的回归方程类型;(只要给出判断即可,不必说明理由)
(2)对数据作出如下处理:得到相关统计量的值如表:
其中令,.
根据(1)的判断结果及表中数据,求(单位:千件)关于(单位:十万次)的回归方程,并预测当观看人次为万人时的销售量;
参考数据和公式:,
附:对于一组数据、、、,其回归线的斜率和截距的最小二乘估计分别为:,.
【考点题型六】独立性检验的概念辨析()
【例6】下表反映了12月份(共21个工作日)中,李华同学在每天的数学课上携带教材的情况,以及数学课上坐在李华同桌位置的同学,只有梓晴、陈伟和刘瑞可以作为李华的同桌.
从表格信息,我们可以推断( ):(附:)
A.有不小于95%的把握认为李华与梓晴同桌时上数学课有更大的概率携带教材
B.有不小于99%的把握认为李华与梓晴同桌时上数学课有更大的概率携带教材
C.有不小于95%的把握认为李华与刘瑞、陈伟同桌时上数学课有相等的概率携带教材
D.若强制刘瑞或陈伟与李华同桌,可能一定程度上提升李华上数学课携带教材的概率
【变式6-1】假设有两个分类变量和,它们的可能取值分别为和,其列联表如下:
对于以下数据,对同一样本能说明与有关的可能性最大的一组为( )
A.,,,B.,,,
C.,,,D.,,,
【变式6-2】根据分类变量x与y的成对样本数据,计算得到.依据的独立性检验,则下列结论正确的是( )
A.变量x与y不独立B.变量x与y不独立,这个结论犯错误的概率不超过0.05
C.变量x与y独立D.变量x与y独立,这个结论犯错误的概率不超过0.05
【变式6-3】(多选)为了探究某次数学测试中成绩达到优秀等级是否与性别存在关联,小华进行了深入的调查,并绘制了下侧所示的列联表(个别数据暂用字母表示):
经计算得:,参照下表:
则下列选项正确的为( )
A.
B.
C.可以在犯错误的概率不超过5%的前提下认为“数学达到优秀等级与性别有关”
D.没有充分的证据显示“数学达到优秀等级与性别有关”
【变式6-4】(多选)已知某地区成年男士的身高(单位:)服从正态分布,体重(单位:)服从正态分布.若从该地区随机选取成年男士100人,得到数据如下表,则
附:若,则.
,其中.
A.根据正态分布估计
B.根据正态分布估计
C.若,根据正态分布估计b,c,d的值,基于上述数值,根据小概率值的独立性检验,分析该地区成年男士身高超过与体重超过相关联
D.若,根据正态分布估计b,c,d的值,基于上述数值,根据小概率值的独立性检验,分析该地区成年男士身高超过与体重超过相互独立
【考点题型七】独立性检验综合应用()
【例7】DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,2024年末DeepSeekR1一经发布,引发全球轰动,其科技水准直接对标美国的OpenAIGPT4.对于人工智能公司而言,不同的客户使用需求不同,造成公司运营的技术成本不同.某调研公司对DeepSeek和OpenAI两家公司的客户使用的技术成本进行调研,随机抽取200个客户,将客户在使用时产生的技术成本分为高昂、较高、低廉三个类别进行数据统计如下表,其中技术成本高昂和较高情况下都称为为高成本运营,低廉称为低成本运营.
(1)请填写如下列联表,并判断能否有99%的把握认为两家公司的运营成本存在差异;
(2)对于技术成本而言,高成本运营占比越低,则认为技术水平越高.已知DeepSeek发布前penAI高成本运营占比为,设为DeepSeek发布后这两家公司抽取的个客户使用时的高成本运营占比,若,则可以认为DeepSeek的技术水平高于penAI,根据抽取的200个客户信息,是否能够认为DeepSeek的技术水平高于penAI.
附:
【变式7-1】小明为了了解不同性别的观众对蛇年春晚小品类节目的喜欢情况,随机选取了200名观看蛇年春晚的观众,得到如下列联表:
(1)求;
(2)在所有喜欢蛇年春晚小品类节目的观众中随机选1人,记该观众是男性观众的概率为,求出的估计值;
(3)根据小概率值的独立性检验,能否认为性别因素与喜欢与否有关联?
附:,其中.
【变式7-2】某学校为了调动学生学习数学的积极性,在高二年级举行了一次数学有奖竞赛,对考试成绩优秀(即考试成绩不小于分)的学生进行了奖励.学校为了掌握考试情况,随机抽取了部分考试成绩,并以此为样本制作了如图所示的样本频率分布直方图.已知第一小组的频数为.
(1)求的值和样本容量;
(2)估计所有参赛学生的平均成绩;
(3)假设在抽取的样本中,男生比女生多人,女生的获奖率为,填写下列列联表,并依据小概率值的独立性检验,判断男生与女生的获奖情况是否存在差异?
附:,
【变式7-3】某商场为改进服务质量,在进场购物的顾客中随机抽取了100人进行问卷调查.调查后,就顾客购物体验的满意度统计如下:
(1)请根据列联表,试判断是否有的把握认为顾客购物体验的满意度与性别有关;
(2)根据满意度利用分层随机抽样的方法从男性顾客中随机抽取5人,再从这5人中选出2人进行深入交流,记这2人中购物体验填写满意的人数为,求随机变量的分布列及数学期望.
附参考公式:,其中.
当时,没有充分的证据判断变量,有关联,可以认为变量,是没有关联的;
当时,有的把握判断变量,有关联;
当时,有的把握判断变量,有关联;
当时,有的把握判断变量,有关联.
【变式7-4】某物业公司为提高对某小区的服务质量,随机调查了该小区50名男业主和50名女业主,每位业主对该物业公司的服务给出满意或不满意的评价,得到如下列联表:
(1)依据的独立性检验,能否认为该小区男、女业主对该物业公司服务的评价有差异?
(2)从该小区的业主中任选一人,表示事件“选到的人对该物业公司的服务不满意”,表示事件“选到的人为女业主”,利用该调查数据,给出,的估计值.
附:.
相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度
正相关与负相关
如果从整体上看,
当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,则称这两个变量正相关;
当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关
线性相关
如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关
非线性相关
如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关
当r>0时,表明两个变量正相关;当r
相关试卷
这是一份备战高二数学下学期期中(人教B)清单04 随机变量的分布列(考点梳理)(原卷版),共19页。试卷主要包含了随机变量,06万元的户数?等内容,欢迎下载使用。
这是一份备战高二数学下学期期中(人教B)清单05 随机变量的均值与方差(考点梳理)(原卷版),共13页。试卷主要包含了离散型随机变量的均值,均值与方差的性质,61D.6等内容,欢迎下载使用。
这是一份备战高二数学下学期期中(人教B)清单06 线性回归模型及独立性检验(考点梳理)(解析版),共33页。试卷主要包含了变量的相关关系,样本相关系数,992,大于0,6B.10C.10,5B.58C.60D.62,14万辆,15B.1等内容,欢迎下载使用。
相关试卷 更多
- 1.电子资料成功下载后不支持退换,如发现资料有内容错误问题请联系客服,如若属实,我们会补偿您的损失
- 2.压缩包下载后请先用软件解压,再使用对应软件打开;软件版本较低时请及时更新
- 3.资料下载成功后可在60天以内免费重复下载
免费领取教师福利

