2023届高考人教B版数学一轮复习课件(适用于新高考新教材) 第九章 排列、组合与二项式定理、统计模型 9.3 一元线性回归模型与独立性检验
展开这是一份2023届高考人教B版数学一轮复习课件(适用于新高考新教材) 第九章 排列、组合与二项式定理、统计模型 9.3 一元线性回归模型与独立性检验,共60页。PPT课件主要包含了内容索引,必备知识预案自诊,关键能力学案突破,知识梳理,互相决定,随机性,平方和,最小二乘法,回归直线,线性相关等内容,欢迎下载使用。
1.相关关系如果两个变量之间确实有一定的关系,但没有达到可以 的程度,它们之间的关系带有一定的 ,像这样两个变量之间的关系,统计学上都称为相关关系.
2.线性相关(1)散点图一般地,如果收集到了变量x和变量y的n对数据(简称为成对数据),如下表所示.
则在平面直角坐标系xOy中描出点(xi,yi),i=1,2,3,…,n,就可以得到这n对数据的散点图.
(2)线性相关:如果由变量的成对数据、散点图或直观经验可知,变量x与变量y之间的关系可以近似地用 函数来刻画,则称x与y线性相关. (3)正相关和负相关若x与y线性相关,如果一个变量增大,另一个变量大体上也 ,则称这两个变量正相关;如果一个变量增大,另一个变量大体上 ,则称这两个变量负相关.
3.回归直线方程(1)一般地,已知变量x与y的n对成对数据(xi,yi),i=1,2,3,…,n.任意给定一个一次函数y=bx+a,对每一个已知的xi,由直线方程可以得到一个估计值
5.相关系数(1)定义:统计学里一般用r= =______________________ 来衡量y与x的线性相关性强弱,这里的r称为线性相关系数(简称为相关系数).
(2)性质①|r|≤ ,且y与x正相关的充要条件是 ,y与x负相关的充要条件是 ; ②|r|越 ,说明两个变量之间的线性相关性越 ,也就是得出的回归直线方程越没有价值,即方程越不能反映真实的情况;|r|越 ,说明两个变量之间的线性相关性越 ,也就是得出的回归直线方程越有价值; ③|r|=1的充要条件是成对数据构成的点都在 上.
6.非线性回归方程如果具有相关关系的两个变量x,y不是 关系,那么称为非线性相关关系,所得到的方程称为非线性回归方程(也简称为回归方程). 7.2×2列联表(1)定义:如果随机事件A与B的样本数据整理成如下的表格形式.因为这个表格中,核心的数据是中间的4个格子,所以这样的表格通常称为2×2列联表.(2)χ2计算公式:χ2= ,其中n= .
8.独立性检验任意给定一个α(称为 ,通常取为0.05,0.01等),可以找到满足条件P(χ2≥k)=α的数k(称为显著性水平α对应的 ).如果根据样本数据算出χ2的值后,发现χ2≥k成立,就称在犯错误的概率不超过 的前提下,可以认为A与B不独立(也称为A与B有关);或说有 的把握认为A与B有关.若χ2
2.(多选)下列说法不正确的有( )A.回归直线方程适用于一切样本和总体B.回归直线方程一般都有局限性C.样本取值的范围会影响回归直线方程的适用范围D.回归直线方程得到的函数值是精确值
答案 AD 解析 样本或总体具有线性相关关系时,才可求回归直线方程,而且由回归直线方程得到的函数值是近似值,而非精确值,因此回归直线方程有一定的局限性,所以A,D错误.
3.下表是降耗技术改造后生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对应数据,根据表中提供的数据,求出y关于x的回归直线方程为 =0.7x+0.35,则表中m的值为( )A.3B.3.5C.4D.4.5
4.如图是具有相关关系的两个变量的一组数据的散点图和回归直线,若去掉一个点使得余下的5个点所对应的数据的相关系数最大,则应当去掉的点是( )A.DB.EC.FD.A
答案 B 解析 因为相关系数的绝对值越大,越接近1,则说明两个变量的相关性越强.因为点E到直线的距离最远,所以去掉点E,余下的5个点所对应的数据的相关系数最大.
A.有99%的把握认为爱好该项运动与性别有关B.有99%的把握认为爱好该项运动与性别无关C.在犯错误的概率不超过5%的前提下,认为爱好该项运动与性别有关D.认为爱好该项运动与性别无关
答案 A 解析 因为P(χ2≥6.635)=0.01,由于8.333>6.635,所以有99%的把握认为爱好该项运动与性别有关,或在犯错误的概率不超过1%的前提下,认为爱好该项运动与性别有关.故选A.
【例1】 (1)(多选)有一散点图如图所示,在5组(x,y)数据中去掉D(3,10)后,下列说法正确的是( )
A.回归直线方程不变B.相关系数r变大C.各组数据对应的点到经验回归直线的距离的平方和变小D.变量x与变量y的相关程度变强
(2)某种产品的广告费支出x与销售额y之间有如下对应数据(单位:百万元).①画出散点图;②从散点图中判断销售金额与广告费支出成什么样的关系?
答案 BCD 根据D点在散点图中的位置可知,D比较偏离经验回归直线,故去掉D(3,10)后,数据比原来集中,相关程度变强,回归直线方程有所改变,A错误,B,C,D都正确.故选BCD.(2)解①以x对应的数据为横坐标,以y对应的数据为纵坐标,所作的散点图如图所示.②从图中可以发现广告费支出与销售金额之间具有相关关系,并且当广告费支出由小变大时,销售金额也大多由小变大,图中的数据大致分布在某条直线的附近,即x与y正相关.
解题心得判断相关关系的方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)样本相关系数法:利用样本相关系数判定,当|r|越接近1时,线性相关程度就越强.当r>0时,正相关;当r<0时,负相关.
A.0
答案 (1)D (2)C 解析 (1)由散点图得负相关,所以r1,r2<0,因为剔除点(10,21)后,剩下点数据更具有线性相关性,|r2|更接近1,所以-1
(1)求z关于t的回归直线方程;(2)通过(1)中的方程,求出y关于x的回归直线方程;(3)用所求回归直线方程预测到2022年年底,该地储蓄存款额可达多少?
解题心得1.相关关系的两种判定方法(1)利用散点图判定流程(2)利用相关系数判定流程计算r→结合r与线性相关的关系判断
2.求回归直线方程的步骤(1)列表表示xi,yi;(4)写出回归直线方程.
对点训练2在一段时间内,某种商品的价格x(单位:万元)和需求量y(单位:t)之间的一组数据为:(1)画出散点图;(2)建立y关于x的回归直线方程;(3)若价格定为1.9万元,预测需求量是多少.(精确到0.01)
解 (1)散点图如图所示.
(3)当x=1.9时,y=28.1-11.5×1.9=6.25,所以价格定为1.9万元,需求量大约是6.25 t.
【例3】 (2020山东青岛高三模拟)近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引了越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),统计数据如下表所示:
根据以上数据,绘制了如图所示的散点图.
(1)根据散点图判断,在推广期内,y=a+bx与y=c·dx(c,d均为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的回归直线方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表1中的数据,建立y关于x的回归直线方程,并预测活动推出第8天使用扫码支付的人次.
解题心得1.根据样本画出散点图.观察散点图中散点的分布,从整体看,如果散点没有在某一条直线附近,称这两个变量具有相关性,但不是线性相关,即这两个变量非线性相关.2.借助于散点图,与已学过的函数(如指数函数、对数函数、幂函数等)的图像相比较,找到合适的函数模型.3.通过变量转换,把非线性回归问题化成线性回归问题,并求出回归直线方程.4.再利用变量代换,可得非线性回归直线方程.
对点训练3(2020山东淄博高三一模)根据国家统计局数据,1978年至2018年我国GDP总量从0.37万亿元跃升至90万亿元,实际增长了243倍多,综合国力大幅提升.
解 (1)根据数据及图表可以判断,y=cedt更适宜作为全国GDP总量y关于t的回归直线方程.
【例4】 某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.根据过去50周的资料显示,该基地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,
该基地的西红柿增加量y(单位:千克)与使用某种液体肥料的质量x(单位:千克)之间的关系如图所示.
(1)依据上图,是否可用线性回归模型拟合y与x的关系?请计算相关系数r并加以说明(精确到0.01).(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较大,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:
若某台光照控制仪运行,则该台光照控制仪周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.以频率作为概率,商家欲使周总利润的均值达到最大,应安装光照控制仪多少台?
(2)记商家周总利润为Y元,由条件可知至少需安装1台,最多安装3台光照控制仪.①安装1台光照控制仪可获得周总利润3 000元.②安装2台光照控制仪的情形:当X>70时,只有1台光照控制仪运行,此时周总利润Y=3 000-1 000=2 000(元),所以E(Y)=2 000×0.2+6 000×0.8=5 200(元).
故Y的分布列为所以E(Y)=1 000×0.2+5 000×0.7+9 000×0.1=4 600(元).综上可知,为使商家周总利润的均值达到最大,应该安装2台光照控制仪.
解题心得在求两变量相关系数和两变量的回归方程时,由于r和 的公式组成比较复杂,求它们的值计算量比较大,为了计算准确,可将其分成几个部分分别计算,这样等同于分散难点,各个攻破,提高了计算的准确度.
解题心得比较两个模型拟合效果的好坏,则需计算决定系数或画出残差图求解,R2越接近1,则拟合效果越好,进行残差分析时,若残差比较均匀地落在水平的带状区域中,说明选用的模型比较合适,且这样的带状区域越窄这说明模型的拟合精度越高,回归直线方程的预报精度越高.
对点训练4 艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(HIV病毒)引起,它把人体免疫系统中最重要的CD4细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒感染人数统计表:
(1)请根据该统计表,画出这八年我国艾滋病病毒感染人数的折线图;(2)请用样本相关系数说明:能用一元线性回归模型拟合y与x的关系;(3)建立y关于x的回归直线方程(参数精确到0.01),并估计2019年我国艾滋病病毒感染人数.
解 (1)我国艾滋病病毒感染人数的折线图如图所示.
【例5】 (2020海南三亚模拟)自2017年起,部分省、市陆续实施了新高考,某省采用了“3+3”的选科模式,即考试除必考的语文、数学、外语三科外,再从物理、化学、生物、历史、地理、思想政治六个学科中,任意选取三科参加高考,为了调查新高考中考生的选科情况,某地区调查小组进行了一次调查,研究考生选择化学与选择物理是否有关系.已知在调查数据中,选物理的考生与不选物理的考生人数相同,其中选物理且选化学的人数占选物理人数的 ,在不选物理的考生中,选化学与不选化学的人数比为1∶4.
(1)若在此次调查中,选物理未选化学的考生有100人,试完成下面的列联表.(2)根据第(1)问的数据,能否有99%把握认为选择化学与选择物理有关?(3)若研究得到在犯错误概率不超过1%的前提下,认为选化学与选物理有关,则选物理又选化学的人数至少有多少?(单位:千人;精确到0.001)
解 (1)列联表如下:
(3)设选物理又选化学的有x千人,则列联表如下:
对点训练5每年六、七月份,我国长江中下游地区进入持续25天左右的梅雨季节,如图是江南Q镇2009~2018年梅雨季节的降雨量(单位:mm)的频率分布直方图,试用样本频率估计总体概率,解答下列问题:
(1)请用样本平均数估计Q镇明年梅雨季节的降雨量.(2)Q镇的杨梅种植户老李在犯愁,他过去种植的甲品种杨梅,亩产量受降雨量的影响较大(把握超过八成).而乙品种杨梅2009~2018年的亩产量(单位:kg/亩)与降雨量的发生频数(单位:年)如2×2列联表所示(部分数据缺失).请你帮助老李排解忧愁,他来年种植哪个品种的杨梅受降雨量影响更小?(完善列联表,并说明理由)
解 (1)频率分布直方图中第四组的频率为1-100×(0.002+0.004+0.003)=0.1.所以用样本平均数估计Q镇明年梅雨季节的降雨量为150×0.2+250×0.4+350×0.3+450×0.1=30+100+105+45=280(mm).(2)根据频率分布直方图可知,降雨量在[200,400)内的频数为10×100×(0.003+0.004)=7.进而完善列联表如下.
相关课件
这是一份2024届高考数学一轮复习(新教材人教A版强基版)第九章统计与成对数据的统计分析9.3一元线性回归模型及其应用课件,共60页。PPT课件主要包含了落实主干知识,探究核心题型,课时精练,有关系,正相关,负相关,一条直线,样本相关系数,一元线性回归模型,预测值等内容,欢迎下载使用。
这是一份人教B版高考数学一轮总复习55统计模型习题课件,共33页。PPT课件主要包含了A组全考点巩固练,B组新高考培优练等内容,欢迎下载使用。
这是一份2023届高考人教B版数学一轮复习课件(适用于新高考新教材) 第九章 排列、组合与二项式定理、统计模型 9.1 两个基本计数原理、排列与组合,共60页。PPT课件主要包含了内容索引,必备知识预案自诊,知识梳理,一定的顺序,取出所有对象,并成一组,所有排列,常用结论,考点自诊,答案B等内容,欢迎下载使用。