新高考数学一轮复习课件 第9章 §9.3 成对数据的统计分析
展开§9.3 成对数据的统计分析
1.了解样本相关系数的统计含义.2.理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.3.会利用统计软件进行数据分析.
LUOSHIZHUGANZHISHI
1.变量的相关关系(1)相关关系:两个变量 ,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)相关关系的分类: 和 .(3)线性相关:一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在 附近,我们称这两个变量线性相关.
(2)当r>0时,称成对样本数据 ;当r<0时,称成对样本数据 .(3)|r|≤1;当|r|越接近1时,成对样本数据的线性相关程度越 ;当|r|越接近0时,成对样本数据的线性相关程度越 .
(2)残差:观测值减去 ,称为残差.
4.列联表与独立性检验(1)关于分类变量X和Y的抽样数据的2×2列联表:
(2)计算随机变量χ2= ,利用χ2的取值推断分类变量X和Y 的方法称为χ2独立性检验.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
判断下列结论是否正确(请在括号中打“√”或“×”)(1)散点图是判断两个变量相关关系的一种重要方法和手段.( )(2)经验回归直线 至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( )(4)若分类变量X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.( )
1.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的经验回归方程为
所以经验回归直线过点(2.5,3.5),
2.(多选)下列关于成对样本数据的统计分析的判断中正确的有A.若样本相关系数r=0,则说明成对样本数据没有相关性B.样本相关系数r越大,成对样本数据的线性相关性越强C.用最小二乘法求得的一元线性回归模型的残差和一定是0D.决定系数R2越大,残差平方和越小,模型的拟合效果越好
对于A,当r=0时,只表明成对样本数据间没有线性相关关系,但是不排除它们之间有其他相关关系,故A错误;对于B,样本相关系数|r|越大,成对样本数据的线性相关性越强,故B错误;
对于D,决定系数R2越大,表示残差平方和越小,即模型的拟合效果越好,故D正确.
3.(多选)为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2×2列联表(个别数据暂用字母表示):
计算得:χ2≈12.981,参照下表:
对于下面的选项,正确的为A.根据小概率值α=0.010的独立性检验,可以认为“阅读量多少与幸福感 强弱无关”B.m=54C.根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5% 的前提下认为“阅读量多少与幸福感强弱有关”D.n=52
∵ χ2≈12.981>7.879>6.635,∴根据小概率值α=0.010的独立性检验,可以在犯错误的概率不超过1%的前提下认为“阅读量多少与幸福感强弱有关”,根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”,∴A错,C对,∵m+36=90,18+n=60,∴m=54,n=42,∴B对,D错.
TANJIUHEXINTIXING
例1 (1)对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图1,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图2.由这两个散点图可以判断A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关
由题图可得两组数据均线性相关,且图1的经验回归直线的斜率为负,图2的经验回归直线的斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.
(2)(多选)下列有关经验回归分析的说法中正确的有A.经验回归直线必过点( )B.经验回归直线就是散点图中经过样本数据点最多的那条直线C.当样本相关系数r>0时,两个变量正相关D.如果两个变量的相关性越弱,则|r|就越接近于0
对于B,经验回归直线在散点图中可能不经过任一样本数据点,故B不正确;对于C,当样本相关系数r>0时,则两个变量正相关,故C正确;对于D,如果两个变量的相关性越弱,则|r|就越接近于0,故D正确.
1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y= x+1上,则这组样本数据的样本相关系数为A.-1 B.0 C. D.1
所有样本点均在同一条斜率为正数的直线上,则样本相关系数最大,为1.
2.(多选)下列选项中正确的是A.经验回归分析中,R2的值越大,说明残差平方和越小B.若一组观测数据(x1,y1),(x2,y2),…,(xn,yn)满足yi=bxi+a+ei(i= 1,2,…,n),若ei恒为0,则R2=1C.经验回归分析是对具有相关关系的两个变量进行统计分析的一种常用 方法D.画残差图时,纵坐标为残差,横坐标一定是编号
对于A,经验回归分析中,R2的值越大,说明模型的拟合效果越好,则残差平方和越小,A对;对于B,若一组观测数据(x1,y1),(x2,y2),…,(xn,yn)满足yi=bxi+a+ei(i=1,2,…,n),若ei恒为0,则R2=1,B对;对于C,经验回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,C对;对于D,残差图中横坐标可以是样本编号,也可以是身高数据,还可以是体重的估计值等,D错.
判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.
跟踪训练1 (1)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关
(2)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是A.r2
(1)根据题中图表,试分析:与2016年相比,2020年第三产业与种植业收入变化情况;
①与2016年相比,2020年第三产业的收入占比大幅度增加;②2016年第三产业的收入为0.3百万元,2020年第三产业的收入为6百万元,收入大幅度增加;③与2016年相比,种植业收入占比减少,但种植业收入依然保持增长.
(2)求经济收入y关于x的经验回归方程,并预测2025年该地区的经济收入.
命题点2 非线性回归模型例3 (2022·吉林模拟)全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业呢?由人民日报社指导,《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入x (百万元)与收益y (百万元)的数据统计如下:
根据数据特点,甲认为样本点分布在指数型曲线y=2bx+a的周围,据此他对数据进行了一些初步处理.如下表:
(1)请根据表中数据,建立y关于x的经验回归方程(系数精确到0.1);
参考数据:lg25≈2.3.
将y=2bx+a两边取对数得lg2y=bx+a,令z=lg2y,
(2)①乙认为样本点分布在直线y=mx+n的周围,并计算得经验回归方程为 =8.25x+3,以及该回归模型的决定系数 =0.893,试比较甲、乙两人所建立的模型,谁的拟合效果更好?
∴甲建立的回归模型拟合效果更好.
②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)
由①知,甲建立的回归模型拟合效果更好.设20.3x+3.7≥100,解得0.3x+3.7≥lg2100=2+2lg25,解得x≥9.7.∴科技投入的费用至少要9.7百万元,下一年的收益才能达到1亿元.
1.(2022·湖北九师联盟联考)下表是关于某设备的使用年限x(单位:年)和所支出的维修费用y(单位:万元)的统计表.
由上表可得经验回归方程 ,若规定:维修费用y不超过10万元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为A.7 B.8 C.9 D.10
由y≤10,得0.81x+1.76≤10,
由于x∈N*,所以据此模型预测,该设备使用年限的最大值约为10.
2.用模型y=cekx拟合一组数据时,为了求出经验回归方程,设z=ln y,其变换后得到经验回归方程为z=0.5x+2,则c等于A.0.5 B.e0.5 C.2 D.e2
因为y=cekx,两边取对数得,ln y=ln(cekx)=ln c+ln ekx=kx+ln c,则z=kx+ln c,而z=0.5x+2,于是得ln c=2,即c=e2.
跟踪训练2 为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量x(千克)之间的对应数据如下.
(1)由上表数据可知,可用经验回归模型拟合y与x的关系,请计算样本相关系数r并加以说明(若|r|>0.75,则线性相关程度很高,可用经验回归模型拟合);
因为|r|>0.75,所以可用经验回归模型拟合y与x的关系.
(2)求y关于x的经验回归方程,并预测当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为多少千克?
即当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为700千克.
例4 (2021·全国甲卷改编)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)依据小概率值α=0.01的独立性检验,能否以此推断甲机床的产品质量与乙机床的产品质量有差异?
零假设为H0:甲机床的产品质量与乙机床的产品质量无差异.根据2×2列联表,可得
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为甲机床的产品质量与乙机床的产品质量有差异.
1.为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:
则a-b-c等于A.7 B.8 C.9 D.10
根据题意,可得c=120-73-25=22,a=74-22=52,b=73-52=21,∴a-b-c=52-21-22=9.
2.(多选)某医疗研究机构为了了解免疫与注射疫苗的关系,进行一次抽样调查,得到数据如表1.
则下列说法中正确的是A.χ2≈8.35B.P(χ2≥6.635)≈0.001C.依据小概率值α=0.01的独立性检验,我们认为免疫与注射疫苗有关系D.依据小概率值α=0.001的独立性检验,我们认为免疫与注射疫苗有 关系
因为P(χ2≥6.635)≈0.01,所以B错误;χ2≈8.352>6.635=x0.01,依据小概率值α=0.01的独立性检验,我们认为免疫与注射疫苗有关系,所以C正确;χ2≈8.352<10.828=x0.001,依据小概率值α=0.001的独立性检验,我们认为免疫与注射疫苗没有关系,故D错误.
独立性检验的一般步骤(1)根据样本数据制成2×2列联表.
(3)比较χ2与临界值的大小关系,作统计推断.
跟踪训练3 (2022·太原模拟)为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度(单位:μg/m3),整理数据得到下表:
若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”,根据上述数据,回答以下问题.(1)估计事件“该市一天的空气质量好,且SO2的浓度不超过150”的概率;
由表格可知,该市一天的空气质量好,且SO2的浓度不超过150的天数为28+6+5+7=46,则“该市一天的空气质量好,且SO2的浓度不超过150”的概率P= =0.46.
(2)完成下面的2×2列联表,
由表格数据可得列联表如下,
(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否据此推断该市一天的空气质量与当天SO2的浓度有关?
零假设为H0:该市一天的空气质量与当天SO2的浓度无关.
根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为该市一天的空气质量与当天SO2的浓度有关.
KESHIJINGLIAN
1.如表是2×2列联表,则表中的a,b的值分别为A.27,38 B.28,38C.27,37 D.28,37
a=35-8=27,b=a+11=27+11=38.
2.(2022·湘豫名校模拟)根据如表样本数据:
3.某种产品的广告费支出x与销售额y(单位:万元)之间的关系如表:
y与x的经验回归方程为 =6.5x+17.5,当广告支出6万元时,随机误差的残差为A.-5 B.-5.5C.-6 D.-6.5
由题意结合经验回归方程的预测作用可得,当x=6时, =6.5×6+17.5=56.5,则随机误差的残差为50-56.5=-6.5.
4.(2022·泉州模拟)蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y(单位:℃)存在着较强的线性相关关系.某地观测人员根据如表的观测数据,建立了y关于x的经验回归方程 =0.25x+k,则下列说法不正确的是A.k的值是20B.变量x,y呈正相 关关系C.若x的值增加1,则y的值约增加0.25D.当蟋蟀52次/分鸣叫时,该地当时的气温预测值为33.5 ℃
变量x,y呈正相关关系,故B正确;若x的值增加1,则y的值约增加0.25,故C正确;
5.(多选)下列说法正确的是A.设有一个经验回归方程 =3-5x,变量x增加一个单位时,y平均增加5 个单位B.若两个具有线性相关关系的变量的相关性越强,则样本相关系数r的值 越接近于1C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度 越高D.在一元线性回归模型中,决定系数R2越接近于1,说明回归的效果越好
A选项,因为 =3-5x,所以变量x增加一个单位时,y平均减少5个单位,故A错误;B选项,线性相关性具有正负,相关性越强,则样本相关系数r的绝对值越接近于1,故B错误;C选项,在残差图中,残差点分布的水平带状区域越窄,说明波动越小,即模型的拟合精度越高,故C正确;D选项,在一元线性回归模型中,决定系数R2越接近于1,说明模型拟合的精度越高,即回归的效果越好,故D正确.
6.(多选)2021年5月18日,《佛山市第七次全国人口普查公报》发布.公报显示,佛山市常住人口为9 498 863人.为了进一步分析数据特征,某数学兴趣小组先将近五次人口普查数据作出散点图(横坐标为人口普查的序号,第三次普查记为1,…,第七次普查记为5,纵坐标为当次人口普查佛山市人口数(单位:万人),再利用不同的函数模型作出回归分析,如图,以下说法正确的是
A.佛山市人口数与普查序号呈正相关关系B.散点的分布呈现出很弱的线性相关特征C.经验回归方程2的拟合效果更好D.应用经验回归方程1可以预测第八次人口普查时佛山市人口会超过 1 400万人
对于A,散点图中的点的分布从左下方至右上方,故呈正相关关系,故A正确;对于B,利用模型1,样本点基本分布在直线的两侧,故具有较强的线性相关特征,故B错误;对于C,因为0.979 4>0.972 6,所以经验回归方程2的拟合效果更好,故C正确;对于D,利用模型1,当x=6时,y=183.5×6-1.7=1 099.3<1 400,故D错误.
7.(2022·广州模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:
若用最小二乘法求得经验回归方程为 =0.67x+54.9,则a的值为_____.
8.(2022·青岛模拟)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过________.
由题意可得列联表如下,
9.(2022·河南九师联盟联考)机动车行经人行横道时,应当减速慢行:遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.如表是某市一主干路口监控设备所抓拍的1-5月份驾驶员不“礼让行人”行为统计数据:
(1)请利用所给数据求违章人数y与月份x之间的经验回归方程并预测该路口10月份的不“礼让行人”违章驾驶员人数;
(2)交警从这5个月内通过该路口的驾驶员中随机抽查70人,调查驾驶员不“礼让行人”行为与驾龄的关系,如表所示:
依据小概率值α=0.1的独立性检验,能否据此判断“礼让行人”行为与驾龄有关?
零假设为H0:“礼让行人”行为与驾龄无关,
根据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即依据小概率值α=0.1的独立性检验,不能判断“礼让行人”行为与驾龄有关.
10.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如表所示:
(1)求m的值,并利用已知的经验回归方程求出8月份对应的残差值 ;
114+116+106+122+132+114+m+132=117×8,解得m=100,所以8月份对应的残差值
(2)请先求出一元线性回归模型 =3.2x-151.8的决定系数R2(精确到0.000 1);若根据非线性回归模型y=267.76ln x-1 069.2求得解释变量(物流成本)对于响应变量(利润)的决定系数 =0.905 7,请说明以上两种模型哪种模型拟合效果更好?
由已知公式得 =0.22+0.62+1.82+(-3)2+(-1)2+(-4.6)2+(-1)2+72=84.8,
(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为116万元.请重新根据最小二乘法的思想与公式,求出新的经验回归方程.
第八组数据的利润应为116万元,
11.某中学调查了高一年级学生的选科倾向,随机抽取300人,其中选考物理的有220人,选考历史的有80人,统计各选科人数如表,则下列说法正确的是
A.物理类的学生中选择政治的比例比历史类的学生中选择政治的比例高B.物理类的学生中选择地理的比例比历史类的学生中选择地理的比例高C.根据小概率值α=0.1的独立性检验,我们认为选择生物与选考类别无关D.根据小概率值α=0.1的独立性检验,我们认为选择生物与选考类别有关
对于C和D,零假设为H0:选择生物与选考类别无关.根据已知数据可得2×2列联表如表:
根据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为选择生物与选考类别无关,故选项C正确,选项D不正确.
12.已知变量y与x的一组数据如表所示,根据数据得到y关于x的经验回归方程为 =ebx-1.
若 =e13,则x等于A.6 B.7 C.8 D.9
所以4=b×2.5-1,解得b=2,
令e2x-1=e13,解得x=7.
13.(多选)(2022·武汉联考)下列选项中,正确的是A.对于回归分析,样本相关系数r的绝对值越小,说明拟合效果越好B.以模型y=c·ekx去拟合一组数据时,为了求出经验回归方程,设z=ln y, 将其变换后得到经验回归方程 =0.3x+4,则c,k的值分别是e4和0.3C.经验回归方程 的符号和样本相关系数r的符号一致D.通过经验回归直线 及回归系数 ,可以精确反映变量的取值 和变化趋势
对于A,回归分析中,样本相关系数绝对值越大,拟合效果越好,A不正确;对于B,由y=c·ekx两边取对数得ln y=kx+ln c,依题意,k=0.3,ln c=4,即c=e4,B正确;对于C,由公式知,C正确.
14.(2022·漳州模拟)根据下面的数据:
求得y关于x的经验回归方程为 =19.2x+12,则这组数据相对于所求的经验回归方程的4个残差的方差为______.(注:残差是指实际观测值与预测值之间的差)
把x=1,2,3,4依次代入经验回归方程
对应的残差依次为0.8,-2.4,2.4,-0.8,它们的平均数为0,所以4个残差的方差为
15.(多选)已知由样本数据(xi,yi),i=1,2,3,4,5,6求得的经验回归方程为 .现发现一个样本数据(8,12)误差较大,去除该数据后重新求得的经验回归直线l的纵截距依然是1,则下列说法正确的是A.去除前变量x每增加1个单位,变量y一定增加2个单位B.去除后剩余样本数据中x的平均数为2C.去除后的经验回归方程为 2.5x+1D.去除后样本相关系数r变大
去除样本数据(8,12)后的新数据,
对于A选项,去除前变量x每增加1个单位,变量y大约增加2个单位,A错误;对于B选项,去除后剩余样本数据中x的平均数为2,B正确;对于D选项,去除了误差较大的样本数据后,线性相关性变强,因为y关于x为正相关,则r>0,所以,样本相关系数r变大,D正确.
16.(2022·梅州模拟)某市某医疗器械公司转型升级,从9月1日开始投入呼吸机生产,该公司9月1日~9月9日连续9天的呼吸机日生产量为yi(单位:百台,i=1,2,…,9),数据作了初步处理,得到如图所示的散点图.
注:图中日期代码1~9分别对应9月1日~9月9日;表中zi= ,
(1)从9个样本点中任意选取2个,在2个样本点的生产量都不高于300台的条件下,求2个样本点都高于200台的概率;
由散点图知,不高于300台的样本点有5个,其中高于200台的样本点有4个,则在2个样本点的生产量都不高于300台的条件下,2个样本点都高于200台的概率为P=
(2)由散点图分析,样本点都集中在曲线y=ln(bt+a)的附近,求y关于t的方程y=ln(bt+a),并估计该公司从生产之日起,需要多少天呼吸机日生产量可超过500台.参考数据:e5≈148.4.
y=ln(bt+a)⇔z=ey=bt+a,则由经验回归方程系数求解公式知,
故y=ln(4t-1),
高考数学一轮总复习课件第8章统计与统计分析第3讲成对数据的统计分析(含解析): 这是一份高考数学一轮总复习课件第8章统计与统计分析第3讲成对数据的统计分析(含解析),共60页。PPT课件主要包含了回归分析,独立性检验,12×2列联表,2独立性检验,名师点睛,题组一,走出误区,答案1√,2√3×,题组二等内容,欢迎下载使用。
2024版高考数学一轮复习教材基础练第九章统计与成对数据的统计分析第三节成对数据的统计分析教学课件: 这是一份2024版高考数学一轮复习教材基础练第九章统计与成对数据的统计分析第三节成对数据的统计分析教学课件,共33页。PPT课件主要包含了教材知识萃取,教材素材变式,方法总结等内容,欢迎下载使用。
新教材适用2024版高考数学一轮总复习第9章统计成对数据的统计分析第3讲成对数据的统计分析课件: 这是一份新教材适用2024版高考数学一轮总复习第9章统计成对数据的统计分析第3讲成对数据的统计分析课件,共60页。PPT课件主要包含了知识梳理·双基自测,名师讲坛·素养提升,考点突破·互动探究,去精确地决定,正相关或负相关,一条直线,非线性相关或曲线相关,正相关,负相关,bx+a+e等内容,欢迎下载使用。