高中数学高考2022届高考数学一轮复习(新高考版) 第9章 §9 2 变量间的相关关系、统计案例课件PPT
展开1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的 相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建 立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及其简单应用.
ZHUGANSHULI JICHULUOSHI
1.相关关系与回归方程(1)相关关系的分类①正相关在散点图中,点散布在从 到 的区域,对于两个变量的这种相关关系,我们将它称为正相关.②负相关在散点图中,点散布在从 到 的区域,两个变量的这种相关关系称为负相关.
(2)线性相关关系如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做 .
(3)回归方程①最小二乘法求回归直线,使得样本数据的点到它的 的方法叫做最小二乘法.
(4)回归分析①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中 称为样本点的中心.
③相关系数当r>0时,表明两个变量 ;当r<0时,表明两个变量 .r的绝对值越接近于1,表明两个变量的线性相关性 .r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于 时,认为两个变量有很强的线性相关性.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
构造一个随机变量K2= ,其中n=a+b+c+d为样本容量.(3)独立性检验:利用随机变量 来判断“两个分类变量有关系”的方法称为独立性检验.
1.变量的相关关系与变量的函数关系有什么区别?提示 相同点:两者均是指两个变量的关系.不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?提示 (1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)散点图是判断两个变量相关关系的一种重要方法和手段.( )
(3)相关系数的绝对值越接近1,样本数据的线性相关程度越强.( )(4)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( )
2.下列四个散点图中,变量x与y之间具有负的线性相关关系的是
解析 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.
3.下面是2×2列联表:
则表中a,b的值分别为A.94,72 B.52,50C.52,74 D.74,52
解析 ∵a+21=73,∴a=52.又a+22=b,∴b=74.
B.2.6 C.2.2 D.0
解析 回归直线过点(2,4.5),
A.相关系数r不可能等于1
D.相关系数为r,且|r|越接近1,样本数据的线性相关程度越强;|r|越接近 0,样本数据的线性相关程度越弱
解析 相关系数的取值范围是|r|≤1,故A错;
相关系数r的绝对值越接近1,表示样本数据的线性相关程度越强,越接近0,样本数据的线性相关程度越弱,故D正确.
6.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.
正确的结论是A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C.有99%以上的把握认为“生育意愿与城市级别有关”D.有99%以上的把握认为“生育意愿与城市级别无关”
TIXINGTUPO HEXINTANJIU
题型一 相关关系的判断
1.(2021·昆明诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
根据表中数据,下列说法正确的是A.利润率与人均销售额成正相关关系B.利润率与人均销售额成负相关关系C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系
解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.
2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是
A.r2
4.已知变量x和y满足关系 =-0.1x+1,变量y与z正相关.下列结论中正确的是A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关
所以x与z负相关.故选C.
判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:当r>0时,两个变量正相关;当r<0时,两个变量负相关.
命题点1 线性回归分析
例1 (2020·福州模拟)随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:
科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的线性回归方程;
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
命题点2 非线性回归分析
例2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1, 2,…,8)的数
据作了初步处理,得到右面的散点图及一些统计量的值.
(1)根据散点图判断y=a+bx与y=c+ 哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
解 由散点图可以判断,y=c+ 适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?
解 由(2)知,当x=49时,
②年宣传费x为何值时,年利润的预报值最大?
解 根据(2)的结果知,年利润z的预报值
故年宣传费为46.24千元时,年利润的预报值最大.
回归分析问题的类型及解题方法(1)求回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
跟踪训练1 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
解 样本(xi,yi)(i=1,2,…,20)的相关系数为
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
解 分层抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
例3 (2020·湖北荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.
为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
解 该校学生每周平均体育运动时间为
样本中高一年级每周平均体育运动时间不足4小时的人数为
又样本中高一的人数有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数约为
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
假设该校学生的每周平均体育运动时间是否优秀与年级无关,
又P(K2≥6.635)=0.01.所以有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
独立性检验的一般步骤(1)根据样本数据制成2×2列联表.
(3)比较k与临界值的大小关系,作统计推断.
跟踪训练2 (2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
解 由频数分布表可知,
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
解 由频数分布表可知,一天中到该公园锻炼的平均人次的估计值为
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
解 2×2列联表如下:
所以有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
KESHIJINGLIAN
1.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:
则哪位同学的试验结果体现A,B两个变量有更强的线性相关性?A.甲 B.乙 C.丙 D.丁
解析 r越大,m越小,线性相关性越强,故选D.
2.根据如下样本数据:
解析 根据给出的数据可发现:整体上y与x呈现负相关,所以 <0,
由样本点(3,4.0)及(4,2.5)可知 >0.
3.某公司由于改进了经营模式,经济效益与日俱增.统计了2018年10月到2019年4月的纯收益y(单位:万元)的数据,如下表:
得到y关于t的线性回归方程为 =4.75t+51.36.请预测该公司2019年6月的纯收益为万元 万元万元 万元
解析 将2019年6月代号t=11带入题中的线性回归方程,
4.以下五个命题:①在匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
④在线性回归方程 =0.2x+12中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位;⑤分类变量X与Y,对它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.其中假命题为A.①④ B.①⑤C.②③ D.③④
解析 ①为系统抽样;⑤分类变量X与Y,对它们的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大.
5.(多选)(2020·衡水中学调研)已知变量x,y之间的线性回归方程为 =-0.7x+10.3,且变量x,y之间的一组相关数据如下表所示,则下列说法正确的是
A.变量x,y之间成负相关关系B.可以预测,当x=20时,=-3.7C.m=4D.该回归直线必过点(9,4)
解析 由-0.7<0,得变量x,y之间成负相关关系,故A正确;
所以该回归直线必过点(9,4),故D正确.
6.(多选)为了解户籍性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的调查样本,其中城镇户籍与农村户籍各50人,男性60人,女性40人,绘制了不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中正确的是A.是否倾向选择生育二胎与户籍有关B.是否倾向选择生育二胎与性别无关C.倾向选择生育二胎的人员中,男性人数与女性人数相同D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数
7.某市居民2016~2020年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:
根据统计资料,家庭年平均收入与年平均支出有_____相关关系.(填“正”或“负”)
解析 由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.
8.经调查某地若干户家庭的年收入x(万元)和年饮食支出y(万元)具有线性相关关系,并得到y关于x的线性回归方程为 =0.245x+0.321,由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加_______万元.
9.已知x,y之间的一组数据如下表:
则根据最小二乘法的思想求得拟合程度最好的直线是_____.(填序号)
那么必须过点(4,6),经验证可知,①y=x+1不成立;②y=2x-1不成立;
综上,拟合程度最好的直线是④.
10.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得线性回归方程为 =0.67x+54.9.
现发现表中有一个数据看不清,请你推断出该数据的值为_____.
设表中的“模糊数字”为a,则62+a+75+81+89=75×5,∴a=68.
11.根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图,如图所示.(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数r并加以说明(若r>0.75,则线性相关程度很高);
∴可用线性回归模型拟合y与x的关系.
(2)求y关于x的回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少?
∴预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
12.某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现在消费金额不超过1 000元的消费者中男女比例为1∶4,该店按此比例抽取了100名消费者进行进一步分析,得到下表:女性消费情况:
若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”.(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?
解 女性消费者消费的平均数为
男性消费者消费的平均数为
虽然女性消费者平均消费水平较高,但“女网购达人”平均消费水平低于“男网购达人”平均消费水平,所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰.
(2)根据列表中统计数据填写如下2×2列联表,并判断能否在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.
解 2×2列联表如下所示:
因为9.091>7.879,所以能在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.
13.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:
根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的为_____.
解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.
15.某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
由表中数据,求得线性回归方程为 =-4x+ .若在这些样本点中任取一点,则它在线性回归直线左下方的概率为____.
将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入线性回归方程,可知有6个样本点,因为84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在线性回归直线的左下方,满足条件的只有2个,
16.某电视厂家准备在国庆期间举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万台)的数据如下:
(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;
解 ∵0.75<0.88且R2越大,反映残差平方和越小,模型的拟合效果越好,
(3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果回答下列问题:①广告费x=20时,销售量及利润的预报值是多少?
②广告费x为何值时,利润的预报值最大?(精确到0.01)
故广告费为9 801万元时,利润的预报值最大.
高考数学(理)一轮复习课件+讲义 第11章 第3讲 变量间的相关关系、统计案例: 这是一份高考数学(理)一轮复习课件+讲义 第11章 第3讲 变量间的相关关系、统计案例,文件包含高考数学理一轮复习课件第11章第3讲变量间的相关关系统计案例pptx、高考数学理一轮复习讲义第11章第3讲变量间的相关关系统计案例doc等2份课件配套教学资源,其中PPT共60页, 欢迎下载使用。
(新高考)高考数学一轮复习课件11.2《变量间的相关关系、统计案例》(含解析): 这是一份(新高考)高考数学一轮复习课件11.2《变量间的相关关系、统计案例》(含解析),共50页。PPT课件主要包含了相关关系,线性相关关系,回归直线,正相关,负相关,a+b,b+d,word部分,点击进入链接等内容,欢迎下载使用。
高考 一轮复习第十一章 11.3 变量间的相关关系、统计案例课件PPT: 这是一份高考 一轮复习第十一章 11.3 变量间的相关关系、统计案例课件PPT,共58页。PPT课件主要包含了左下角,右上角,左上角,右下角,一条直线附近,距离的平方和最小,相关关系,正相关,负相关,不同类别等内容,欢迎下载使用。

