高中数学高考63第十章 算法、统计与统计案例 10 4 变量的相关性、统计案例课件PPT
展开
这是一份高中数学高考63第十章 算法、统计与统计案例 10 4 变量的相关性、统计案例课件PPT,共60页。PPT课件主要包含了内容索引,课时作业,基础知识自主学习,题型分类深度剖析,题型二回归分析,题型三独立性检验等内容,欢迎下载使用。
NEIRONGSUOYIN
基础知识 自主学习
题型分类 深度剖析
(1)正相关在散点图中,点散布在从_______到_______的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关在散点图中,点散布在从_______到_______的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在______________,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
1.两个变量的线性相关
ZHISHISHULI
2.回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的__________________的方法叫做最小二乘法.(2)回归方程
3.回归分析(1)定义:对具有_________的两个变量进行统计分析的一种常用方法.(2)样本点的中心对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中( )称为样本点的中心.(3)相关系数当r>0时,表明两个变量_______;当r0时,正相关;当r0时,正相关;当 6.635,故有99%的把握认为箱产量与养殖方法有关.
解 箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较.附:
(1)比较几个分类变量有关联的可能性大小的方法①通过计算K2的大小判断:K2越大,两变量有关联的可能性越大.②通过计算|ad-bc|的大小判断:|ad-bc|越大,两变量有关联的可能性越大.(2)独立性检验的一般步骤①根据样本数据制成2×2列联表.③比较k与临界值的大小关系,做统计推断.
跟踪训练3 微信是现代生活进行信息交流的重要工具,某公司200名员工中90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上,若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,那么使用微信的人中75%是青年人.若规定:每天使用微信时间在一小时以上为经常使用微信,那么经常使用微信的员工中有 是青年人.(1)若要调查该公司使用微信的员工经常使用微信与年龄的关系,列出2×2列联表:
解 由已知可得,该公司员工中使用微信的有200×90%=180(人).经常使用微信的有180-60=120(人),
使用微信的人中青年人有180×75%=135(人),故2×2列联表如下:
(2)根据2×2列表中的数据利用独立性检验的方法判断是否有99.9%的把握认为“经常使用微信与年龄有关”?
解 将列联表中数据代入公式可得,
由于13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”.
数据分析是指针对研究对象获得相关数据,运用统计方法对数据中的有用信息进行分析和推断,形成知识的过程.主要包括:收集数据、整理数据、提取信息、构建模型对信息进行分析、推断、获得结论.
HEXINSUYANGZHISHUJUFENXI
例 某地最近十年粮食需求量逐年上升,下表是部分统计数据:
解 由所给数据看出,年需求量与年份之间近似直线上升,下面来求线性回归方程,先将数据处理如下表.
(2)利用(1)中所求出的线性回归方程预测该地2019年的粮食需求量.
解 利用所求得的线性回归方程,可预测2019年的粮食需求量大约为6.5×(2019-2010)+260.2=6.5×9+260.2=318.7(万吨).
素养提升 例题中利用所给数据求回归方程的过程体现的就是数据分析素养.
1.根据如下样本数据:
2.(2018·湖南省五市十校联考)下表提供了某工厂节能降耗技术改造后,一种产品的产量x(单位:吨)与相应的生产能耗y(单位:吨)的几组对应数据:根据上表提供的数据,求得y关于x的线性回归方程为 =0.7x+0.35,那么表格中t的值为A.3 D.3.5
3.(2018·广东省百校联盟联考)下表是我国某城市在2017年1月份至10月份期间各月最低温度与最高温度(单位:℃)的数据一览表.已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是A.最低温度与最高温度为正相关B.每月最高温度与最低温度的平均值在前8个月逐月增加C.月温差(最高温度减最低温度)的最大值出现在1月D.1月至4月的月温差(最高温度减最低温度)相对于7月至10月,波动性更大
解析 将最高温度、最低温度、温差列表如下:
由表格可知,最低温度大致随最高温度的升高而升高,A正确;每月最高温度与最低温度的平均值在前8个月不是逐月增加,B错误;月温差的最大值出现在1月,C正确;1月至4月的月温差相对于7月至10月,波动性更大,D正确.
4.对具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,…,8),其线性回归方程是 ,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数 的值是
5.(2018·惠州调研)某商场为了了解毛衣的月销售量y(单位:件)与月平均气温x(单位:℃)之间的关系,随机统计了某4个月的销售量与当月平均气温,其数据如下表:
由表中数据算出线性回归方程 ,气象部门预测下个月的平均气温为6 ℃,据此估计该商场下个月毛衣销售量为A.46 件 B.40 件C.38 件 D.58 件
6.(2018·开封模拟)下列说法错误的是A.回归直线过样本点的中心( )B.线性回归方程对应的直线 至少经过其样本数据点(x1,y1),(x2,y2), …,(xn,yn)中的一个点C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D.在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好
解析 回归直线必过样本点的中心,A正确;由残差分析可知残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高,C正确;在回归分析中,R2越接近于1,模拟效果越好,D正确;
但不一定经过样本的数据点,所以B错误,故选B.
7.某市居民2010~2014年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:根据统计资料,居民家庭年平均收入的中位数是___,家庭年平均收入与年平均支出有____相关关系.(填“正”或“负”)
解析 中位数是13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.
8.某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m与年销售额t(单位:百万元)进行了初步统计,得到下列表格中的数据:经测算,年广告支出m与年销售额t满足线性回归方程 =6.5m+17.5,则p=___.
9.以下四个命题,其中正确的序号是_____.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程 =0.2x+12中,当解释变量x每增加一个单位时,预报变量 平均增加0.2个单位;④对分类变量X与Y的统计量K2来说,K2越小,“X与Y有关系”的把握程度越大.
解析 ①是系统抽样;对于④,统计量K2越小,说明两个相关变量有关系的把握程度越小.
10.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:
因为4.844>3.841,所以有95%的把握认为选修文科与性别有关.
11.某地区2009年至2015年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
(1)求y关于t的线性回归方程;
(2)利用(1)中的线性回归方程,分析2009年至2015年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2019年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:
解 由(1)知, =0.5>0,故2009年至2015年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2019年的年份代号t=11代入(1)中的线性回归方程,得 =0.5×11+2.3=7.8,故预测该地区2019年农村居民家庭人均纯收入为7.8千元.
12.某省会城市地铁将于2019年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差异是多少(结果保留2位小数);
解 “赞成定价者”的月平均收入为
“认为价格偏高者”的月平均收入为
∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).
(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
解 根据条件可得2×2列联表如下:
∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
13.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
解 调查的500位老年人中有70位需要志愿者提供帮助,所以该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为 ×100%=14%.
(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
因为9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.
(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:
解 由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.
14.如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y和t的关系,请用相关系数加以说明;
解 由折线图中的数据得,
因为y与t的相关系数近似为0.94,说明y与t的线性相关程度相当大,所以可以用线性回归模型拟合y与t的关系.
(2)建立y关于t的回归方程,预测2019年该企业的污水净化量;
所以预测2019年该企业污水净化量约为58.5吨.
(3)请用数据说明回归方程预报的效果.
所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.
解析 令t=x2,则曲线的回归方程变为线性的回归方程,
16.针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的 ,男生喜欢韩剧的人数占男生人数的 ,女生喜欢韩剧的人数占女生人数的 .若有95%的把握认为是否喜欢韩剧和性别有关,求男生至少有_______人.
解析 设男生人数为x,由题意可得列联表如下:
若有95%的把握认为是否喜欢韩剧和性别有关,则k>3.841,
解得x>12.697.因为各部分人数均为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有18人.
相关课件
这是一份备战2024年高考总复习一轮(数学)第10章 算法初步、 统计与统计案例 第4节 变量间的相关关系、统计案例课件PPT,共56页。PPT课件主要包含了内容索引,强基础固本增分,研考点精准突破,相关关系,非确定性关系,正相关,负相关,一条直线附近,一条曲线,没有显示任何关系等内容,欢迎下载使用。
这是一份高中数学高考72第十一章 算法、统计与统计案例 11 4 变量的相关性、统计案例课件PPT,共60页。PPT课件主要包含了内容索引,课时作业,基础知识自主学习,题型分类深度剖析,题型二回归分析,题型三独立性检验等内容,欢迎下载使用。
这是一份高中数学高考62第十章 算法、统计与统计案例 10 3 用样本估计总体课件PPT,共60页。PPT课件主要包含了内容索引,课时作业,基础知识自主学习,题型分类深度剖析等内容,欢迎下载使用。

