2021版新高考数学(文科)一轮复习教师用书:第10章第4节 变量间的相关关系、统计案例
展开第四节 变量间的相关关系、统计案例
[最新考纲] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.
1.变量间的相关关系
(1)变量间的关系分类:常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)正相关和负相关:从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.
2.两个变量的线性相关
回归直线 | 从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线 |
回归方程 | |
最小二乘法 | 通过求Q=的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法 |
相关系数 | 当r>0时,表明两个变量正相关; 当r<0时,表明两个变量负相关. r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性 |
3.独立性检验
(1)分类变量
变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)2×2列联表
列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
| y1 | y2 | 总计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
(3)独立性检验
利用随机变量K2(也可表示为χ2)的观测值k=(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
1.回归直线方程=x+必过样本点的中心(,),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
一、思考辨析(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ( )
(2)只有两个变量有相关关系,所得到的回归模型才有预测价值. ( )
(3)回归直线方程=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点. ( )
(4)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小. ( )
[答案] (1)√ (2)√ (3)× (4)×
二、教材改编
1.下面是2×2列联表:则表中a,b的值分别为( )
| y1 | y2 | 合计 |
x1 | a | 21 | 73 |
x2 | 22 | 25 | 47 |
合计 | b | 46 | 120 |
A.94,72 B.52,50
C.52,74 D.74,52
C [∵a+21=73,∴a=52.又a+22=b,∴b=74.]
2.已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是( )
A.=0.4x+2.3 B.=2x-2.4
C.=-2x+9.5 D.=-0.3x+4.4
A [因为变量x和y正相关,排除选项C,D.又样本中心(3,3.5) 在回归直线上,排除B,选项A满足.]
3.已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为=0.95x+,则= .
x | 0 | 1 | 3 | 4 |
y | 2.2 | 4.3 | 4.8 | 6.7 |
2.6 [∵回归直线必过样本点的中心(,),又=2,=4.5,代入回归方程,得=2.6.]
4.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下列联表:
| 理科 | 文科 |
男 | 13 | 10 |
女 | 7 | 20 |
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为 .
5% [K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]
考点1 变量间的相关关系的判断
判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性回归方程中:>0时,正相关;<0时,负相关.
1.观察下列各图形,
① ② ③ ④
其中两个变量x,y具有相关关系的图是( )
A.①② B.①④ C.③④ D.②③
C [图形③具有正线性相关关系,图形④具有非线性相关关系,故选C.]
2.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
C [因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.]
3.某统计部门对四组数据进行统计分析后,获得如图所示的散点图,关于相关系数的比较,其中正确的是( )
A.r4<r2<0<r1<r3
B.r2<r4<0<r1<r3
C.r2<r4<0<r3<r1
D.r4<r2<0<r3<r1
C [根据散点图的特征,数据大致呈增长趋势的是正相关,数据呈递减趋势的是负相关;数据越集中在一条直线附近,说明相关性越强,
由题中数据可知:(1)(3)为正相关,(2)(4)为负相关;
故r1>0,r3>0;r2<0,r4<0;又(1)与(2)中散点图更接近于一条直线,故r1>r3,r2<r4, 因此,r2<r4<0<r3<r1,故选C.]
(1)变量间的相关关系分线性相关关系和非线性相关关系,如T1.
(2)对相关系数r来说,|r|越接近于1,散点图越接近于一条直线,如T3.
考点2 线性回归分析
线性回归分析问题的类型及解题方法
(1)求回归方程
①利用公式,求出回归系数.
②利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
下图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2012~2018.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2020年我国生活垃圾无害化处理量.
附注:
参考数据:=9.32,=40.17,=0.55,≈2.646.
参考公式:相关系数r=
回归方程=+t中斜率和截距的最小二乘估计公式分别为:
[解] (1)由折线图中数据和附注中参考数据得
所以r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
=-≈1.331-0.10×4≈0.93.
所以y关于t的回归方程为
=0.93+0.10t.
将2020年对应的t=9代入回归方程得
=0.93+0.10×9=1.83.
所以预测2020年我国生活垃圾无害化处理量约为1.83亿吨.
在计算时,应根据所给数据对公式进行合理变形,如
[教师备选例题]
下表是某学生在4月份开始进入冲刺复习至高考前的5次大型联考数学成绩(分):
联考次数x(1≤x≤5,x∈N*) | 1 | 2 | 3 | 4 | 5 |
数学分数y(0<y≤150) | 117 | 127 | 125 | 134 | 142 |
(1)请画出上表数据的散点图:
(2)①请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;
②若在4月份开始进入冲刺复习前,该生的数学分数最好为116分,并以此作为初始分数,利用上述回归方程预测高考的数学成绩,并以预测高考成绩作为最终成绩,求该生4月份后复习提高率.(复习提高率=×100%,分数取整数).
附:回归直线的斜率和截距的最小二乘估计公式分别为
[解] (1)散点图如图:
(2)①由题得,==3,==129,
=55,52=5×32=45,5 =5×3×129=1 935,
所以===5.7,=129-5.7×3=111.9,
故y关于x的线性回归方程为y=5.7x+111.9.
②由上述回归方程可得高考应该是第六次考试,故x=6,则y=5.7×6+111.9=146.1≈146(分),
故净提高分为146-116=30(分),所以该生的复习提高率为×100%=20%.
1.经过对中学生记忆能力x和识图能力y进行统计分析,得到如下数据:
记忆能力x | 4 | 6 | 8 | 10 |
识图能力y | 3 | 5 | 6 | 8 |
由表中数据,求得线性回归方程为=x+,若某中学生的记忆能力为14,则该中学生的识图能力为( )
A.7 B.9.5 C.11.1 D.12
C [x的平均数=(4+6+8+10)==7,
y的平均数=(3+5+6+8)===5.5,
回归方程过点(,),即(7,5.5),
则5.5=0.8×7+,得=-0.1,则=0.8x-0.1,
则当x=14时,y=0.8×14-0.1=11.2-0.1=11.1,
即该中学生的识图能力为11.1,故选C.]
2.二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:
使用年数x | 2 | 3 | 4 | 5 | 6 | 7 |
售价y | 20 | 12 | 8 | 6.4 | 4.4 | 3 |
z=ln y | 3.00 | 2.48 | 2.08 | 1.86 | 1.48 | 1.10 |
z关于x的折线图,如图所示:
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;
(2)求y关于x的回归方程,并预测某辆A型号二手车当使用年数为9年时售价约为多少.(,小数点后保留两位有效数字)
[解] (1)由题意,知=×(2+3+4+5+6+7)=4.5,=×(3+2.48+2.08+1.86+1.48+1.10)=2,
∴r==-≈-0.99,
∴z与x的相关系数大约为-0.99,说明z与x的线性相关程度很高.
(2)==-≈-0.36,
∴=-=2+0.36×4.5=3.62,
∴z与x的线性回归方程是=-0.36x+3.62,又z=ln y,∴y关于x的回归方程是=e-0.36x+3.62.
令x=9,得=e-0.36×9+3.62=e0.38,
∵ln 1.46≈0.38,∴=1.46,
即预测某辆A型号二手车当使用年数为9年时售价约为1.46万元.
考点3 独立性检验
独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=,计算K2的观测值k的值;
(3)查表比较K2的观测值k与临界值的大小关系,作统计判断.
(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
| 满意 | 不满意 |
男顾客 | 40 | 10 |
女顾客 | 30 | 20 |
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:
K2=
[解] (1)由调查数据知,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2的观测值k=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
对于“估计概率”问题,一般是用频率代替概率.
[教师备选例题]
有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:
| 冷漠 | 不冷漠 | 总计 |
多看电视 | 68 | 42 | 110 |
少看电视 | 20 | 38 | 58 |
总计 | 88 | 80 | 168 |
附表:
P(K2≥k) | 0.050 | 0.010 |
k | 3.841 | 6.635 |
则在犯错误的概率不超过多少的前提下认为多看电视与人冷漠有关系( )
A.0.01 B.0.025
C.0.05 D.0.10
A [∵K2的观测值k=≈11.377,又11.377>6.635,∴在犯错误的概率不超过0.01的前提下认为多看电视与人变冷漠有关系,故选A.]
(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
| 箱产量<50 kg | 箱产量≥50 kg |
旧养殖法 |
|
|
新养殖法 |
|
|
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
K2=.
[解] (1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
| 箱产量<50 kg | 箱产量≥50 kg |
旧养殖法 | 62 | 38 |
新养殖法 | 34 | 66 |
K2的观测值k=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.