(导与练)2020版高考数学一轮复习(文数)习题:第9篇 第3节 变量的相关性与统计案例(含解析)
展开www.ks5u.com第3节 变量的相关性与统计案例
【选题明细表】
知识点、方法 | 题号 |
变量的相关性 | 1,3 |
回归分析 | 4,6,8,12,13 |
独立性检验 | 2,5,7,11,14 |
综合应用 | 9,10 |
基础巩固(时间:30分钟)
1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( C )
(A)变量x与y正相关,u与v正相关
(B)变量x与y正相关,u与v负相关
(C)变量x与y负相关,u与v正相关
(D)变量x与y负相关,u与v负相关
解析:由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.故选C.
2.(2018·湖南邵阳联考)假设有两个分类变量X和Y的2×2列联表为
Y X | y1 | y2 | 总计 |
x1 | a | 10 | a+10 |
x2 | c | 30 | c+30 |
总计 | 60 | 40 | 100 |
对同一样本,以下数据能说明X与Y有关系的可能性最大的一组为( A )
(A)a=45,c=15 (B)a=40,c=20
(C)a=35,c=25 (D)a=30,c=30
解析:由题意可得,当与相差越大,X与Y有关系的可能性越大,分析四组选项,A中的a,c的值最符合题意,故选A.
3.(2018·甘肃模拟)如表是我国某城市在2018年1月份至10月份各月最低温与最高温(℃)的数据一览表.
月份 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
最高温 | 5 | 9 | 9 | 11 | 17 | 24 | 27 | 30 | 31 | 21 |
最低温 | -12 | -3 | 1 | -2 | 7 | 17 | 19 | 23 | 25 | 10 |
已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是( B )
(A)最低温与最高温为正相关
(B)每月最高温与最低温的平均值在前8个月逐月增加
(C)月温差(最高温减最低温)的最大值出现在1月
(D)1月至4月的月温差(最高温减最低温)相对于7月至10月,波动性更大
解析:根据题意,依次分析选项,
A中,该城市的各月最低气温与最高气温具有相关关系,根据数据分析可知最低气温与最高气温为正相关,A正确;B中,由表中数据,每月的最低气温与最高气温的平均值依次为-3.5,3,5,4.5,12,20.5,23,
26.5,28,15.5,在前8个月不是逐月增加的,因此B错误;
C中,由表中数据,月温差依次为17,12,8,13,10,7,8,7,6,11,月温差的最大值出现在1月,C正确;D中,根据C中温差的数据可得1月至4月的月温差相对于7月至10月,波动更大,D正确.故选B.
4.(2018·贵阳适应)某公司某件产品的定价x与销量y之间的数据统计表如下,根据数据,用最小二乘法得出y与x的线性回归直线方程为=6.5x+17.5,则表格中n的值应为( D )
x | 2 | 4 | 5 | 6 | 8 |
y | 30 | 40 | n | 50 | 70 |
(A)45 (B)50 (C)55 (D)60
解析:由题意得,根据题表中的数据可知==5,=,代入回归直线方程可得=6.5×5+17.5⇒n=60,故选D.
5.(2018·定兴中学模拟)“真人秀”热潮在我国愈演愈烈,为了了解学生是否喜欢某“真人秀”节目,在某中学随机调查了110名学生,得到如下列联表:
| 男 | 女 | 总计 |
喜欢 | 40 | 20 | 60 |
不喜欢 | 20 | 30 | 50 |
总计 | 60 | 50 | 110 |
由K2=算得K2=≈7.8.
附表:
P(K2≥k) | 0.050 | 0.010 | 0.001 |
k | 3.841 | 6.635 | 10.828 |
参照附表,得到的正确结论是( C )
(A)在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”
(B)在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别无关”
(C)有99%以上的把握认为“喜欢该节目与性别有关”
(D)有99%以上的把握认为“喜欢该节目与性别无关”
解析:因为7.8<10.828,所以不能在犯错误的概率不超过0.1%的前提下,认为“喜欢该节目与性别有关”;又因为7.8>6.635,所以有99%以上的把握认为“喜欢该节目与性别有关”,故选C.
6.(2018·四川南充一诊)已知变量x与变量y之间具有相关关系,并测得如下一组数据:
x | 6 | 5 | 10 | 12 |
y | 6 | 5 | 3 | 2 |
则变量x与y之间的线性回归直线方程可能为( B )
(A)=0.7x-2.3 (B)=-0.7x+10.3
(C)=-10.3x+0.7 (D)=10.3x-0.7
解析:根据表中数据,得
=(6+5+10+12)=,
=(6+5+3+2)=4,
且变量y随变量x的增大而减小,是负相关,
所以,验证=时,=-0.7×+10.3≈4,
即回归直线=-0.7x+10.3过样本点的中心(,).
故选B.
7.(2018·广州模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下:
| 理科 | 文科 | 总计 |
男 | 13 | 10 | 23 |
女 | 7 | 20 | 27 |
总计 | 20 | 30 | 50 |
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.
根据表中数据,得到K2=≈4.844,则认为选修文理科与性别有关系出错的可能性约为 .
解析:由4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.
答案:5%
8.已知下列表格所示的数据的回归直线方程为=3.8x+,则的值为 .
x | 2 | 3 | 4 | 5 | 6 |
y | 251 | 254 | 257 | 262 | 266 |
解析:由表格可知,==4,
==258.
由回归直线经过样本点的中心(,),得258=3.8×4+,
所以=242.8.
答案:242.8
能力提升(时间:15分钟)
9.(2018·豪洋中学模拟)某研究机构在对具有线性相关的两个变量x和y进行统计分析时,得到如下数据:
x | 4 | 6 | 8 | 10 | 12 |
y | 1 | 2 | 3 | 5 | 6 |
由表中数据求得y关于x的回归方程为=0.65x+,则在这些样本点中任取一点,该点落在回归直线下方的概率为( A )
(A) (B) (C) (D)
解析:因为=8,=3.4,所以3.4=0.65×8+,解得=-1.8,则=0.65x-1.8,可知5个点中落在回归直线下方的有(6,2),(8,3),共有两个,因而所求概率为,故选A.
10.已知下列命题:
①在线性回归模型中,R2表示解释变量x对于预报变量y的贡献率,R2越接近于1,表示回归效果越好;
②两个变量相关性越强,则相关系数的绝对值就越接近于1;
③在线性回归方程=-0.5x+2中,当解释变量x每增加一个单位时,预报变量平均减少0.5个单位;
④对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.
其中正确命题的序号是 .
解析:由R2的性质可知①正确;由相关系数的性质可知②正确;由线性回归方程中回归截距的几何意义可得③正确;对分类变量X与Y,它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越小,k越大,“X与Y有关系”的把握程度越大,④错误.所以正确命题的序号是①②③.
答案:①②③
11.在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下联表:
| 感染 | 未感染 | 总计 |
服用 | 10 | 40 | 50 |
未服用 | 20 | 30 | 50 |
总计 | 30 | 70 | 100 |
参考公式:K2=
P(K2>k0) | 0.15 | 0.10 | 0.05 | 0.025 | ||
k0 | 2.072 | 2.706 | 3.841 | 5.024 | ||
P(K2>k0) | 0.010 | 0.005 | 0.001 | |||
k0 | 6.635 | 7.879 | 10.828 | |||
参照附表,在犯错误的概率最多不超过 (填百分比)的前提下,可认为“该种疫苗对预防埃博拉病毒感染有效果”.
解析:由题意可得,K2的观测值k=≈4.762>3.841,参照附表,可得:在犯错误的概率不超过5%的前提下,认为“该种疫苗对预防埃博拉病毒感染有效果”.
答案:5%
12.(2018·青岛一模)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x | 2 | 4 | 5 | 6 | 8 |
y | 30 | 40 | 50 | 60 | 70 |
根据上表可得回归方程=x+,其中=7,据此估计,当投入10万元广告费时,销售额为 万元.
解析:由题意可得:==5,==50,
线性回归方程过样本点的中心,则50=7×5+,所以=15,
线性回归方程为=7x+15,
据此估计,当投入10万元广告费时,销售额为=7×10+15=85万元.
答案:85
13.(2018·漳州二模)合成纤维抽丝工段第一导丝盘速度y对丝的质量很重要,今发现它与电流的周波x有关系,由生产记录得到10对数据,并对数据作了初步处理,得到下面的散点图及一些统计量的值.
xi | 496.1 |
yi | 168.6 |
(xi-)2 | 1.989 |
(yi-)2 | 0.244 |
xiyi | 8 364.92 |
(xi-)(yi-) | 0.674 |
(1)由散点图看出,可用线性回归模型拟合y与x的关系,请用相关系数加以说明;
(2)根据表中数据,建立y关于x的回归方程.
参考公式:相关系数r=,回归方程=+x中斜率和截距的最小二乘估计公式分别是=,=-.
解:(1)根据题意,计算相关系数为
r==;
所以r2=≈0.936且r>0,
故y与x具有很强的正相关关系.
(2)依题意,=≈0.34,
又=xi=49.61.
=yi=16.86,
解得=16.86-0.34×49.61≈0;
故y关于x的回归直线方程为y=0.34x.
14.(2018·厦门一模)为了解学生的课外阅读时间情况,某学校随机抽取了50人进行统计分析,把这50人每天阅读的时间(单位:分钟)绘制成频数分布表,如下表所示:
阅读 时间 | [0,20) | [20, 40) | [40, 60) | [60, 80) | [80, 100) | [100, 120] |
人数 | 8 | 10 | 12 | 11 | 7 | 2 |
若把每天阅读时间在60分钟以上(含60分钟)的同学称为“阅读达人”,根据统计结果中男女生阅读达人的数据,制作出如图所示的等高条
形图.
(1)根据抽样结果估计该校学生的每天平均阅读时间(同一组数据用该区间的中点值作为代表);
(2)根据已知条件完成下面的2×2列联表,并判断是否有99%的把握认为“阅读达人”跟性别有关?
| 男生 | 女生 | 总计 |
阅读达人 |
|
|
|
非阅读达人 |
|
|
|
总计 |
|
|
|
附:参考公式:K2=,其中n=a+b+c+d.
临界值表:
P(K2≥k0) | 0.100 | 0.050 | 0.010 | 0.001 |
k0 | 2.706 | 3.841 | 6.635 | 10.828 |
解:(1)该校学生的每天平均阅读时间为
10×+30×+50×+70×+90×+110×=1.6+6+12+15.4+12.6+
4.4=52(分).
(2)由频数分布表得,“阅读达人”的人数是11+7+2=20人,根据等高条形图作出2×2列联表如下:
| 男生 | 女生 | 总计 |
阅读达人 | 6 | 14 | 20 |
非阅读达人 | 18 | 12 | 30 |
总计 | 24 | 26 | 50 |
计算K2==≈4.327,
由于4.327<6.635,故没有99%的把握认为“阅读达人”跟性别有关.