广西专用高考数学一轮复习考点规范练57变量间的相关关系统计案例含解析新人教A版理
展开考点规范练57 变量间的相关关系、统计案例
基础巩固
1.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
A.若K2的观测值为6.635,则在犯错误的概率不超过0.01的前提下认为吸烟与患肺病有关系,因此在100个吸烟的人中必有99个患有肺病
B.由独立性检验知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺病有关系时,我们说某人吸烟,则他有99%的可能患肺病
C.若从统计量中求出在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误
D.以上三种说法都不正确
答案:C
解析:独立性检验只表明两个分类变量的相关程度,而不是事件是否发生的概率估计.
2.(2020河北衡水模拟)某公司某型号无人机以其小巧轻便、高效机动、影像清晰、智能化、用途广等突出特点,得到广大用户的青睐,该型号无人机近5年销售量数据统计如表所示.
年份 | 2015 | 2016 | 2017 | 2018 | 2019 |
年份代码x | 0 | 1 | 2 | 3 | 4 |
年销量y/万件 | 10 | 15 | 20 | 30 | 35 |
根据表中的数据用最小二乘法求得y关于x的线性回归方程为=6.5x+t,则可以预测2020年该型号无人机的销量大约为( )
A.40万件 B.41.5万件 C.45万件 D.48万件
答案:B
解析:=2,=22.
又因为直线=6.5x+t过点(2,22),
故6.5×2+t=22,解得t=9.
故预测2020年该型号无人机的销量大约为=6.5×5+9=41.5(万件).
故选B.
3.(2020河南安阳二模)2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播、微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男、女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,且有99%的把握但没有99.9%的把握认为是否喜欢网络课程与性别有关,则被调查的男、女学生总数量可能为( )
附:K2=,其中n=a+b+c+d.
P(K2≥k0) | 0.1 | 0.05 | 0.01 | 0.001 |
k0 | 2.706 | 3.841 | 6.635 | 10.828 |
A.130 B.190 C.240 D.250
答案:B
解析:依题意,设男、女生的人数各为5x,建立2×2列联表如下所示:
性别 | 是否喜欢网络课程 | 总计 | |
喜欢网络课程 | 不喜欢网络课程 | ||
男生 | 4x | x | 5x |
女生 | 3x | 2x | 5x |
总计 | 7x | 3x | 10x |
故K2=,由题可知6.635<<10.828,因此139.335<10x<227.388.只有B符合题意.
故选B.
4.(2020江西九江三模)九江市2019年4月至2020年3月每月最低气温与最高气温(℃)的折线统计图如图所示.已知每月最低气温与最高气温的线性相关系数r=0.83,则下列结论错误的是( )
A.每月最低气温与最高气温有较强的线性相关性,且二者为线性正相关
B.月温差(月最高气温-月最低气温)的最大值出现在10月
C.9~12月的月温差相对于5~8月,波动性更大
D.每月最高气温与最低气温的平均值在4~9月逐月增加
答案:D
解析:每月最低气温与最高气温的线性相关系数r=0.83,可知每月最低气温与最高气温有较强的线性相关性,且二者为线性正相关,A项正确;
由所给的折线图可以看出月温差(月最高气温-月最低气温)的最大值出现在10月,B项正确;
9~12月的月温差相对于5~8月,波动性更大,C项正确;
每月的最高气温与最低气温的平均值在4~8月逐月增加,9月开始减少,D项错误.
故选D.
5.若两个分类变量X和Y的2×2列联表如下:
X | Y | 总计 | |
y1 | y2 | ||
x1 | 5 | 15 | 20 |
x2 | 40 | 10 | 50 |
总计 | 45 | 25 | 70 |
则在犯错误的概率不超过 的前提下认为X与Y之间有关系.
答案:0.001
解析:K2的观测值k=18.822>10.828,所以在犯错误的概率不超过0.001的前提下认为X与Y之间有关系.
6.科研人员在对人体脂肪含量和年龄之间关系的研究中,获得了一些年龄和脂肪含量的简单随机样本数据,如下表:
x(年龄 /岁) | 26 | 27 | 39 | 41 | 49 | 53 | 56 | 58 | 60 | 61 |
y(脂肪 含量/%) | 14.5 | 17.8 | 21.2 | 25.9 | 26.3 | 29.6 | 31.4 | 33.5 | 35.2 | 34.6 |
根据上表的数据得到散点图如下图所示.
(1)根据上表中的样本数据及其散点图:
①求;
②计算样本相关系数(精确到0.01),并刻画它们的相关程度.
(2)若y关于x的线性回归方程为=1.56+x,求的值(精确到0.01),并根据回归方程估计年龄为50岁时人体的脂肪含量.
附:参考数据:=27,xiyi=13 527.8,=23 638,=7 759.6,6.56,54.18.
参考公式:相关系数r=,
回归方程x中斜率和截距的最小二乘估计公式分别为
解:(1)①根据表中的样本数据及其散点图可知
=47.
②r=
=
=
=
=
因为6.56,54.18,所以r≈0.98.
由样本相关系数r≈0.98,可以推断人体脂肪含量和年龄的相关程度很强.
(2)因为线性回归方程为=1.56+x,即=1.56.
所以=0.54.
所以y关于x的线性回归方程为=0.54x+1.56.
将x=50代入线性回归方程得=0.54×50+1.56=28.56.
所以根据线性回归方程预测年龄为50岁时人体的脂肪含量为28.56%.
能力提升
7.某青少年成长关爱机构为了调研所在地区青少年的年龄与身高状况,随机抽取6岁、9岁、12岁、15岁、18岁的青少年身高数据各1 000个,根据各年龄段平均身高作出散点图和回归直线l如图所示.根据图中数据,下列对该样本描述错误的是( )
A.根据样本数据,估计该地区青少年身高与年龄成正相关
B.所抽取数据中,5 000名青少年平均身高约为145 cm
C.直线l的斜率的值近似等于样本中青少年平均身高每年的增量
D.从这5种年龄的青少年中各取一人的身高数据,由这5人的平均年龄和平均身高数据作出的点一定在直线l上
答案:D
解析:在给定范围内,随着年龄的增加,年龄越大,身高越高,该地区青少年身高与年龄成正相关,故A正确;用样本数据估计总体可得平均身高约是145cm,故B正确;根据直线斜率的意义可知斜率的值近似等于样本中青少年平均身高每年的增量,故C正确;各取一人具有随机性,根据数据作出的点只能在直线附近,不一定在直线上,故D错误,故选D.
8.已知x与y之间的几组数据如下表:
x | 1 | 2 | 3 | 4 | 5 | 6 |
y | 0 | 2 | 1 | 3 | 3 | 4 |
假设根据上表数据所得线性回归直线方程x+,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b'x+a',则以下结论正确的是( )
A>b',>a' B>b',<a'
C<b',>a' D<b',<a'
答案:C
解析:由题意可知,b'=2,a'=-2,
=-,
则<b',>a',故选C.
9.(2020广西南宁二模)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(单位:个)和温度x(单位:℃)的8组观测数据,制成散点图如图1所示.现用两种模型①y=ebx+a,②y=cx2+d分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到残差图如图2所示.
根据收集到的数据,计算得到如表值:
(xi-)2 | (ti-)2 | (zi-)(xi-) | (yi-)(ti-) | |||
25 | 2.89 | 646 | 168 | 422 688 | 48.48 | 70 308 |
表中zi=ln yi;zi;ti=ti.
(1)根据残差图,比较模型①、②的拟合效果,应选择哪个模型?并说明理由.
(2)根据(1)中所选择的模型,求出y关于x的回归方程(系数精确到0.01),并求温度为34 ℃时,产卵数y的预报值.
(参考数据:e5.18≈178,e5.46≈235,e5.50≈245,e5.52≈250,e5.83≈340)
附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,vn),其回归直线的斜率和截距的最小二乘估计分别为
解:(1)应该选择模型①.
由于模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令z=lny,z与温度x可以用线性回归方程来拟合,
则x,0.29,
=2.89-0.29×25≈-4.36,
则z关于x的线性回归方程为=0.29x-4.36.
于是有ln y=0.29x-4.36,
∴产卵数y关于温度x的回归方程为=e0.29x-4.36.
当x=34时,y=e0.29×34-4.36=e5.50≈245(个).
∴在气温为34 ℃时,一个红铃虫的产卵数的预报值为245个.
高考预测
10.国内某知名大学有男生14 000人,女生10 000人.该校体育学院想了解本校学生的运动状况,根据性别采取分层抽样的方法从全校学生中抽取120人,统计他们平均每天运动的时间,如下表.(平均每天运动的时间单位:h,该校学生平均每天运动的时间范围是[0,3])
男生平均每天运动的时间分布情况:
平均每天 运动的时间 | [0,0.5) | [0.5,1) | [1,1.5) | [1.5,2) | [2,2.5) | [2.5,3] |
人数 | 2 | 12 | 23 | 18 | 10 | x |
女生平均每天运动的时间分布情况:
平均每天 运动的时间 | [0,0.5) | [0.5,1) | [1,1.5) | [1.5,2) | [2,2.5) | [2.5,3] |
人数 | 5 | 12 | 18 | 10 | 3 | y |
(1)请根据样本估算该校男生平均每天运动的时间(结果精确到0.1);
(2)若规定平均每天运动的时间不少于2 h的学生为“运动达人”,低于2 h的学生为“非运动达人”.
①请根据样本估算该校“运动达人”的数量;
②请根据上述表格中的统计数据填写下面2×2列联表,并通过计算判断能否在犯错误的概率不超过 0.05 的前提下认为“运动达人”与性别有关?
性别 | 是不是运动达人 | 总计 | |
运动达人 | 非运动达人 | ||
男生 |
|
|
|
女生 |
|
|
|
总计 |
|
|
|
参考公式:K2=,其中n=a+b+c+d.
参考数据:
P(K2≥k0) | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 |
k0 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
解:(1)由分层抽样可知,抽取的男生人数为120=70,抽取的女生人数为120-70=50,故x=5,y=2.
则该校男生平均每天运动的时间为≈1.5(h),
故该校男生平均每天运动的时间约为1.5h.
(2)①样本中“运动达人”所占比例是,故估计该校“运动达人”有(14000+10000)=4000(人).
②由表格可知:
性别 | 是不是运动达人 | 总计 | |
运动达人 | 非运动达人 | ||
男生 | 15 | 55 | 70 |
女生 | 5 | 45 | 50 |
总计 | 20 | 100 | 120 |
故K2的观测值
k=2.743<3.841.
故在犯错误的概率不超过0.05的前提下不能认为“运动达人”与性别有关.
高考数学一轮复习考点规范练56变量间的相关关系统计案例含解析新人教A版理: 这是一份高考数学一轮复习考点规范练56变量间的相关关系统计案例含解析新人教A版理,共10页。试卷主要包含了两个随机变量x,y的取值如下表,8)的残差为0等内容,欢迎下载使用。
广西专用高考数学一轮复习考点规范练57坐标系与参数方程含解析新人教A版文: 这是一份广西专用高考数学一轮复习考点规范练57坐标系与参数方程含解析新人教A版文,共7页。试卷主要包含了由ρ=2,ρ=10csθ,等内容,欢迎下载使用。
广西专用高考数学一轮复习考点规范练53变量间的相关关系统计案例含解析新人教A版文: 这是一份广西专用高考数学一轮复习考点规范练53变量间的相关关系统计案例含解析新人教A版文,共10页。试卷主要包含了已知x与y之间的几组数据如下表等内容,欢迎下载使用。