高考数学二轮复习专题37 成对数据的统计问题(2份打包,教师版+原卷版)
展开1.(2022·全国乙理) 某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总
材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
并计算得 SKIPIF 1 < 0 .
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为 SKIPIF 1 < 0 .已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数 SKIPIF 1 < 0 .
2.(2022·新高考Ⅰ)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和
不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”. SKIPIF 1 < 0 与 SKIPIF 1 < 0 的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
(ⅰ)证明: SKIPIF 1 < 0 ;
(ⅱ)利用该调查数据,给出 SKIPIF 1 < 0 的估计值,并利用(ⅰ)的结果给出R的估计值.
附 SKIPIF 1 < 0 ,
【知识总结】
1.变量的相关关系
(1)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
(2)相关关系的分类:正相关和负相关.
(3)线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.
一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.
2.样本相关系数
(1)相关系数r的计算
变量x和变量y的样本相关系数r的计算公式如下:
r=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,n, )xi-\x\t(x)2\i\su(i=1,n, )yi-\x\t(y)2))
(2)相关系数r的性质
①当r>0时,称成对样本数据正相关;当r<0时,成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.
②样本相关系数r的取值范围为[-1,1].
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
(1)经验回归方程与最小二乘法
我们将eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的eq \(b,\s\up6(^)),eq \(a,\s\up6(^))叫做b,a的最小二乘估计,
其中
eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n, )\b\lc\(\rc\)(\a\vs4\al\c1(xi-\x\t(x)))\b\lc\(\rc\)(\a\vs4\al\c1(yi-\x\t(y))),\i\su(i=1,n, )\b\lc\(\rc\)(\a\vs4\al\c1(xi-\x\t(x)))2)=eq \f(\i\su(i=1,n,x)iyi-n\x\t(x) \x\t(y),\i\su(i=1,n, )xi-\x\t(x)2),eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x)
(2)利用决定系数R2刻画回归效果
R2=1-eq \f(\i\su(i=1,n, )\b\lc\(\rc\)(\a\vs4\al\c1(yi-\(y,\s\up6(^))i))2,\i\su(i=1,n, )\b\lc\(\rc\)(\a\vs4\al\c1(yi-\x\t(y)))2),R2越大,即拟合效果越好,R2越小,模型拟合效果越差.
4.列联表与独立性检验
(1)2×2列联表
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其2×2列联表为
(2)临界值
χ2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)).忽略χ2的实际分布与该近似分布的误差后,对于任何小概率值α,可以找到相应的正实数xα,使得P(χ2≥xα)=α成立.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.
(3)独立性检验
基于小概率值α的检验规则是:
当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.
这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
下表给出了χ2独立性检验中几个常用的小概率值和相应的临界值
【题型突破】
考向一 概率与回归分析综合问题
1.(2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区
某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得eq \i\su(i=1,20,x)i=60,eq \i\su(i=1,20,y)i=1 200,eq \i\su(i=1,20, )(xi-eq \x\t(x))2=80,
eq \i\su(i=1,20, )(yi-eq \x\t(y))2=9 000,eq \i\su(i=1,20, ) (xi-eq \x\t(x))(yi-eq \x\t(y))=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:样本相关系数r=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\r(\i\su(i=1,n, )xi-\x\t(x)2\i\su(i=1,n, )yi-\x\t(y)2)),eq \r(2)≈1.414.
2.如图给出了根据我国2012年~2018年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验
回归方程的残差图(2012年~2018年的年份代码x为1~7).
(1)根据散点图分析y与x之间的相关关系;
(2)根据散点图相应数据计算得eq \i\su(i=1,7,y)i=1 074,eq \i\su(i=1,7,x)iyi=4 517,求y关于x的经验回归方程(精确到0.01);
(3)根据经验回归方程的残差图,分析经验回归方程的拟合效果.
附:经验回归直线eq \(y,\s\up6(^))=eq \(a,\s\up6(^))+eq \(b,\s\up6(^))x中斜率和截距的最小二乘估计公式分别为eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,n, )xi-\x\t(x)2),eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x).
3.小区门口有一个熟食摊位,经过一段时间的统计,发现菜品种类和日销售收入之间有一定关系,具体
统计数据如下表:
(1)建立y关于t的线性回归方程;(eq \x\t(y)保留整数)
(2)根据所求线性回归方程,预测如果希望日销售收入超过300元,则菜品种类至少多少种?
附:线性回归直线的斜率和截距的最小二乘估计公式分别为eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n, )ti-\x\t(t)yi-\x\t(y),\i\su(i=1,n, )ti-\x\t(t)2),eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(t),
参考数据:eq \i\su(i=1,7, )(ti-eq \x\t(t))(yi-eq \x\t(y))=350,eq \i\su(i=1,7, )(ti-eq \x\t(t))2=28.
4.配速是马拉松运动中常使用的一个概念,是速度的一种,是指每千米所需要的
时间,相比配速,把心率控制在一个合理水平是安全理性跑马拉松的一个重要策略.图①是一个马拉松跑者的心率y(单位:次/分钟)和配速x(单位:分钟/千米)的散点图,图②是一次马拉松比赛(全程约42千米)前3 000名跑者成绩(单位:分钟)的频率分布直方图.
(1)由散点图看出,可用线性回归模型拟合y与x的关系,求y与x的线性回归方程;
(2)该跑者如果参加本次比赛,将心率控制在160左右跑完全程,估计他跑完全程花费的时间,并估计他能获得的名次.
参考公式:用最小二乘法求线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))的系数:eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(n),\s\d4(i=1))xiyi-n\(x,\s\up6(-))·\(y,\s\up6(-)),\(∑,\s\up6(n),\s\d4(i=1))xeq \\al(2,i)-n\(x,\s\up6(-))2)=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2),
eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)).
参考数据: eq \x\t(y)=135.
5.某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据
并进行了初步处理,得到了下面的散点图及一些统计量的值.
表中ui=eq \f(1,xi),eq \x\t(u)=eq \f(1,8)eq \i\su(i=1,8,u)i.
(1)根据散点图判断y=a+bx与y=c+eq \f(d,x)哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的经验回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程(回归系数的结果精确到0.01).
(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)
附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其经验回归直线eq \(υ,\s\up6(^))=eq \(α,\s\up6(^))+eq \(β,\s\up6(^))ω的斜率和截距的最小二乘估计分别为eq \(β,\s\up6(^))=eq \f(\i\su(i=1,n, )ωi-\x\t(ω)υi-\x\t(υ),\i\su(i=1,n, )ωi-\x\t(ω)2),eq \(α,\s\up6(^))=eq \x\t(υ)-eq \(β,\s\up6(^))eq \x\t(ω).
6.艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(HIV病毒)引起,它把人体免疫系统中最重要
的CD4-T淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒累计感染人数统计表:
(1)请根据该统计表,画出这八年我国艾滋病病毒累计感染人数的折线图;
(2)请用相关系数说明:能用线性回归模型拟合y与x的关系;
(3)建立y关于x的回归方程(系数精确到0.01),预测2024年我国艾滋病病毒累计感染人数.
参考数据:eq \r(42)≈6.48;eq \(∑,\s\up6(8),\s\d4(i=1))yi=449.6,eq \(∑,\s\up6(8),\s\d4(i=1))xiyi=2 319.5,eq \r(\(∑,\s\up6(8),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2)=eq \r(42),eq \r(\(∑,\s\up6(8),\s\d4(i=1)) (yi-\(y,\s\up6(-)))2)=46.2,
参考公式:相关系数r=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\r(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2\(∑,\s\up6(n),\s\d4(i=1)) (yi-\(y,\s\up6(-)))2)),
回归方程:eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))中,eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2),eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)).
7.近年来,高铁的发展逐渐改变了人们的出行方式,我国2016~2020年高铁运营里程的数据如下表所
示.
(1)若x与y具有线性相关关系,求y关于x的线性回归方程;
(2)每一年与前一年的高铁运营里程之差即为该年新增的里程,根据这五年的数据,若用2017~2020年每年新增里程的频率代替之后每年新增相应里程的概率,求2024年中国高铁运营里程大于或等于5万千米的概率.
附:线性回归方程eq \(y,\s\up6(^))=eq \(a,\s\up6(^))+eq \(b,\s\up6(^))x中斜率和截距的最小二乘估计公式分别为:eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(n),\s\d4(i=1))xiyi-n\(x,\s\up6(-)) \(y,\s\up6(-)),\(∑,\s\up6(n),\s\d4(i=1))xeq \\al(2,i)-n\(x,\s\up6(-))2),
eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)).
8.每年春天,婺源的油菜花海吸引数十万游客纷至沓来,油菜花成为“中国最美乡村”的特色景观,三
月,婺源篁岭油菜花海进入最佳观赏期.现统计了近七年每年(2015年用x=1表示,2016年用x=2表示)来篁岭旅游的人次y(单位:万人次)相关数据,如下表所示:
(1)若y关于x具有较强的线性相关关系,求y关于x的线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),并预测2022年来篁岭旅游的人次;
(2)为维持旅游秩序,今需A,B,C,D四位公务员去各景区值班,已知A,B,C去篁岭值班的概率均为eq \f(2,3),D去篁岭值班的概率为eq \f(1,3),且每位公务员是否去篁岭值班不受影响,用X表示此4人中去篁岭值班的人数,求X的分布列与均值.
参考公式:eq \(b,\s\up6(^))=eq \f(\i\su(i=1,n, )xi-\x\t(x)yi-\x\t(y),\i\su(i=1,n, )xi-\x\t(x)2),eq \(a,\s\up6(^))=eq \x\t(y)-eq \(b,\s\up6(^))eq \x\t(x).
参考数据:eq \i\su(i=1,7,y)i=301,eq \i\su(i=1,7, )(xi-eq \x\t(x))(yi-eq \x\t(y))=140.
9.研究机构对某校学生往返校时间的统计资料表明:该校学生居住地到学校的距离x(单位:千米)和学生
花费在上学路上的时间y(单位:分钟)有如下的统计数据:
由统计资料表明y与x具有线性相关关系.
(1)判断y与x的相关程度;(相关系数r的绝对值大于0.75时,认为两个变量相关程度很强,精确到0.01)
(2)求线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)) (精确到0.01);
(3)将eq \(y,\s\up6(^))<27的时间数据eq \(y,\s\up6(^))i称为美丽数据,现从这6个时间数据eq \(y,\s\up6(^))i中任取2个,求抽取的2个数据全部为美丽数据的概率.
参考公式:用最小二乘法求线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))的系数:eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(n),\s\d4(i=1))xiyi-n\(x,\s\up6(-))·\(y,\s\up6(-)),\(∑,\s\up6(n),\s\d4(i=1))xeq \\al(2,i)-n\(x,\s\up6(-))2)=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2),
eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)).
参考数据:eq \i\su(i=1,6,y)i=175.4,eq \i\su(i=1,6,x)iyi=764.36,eq \i\su(i=1,6, )(xi-eq \x\t(x))·(yi-eq \x\t(y))=80.30,eq \i\su(i=1,6, )(xi-eq \x\t(x))2=14.30,eq \i\su(i=1,6, )(yi-eq \x\t(y))2=471.65,eq \r(\i\su(i=1,6, )xi-\x\t(x)2\i\su(i=1,6, )yi-\x\t(y)2)=82.13.
10.随着中美贸易战的不断升级,越来越多的国家科技巨头加大了科技研发投入的力度.中华技术有限公
司拟对“麒麟”手机芯片进行科技升级,根据市场调研与模拟,得到科技升级投入x(亿元)与科技升级直接收益y(亿元)的数据统计如下:
当0
(1)根据下列表格中的数据,比较当0
(2)为鼓励科技创新,当科技升级的投入不少于20亿元时,国家给予公司补贴5亿元,以回归方程为预测依据,比较科技升级投入17亿元与20亿元时公司实际收益的大小;
(附:用最小二乘法求线性回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^))的系数:eq \(b,\s\up6(^))=eq \f(\(∑,\s\up6(n),\s\d4(i=1))xiyi-n\(x,\s\up6(-))·\(y,\s\up6(-)),\(∑,\s\up6(n),\s\d4(i=1))xeq \\al(2,i)-n\(x,\s\up6(-))2)=eq \f(\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\(∑,\s\up6(n),\s\d4(i=1)) (xi-\(x,\s\up6(-)))2),
eq \(a,\s\up6(^))=eq \(y,\s\up6(-))-eq \(b,\s\up6(^))eq \(x,\s\up6(-)))
(3)科技升级后,“麒麟”芯片的效率X大幅提高,经实际试验得X大致服从正态分布N(0.52,0.012).公司对科技升级团队的奖励方案如下:若芯片的效率不超过50%,不予奖励;若芯片的效率超过50%但不超过53%,每部芯片奖励2元;若芯片的效率超过53%,每部芯片奖励4元,记Y为每部芯片获得的奖励,求E(Y)(精确到0.01).
(附:若随机变量X~N(μ,σ2)(σ>0),则P(μ-σ
11.(2021·全国甲)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产
品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),
12.某社区管委会积极响应正在开展的“创文活动”,特制订了饲养宠物的管理规定.为了解社区住户对这
个规定的态度(赞同与不赞同),工作人员随机调查了社区220户住户,将他们的态度和家里是否有宠物的情况进行了统计,得到如下2×2列联表(单位:户):
同时,工作人员还从上述调查的不赞同管理规定的住户中,用分层抽样的方法按家里有宠物、家里没有宠物抽取了18户组成样本T,进一步研究完善饲养宠物的管理规定.
(1)根据上述列联表,能否在犯错误的概率不超过0.001的前提下认为“社区住户对饲养宠物的管理规定的态度与家里是否有宠物有关系”?
(2)工作人员在样本T中随机抽取6户住户进行访谈,求这6户住户中,至少有1户家里没有宠物的概率P(结果用分数表示).
附:K2= eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)) ,其中n=a+b+c+d.
13.为了了解市民对A,B运营商的5G通信服务的评价,分别从A,B运营商的用户中随机抽取100名用
户对其进行测评,已知测评得分在70分以上的为优秀,测评结果如表:
A运营商的100名用户的测评得分
(1)根据频率分布直方图,求B运营商的100名用户的测评得分的平均值(同一组中的数据用该组区间的中点值为代表);
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为测评得分是否优秀与运营商有关?
附:K2=eq \f(nad-bc2,a+bc+da+cb+d),其中n=a+b+c+d.
14.为了响应政府“节能减排”的号召,某知名品牌汽车厂家决定生产一款纯电动汽车.生产前,厂家进
行了人们对纯电动汽车接受程度的调查.在20~60岁的人群中随机抽取了100人,调查数据的频率分布直方图和接受纯电动汽车的人数与年龄的统计结果如图所示:
(1)由以上统计数据填2×2列联表,并判断能否有95%的把握认为以44岁为分界点的不同年龄人群对纯电动汽车的接受程度有差异?
(2)若以44岁为分界点,从不接受“纯电动汽车”的人群中,按分层抽样的方法抽取8人调查不接受“纯电动汽车”的原因,现从这8人中随机抽取2人.记抽到44岁以下的人数为X,求随机变量X的分布列及数学期望.
附:K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))
15.推进垃圾分类处理,是落实绿色发展理念的必然选择,也是打赢污染防治攻坚战的重要环节.为了解
居民对垃圾分类的了解程度,某社区居委会随机抽取1 000名社区居民参与问卷测试,并将问卷得分绘制频率分布表如下:
(1)从该社区随机抽取一名居民参与问卷测试,试估计其得分不低于60分的概率;
(2)将居民对垃圾分类的了解程度分为“比较了解”(得分不低于60分)和“不太了解”(得分低于60分)两类,完成2×2列联表,并判断是否有95%的把握认为“居民对垃圾分类的了解程度”与“性别”有关?
单位:人
(3)从参与问卷测试且得分不低于80分的居民中,按照性别进行分层抽样,共抽取10人,连同n(n∈N*)名男性调查员一起组成3个环保宣传队.若从这n+10中随机抽取3人作为队长,且男性队长人数占的期望不小于2.求n的最小值.
附:K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d))(n=a+b+c+d).
临界值表:
16.直播带货是扶贫助农的一种新模式,这种模式是利用主流媒体的公信力,聚合销售主播的力量助力打
通农产品产销链条,切实助力贫困地区农民脱贫增收.某贫困地区有统计数据显示,2020年该地利用网络直播形式销售农产品的销售主播年龄等级分布如图1所示,一周内使用直播销售的频率分布扇形图如图2所示.若将销售主播按照年龄分为“年轻人”(20岁~39岁)和“非年轻人”(19岁及以下或者40岁及以上)两类,将一周内使用的次数为6次或6次以上的称为“经常使用直播销售用户”,使用次数为5次或不足5次的称为“不常使用直播销售用户”,则“经常使用直播销售用户”中有eq \f(5,6)是“年轻人”.
(1)现对该地相关居民进行“经常使用网络直播销售与年龄关系”的调查,采用随机抽样的方法,抽取一个容量为200的样本,请你根据图表中的数据,完成2×2列联表,并判断能否有85%的把握认为经常使用网络直播销售与年龄有关?
使用直播销售情况与年龄列联表
(2)某投资公司在2021年年初准备将1 000万元投资到“销售该地区农产品”的项目上,现有两种销售方案供选择:
方案一:线下销售.根据市场调研,利用传统的线下销售,到年底可能获利30%,可能亏损15%,也可能不赔不赚,且这三种情况发生的概率分别为eq \f(7,10),eq \f(1,5),eq \f(1,10);
方案二:线上直播销售.根据市场调研,利用线上直播销售,到年底可能获利50%,可能亏损30%,也可能不赔不赚,且这三种情况发生的概率分别为eq \f(3,5),eq \f(3,10),eq \f(1,10).
针对以上两种销售方案,请你从均值和方差的角度为投资公司选择一个合理的方案,并说明理由.
参考数据:独立性检验临界值表
其中,K2=eq \f(nad-bc2,a+bc+da+cb+d),n=a+b+c+d.
17.电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.如
图所示的是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.
(1)根据已知条件完成下面的2×2列联表,据此资料你是否认为“体育迷”与性别有关?
(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的结果是相互独立的,求X的分布列,均值E(X)和方差D(X).
附:χ2=eq \f(nad-bc2,a+bc+da+cb+d)
18.2018年3月份,上海出台了《关于建立完善本市生活垃圾全程分类体系的实施方案》,4月份又出台
了《上海市生活垃圾全程分类体系建设行动计划(2018~2020年)》,提出到2020年底,基本实现单位生活垃圾强制分类全覆盖,居民区普遍推行生活垃圾分类制度.为加强社区居民的垃圾分类意识,推动社区垃圾分类正确投放,某社区在健身广场举办了“垃圾分类,从我做起”生活垃圾分类大型宣传活动,号召社区居民用实际行动为建设绿色家园贡献一份力量,为此需要征集一部分垃圾分类志愿者.
(1)为调查社区居民喜欢担任垃圾分类志愿者是否与性别有关,现随机选取了一部分社区居民进行调查,其中被调查的男性居民和女性居民人数相同,男性居民中不喜欢担任垃圾分类志愿者占男性居民的eq \f(3,5),女性居民中不喜欢担任垃圾分类志愿者占女性居民的eq \f(1,5),若研究得到在犯错误概率不超过0.010的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关,则被调查的女性居民至少多少人?
(2)某垃圾站的日垃圾分拣量y(千克)与垃圾分类志愿者人数x(人)满足回归方程eq \(y,\s\up6(^))=eq \(b,\s\up6(^))x+eq \(a,\s\up6(^)),数据统计如下:
已知 eq \(y,\s\up6(-))= eq \f(1,5) eq \i\su(i=1,5,y)i=40, eq \i\su(i=1,5,x) eq \\al(\s\up1(2),\s\d1(i))=90, eq \i\su(i=1,5,x)iyi=885,根据所给数据求t和回归方程 eq \(y,\s\up6(^))= eq \(b,\s\up6(^))x+ eq \(a,\s\up6(^)).
(3)用(2)中所求的回归方程得到与xi对应的日垃圾分拣量的估计值 eq \(y,\s\up6(^))i.当分拣数据yi与估计值 eq \(y,\s\up6(^))i满足| eq \(y,\s\up6(^))i-yi|≤2时,则将分拣数据(xi,yi)称为一个“正常数据”.现从5个分拣数据中任取3个,记X表示取得“正常数据”的个数,求X的分布列和数学期望.
附: eq \(b,\s\up6(^))= eq \f(\i\su(i=1,n, )(xi-\(x,\s\up6(-)))(yi-\(y,\s\up6(-))),\i\su(i=1,n, )(xi-\(x,\s\up6(-)))2), eq \(a,\s\up6(^))= eq \(y,\s\up6(^))- eq \(b,\s\up6(^)) eq \(x,\s\up6(-)),
K2= eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)) ,(n=a+b+c+d)
19.市教育部门为研究高中学生的身体素质与课外体育锻炼时间的关系,对该市某校200名高中学生的课
外体育锻炼平均每天锻炼的时间进行了调查,数据如下表:
将学生日均课外体育锻炼时间在[40,60]内的学生评价为“课外体育达标”.
(1)请根据上述表格中的统计数据填写下面2×2列联表,并通过计算判断是否能在犯错误的概率不超
过0.01的前提下认为“课外体育达标”与性别有关;
(2)从上述课外体育不达标的学生中,按性别用分层简单随机抽样的方法抽取10名学生,再从这10名学生中随机抽取3人了解他们锻炼时间偏少的原因,记所抽取的3人中男生的人数为随机变量X,求X的分布列和数学期望;
(3)将上述调查所得到的频率视为概率来估计全市的情况,现在从该市所有高中学生中抽取4名学生,求其中恰好有2名学生课外体育达标的概率.
参考公式:K2= eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)) ,其中n=a+b+c+d.
参考数据:
20.某观影平台为了解观众对最近上映的某部影片的评价情况(评价结果仅有“好评”“差评”),从平台
所有参与评价的观众中随机抽取216人进行调查,部分数据如表所示(单位:人):
(1)请将2×2列联表补充完整,并判断是否有99%的把握认为“对该部影片的评价与性别有关”?
(2)若将频率视为概率,从观影平台的所有给出“好评”的观众中随机抽取3人,用随机变量X表示抽到的男性观众的人数,求X的分布列;
(3)在抽取的216人中,从给出“好评”的观众中利用分层抽样的方法抽取10人,从给出“差评”的观众中抽取m(m∈N*)人.现从这(10+m)人中,随机抽取2人,用随机变量Y表示抽到的给出“好评”的女性观众的人数.若随机变量Y的数学期望不小于1,求m的最大值.
参考公式:K2=eq \f(n(ad-bc)2,(a+b)(c+d)(a+c)(b+d)),其中n=a+b+c+d.
参考数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积 SKIPIF 1 < 0
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量 SKIPIF 1 < 0
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
不够良好
良好
病例组
40
60
对照组
10
90
SKIPIF 1 < 0
0.050
0.010
0.001
k
3.841
6.635
10.828
x
y
合计
y=y1
y=y2
x=x1
a
b
a+b
x=x2
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
菜品种类t
4
5
6
7
8
9
10
日销售收入y
147
159
171
184
197
210
221
eq \x\t(x)
eq \x\t(y)
eq \x\t(u)
eq \i\su(i=1,8, )( xi-eq \x\t(x))2
eq \i\su(i=1,8, )(xi-eq \x\t(x))
·(yi-eq \x\t(y))
eq \i\su(i=1,8, )(ui-eq \x\t(u))2
eq \i\su(i=1,8, )(ui-eq \x\t(u))
·(yi-eq \x\t(y))
15.25
3.63
0.269
2 085.5
-230.3
0.787
7.049
年份
2014
2015
2016
2017
2018
2019
2020
2021
年份代码x
1
2
3
4
5
6
7
8
累计感染者人数y
(单位:万人)
34.3
38.3
43.3
53.8
57.7
65.4
71.8
85
年份
2016
2017
2018
2019
2020
年份代码x
1
2
3
4
5
高铁运营里程y(万千米)
1.9
2.2
2.5
2.9
3.5
x
1
2
3
4
5
6
7
y
29
33
36
44
48
52
59
到学校的距离x(千米)
1.8
2.6
3.1
4.3
5.5
6.1
花费的时间y(分钟)
17.8
19.6
27.5
31.3
36.0
43.2
序号
1
2
3
4
5
6
7
8
9
10
11
12
x
2
3
4
6
8
10
13
21
22
23
24
25
y
13
22
31
42
50
56
58
68.5
68
67.5
66
66
回归模型
模型①
模型②
回归方程
eq \(y,\s\up6(^))=4.1x+11.8
eq \(y,\s\up6(^))=21.3eq \r(x)-14.4
eq \(∑,\s\up6(7),\s\d4(i=1)) (yi-eq \(y,\s\up6(^))i)2
182.4
79.2
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
赞同规定住户
不赞同规定住户
合计
家里有宠物住户
70
40
110
家里没有宠物住户
90
20
110
合计
160
60
220
P(K2≥k0)
0.10
0.010
0.001
k0
2.706
6.635
10.828
得分
[40,50]
(50,60]
(60,70]
(70,80]
(80,90]
(90,100]
频率
0.18
0.23
0.3
0.24
0.03
0.02
优秀
非优秀
总计
A运营商
B运营商
总计
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
年龄
[20,28)
[28,36)
[36,44)
[44,52)
[52,60]
接受的人数
14
6
15
28
17
44岁以下
44岁及44岁以上
总计
接受
不接受
总计
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
得分
[30,40)
[40,50)
[50,60)
[60,70)
[70,80)
[80,90)
[90,100]
男性人数
40
90
120
130
110
60
30
女性人数
20
50
80
110
100
40
20
性别
了解程度
合计
不太了解
比较了解
男性
女性
合计
P(K2>k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
年轻人
非年轻人
总计
经常使用直播销售用户
不常使用直播销售用户
总计
P(K2≥k0)
0.15
0.10
0.050
0.025
0.010
k0
2.072
2.706
3.841
5.024
6.635
非体育迷
体育迷
合计
男
女
10
55
合计
α
0.05
0.01
xα
3.841
6.635
志愿者人数x(人)
2
3
4
5
6
日垃圾分拣量y(千克)
25
30
40
45
t
P(K2>k0)
0.100
0.050
0.010
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
平均每天锻炼的时间(分钟)
[0,10)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60]
总人数
20
36
44
50
40
10
性别
学生评价
合计
课外体育不达标
课外体育达标
男
女
20
110
合计
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
好评
差评
合计
男性
68
108
女性
60
合计
216
P(K2≥x0)
0.100
0.050
0.025
0.010
0.005
0.001
x0
2.706
3.841
5.024
6.635
7.879
10.828
(新高考)高考数学一轮复习学案+巩固提升练习9.3《成对数据的统计分析》(2份打包,原卷版+教师版): 这是一份(新高考)高考数学一轮复习学案+巩固提升练习9.3《成对数据的统计分析》(2份打包,原卷版+教师版),文件包含新高考高考数学一轮复习讲义+巩固练习93《成对数据的统计分析》原卷版doc、新高考高考数学一轮复习讲义+巩固练习93《成对数据的统计分析》原卷版pdf、新高考高考数学一轮复习讲义+巩固练习93《成对数据的统计分析》教师版doc、新高考高考数学一轮复习讲义+巩固练习93《成对数据的统计分析》教师版pdf等4份试卷配套教学资源,其中试卷共68页, 欢迎下载使用。
新高考数学二轮复习考点突破学案5.3《统计与成对数据的分析》(2份打包,原卷版+教师版): 这是一份新高考数学二轮复习考点突破学案5.3《统计与成对数据的分析》(2份打包,原卷版+教师版),文件包含新高考数学二轮复习考点突破学案53《统计与成对数据的分析》原卷版doc、新高考数学二轮复习考点突破学案53《统计与成对数据的分析》原卷版pdf、新高考数学二轮复习考点突破学案53《统计与成对数据的分析》教师版doc、新高考数学二轮复习考点突破学案53《统计与成对数据的分析》教师版pdf等4份试卷配套教学资源,其中试卷共54页, 欢迎下载使用。
(新高考)高考数学一轮复习学案+分层提升9.3《成对数据的统计分析》(2份打包,原卷版+教师版): 这是一份(新高考)高考数学一轮复习学案+分层提升9.3《成对数据的统计分析》(2份打包,原卷版+教师版),文件包含新高考高考数学一轮复习讲义+巩固练习93《成对数据的统计分析》原卷版doc、新高考高考数学一轮复习讲义+巩固练习93《成对数据的统计分析》原卷版pdf、新高考高考数学一轮复习讲义+巩固练习93《成对数据的统计分析》教师版doc、新高考高考数学一轮复习讲义+巩固练习93《成对数据的统计分析》教师版pdf等4份试卷配套教学资源,其中试卷共78页, 欢迎下载使用。