2023高考数学艺体生一轮复习 专题28 统计案例和回归方程(解析版)
展开
这是一份2023高考数学艺体生一轮复习 专题28 统计案例和回归方程(解析版),共40页。
专题28 统计案例和回归方程
【考点预测】
知识点一、变量间的相关关系
1、变量之间的相关关系
当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.
注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
2、散点图
将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.
(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;
(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.
3、相关系数
若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.
(1)当时,表示两个变量正相关;当时,表示两个变量负相关.
(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
(3)通常当时,认为两个变量具有很强的线性相关关系.
知识点二、线性回归
1、线性回归
线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
2、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图
通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数
用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
知识点三、独立性检验
1、分类变量和列联表
(1)分类变量:
变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表.
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
总计
总计
从列表中,依据与的值可直观得出结论:两个变量是否有关系.
2、等高条形图
(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.
(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.
3、独立性检验
(1)定义:利用独立性假设、随机变量来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
(2)公式:,其中为样本容量.
(3)独立性检验的具体步骤如下:
①计算随机变量的观测值,查下表确定临界值:
0.5
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
②如果,就推断“与有关系”,这种推断犯错误的概率不超过;否则,就认为在犯错误的概率不超过的前提下不能推断“与有关系”.
(2)两个分类变量和是否有关系的判断标准:
统计学研究表明:
当时,认为与无关;
当时,有的把握说与有关;
当时,有的把握说与有关;
当时,有的把握说与有关.
【典例例题】
例1.(2023·浙江湖州·高三安吉县高级中学校考期末)研究变量得到一组样本数据,进行回归分析,以下说法中错误的是( )
A.若变量和之间的相关系数为,则变量和之间的负相关很强
B.用决定系数来比较两个模型拟合效果,越大,表示残差平方和越小,即模型的拟合效果越好
C.在经验回归方程中,当解释变量每增加1个单位时,响应变量平均减少2个单位
D.经验回归直线至少经过点中的一个
【答案】D
【解析】对A:若变量和之间的相关系数为,则变量和之间的负相关很强,A正确;
对B:用决定系数来比较两个模型拟合效果,越大,表示残差平方和越小,即模型的拟合效果越好,B正确;
对C:在经验回归方程中,当解释变量每增加1个单位时,响应变量平均减少2个单位,C正确;
对D:经验回归直线必过样本中心点,但不一定过样本点,D错误.
故选:D.
例2.(2023春·河南濮阳·高三统考开学考试)某大型企业开发了一款新产品,投放市场后供不应求,为了达到产量最大化,决定增加生产线.经过一段时间的生产,统计得该款新产品的生产线条数与月产量(件)之间的统计数据如下表:
4
6
8
10
30
40
60
70
由数据可知,线性相关,且满足回归直线方程,则当该款新产品的生产线为12条时,预计月产量为( )A.73件 B.79件 C.85件 D.90件
【答案】C
【解析】依题意可得,,
因为回归直线方程必过样本中心点,即,解得,所以,
当时,
故当该款新产品的生产线为12条时,预计月产量为85件.
故选:C
例3.(2023·高三课时练习)通过随机询问110名不同的大学生是否爱好某项运动,得到了如下的列联表:
男
女
合计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
附表:
0.05
0.010
0.001
3.841
6.635
10.828
参照附表,能得到的正确结论是( ). A.有99%以上的把握认为“爱好该项运动与性别有关”
B.有99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
【答案】A
【解析】由题意知本题所给的观测值,
,
所以有以上的把握认为“爱好该项运动与性别有关”,
即在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”.
故选:A.
例4.(多选题)(2023·山西·统考一模)某同学用搜集到的六组数据绘制了如下散点图,在这六个点中去掉点后重新进行回归分析,则下列说法正确的是( )
A.决定系数变小 B.相关系数的绝对值越趋于1
C.残差平方和变小 D.解释变量与预报变量相关性变弱
【答案】BC
【解析】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
决定系数越接近于1,所拟合的回归方程越优,故去掉点后,变大,越趋于1,A错误;
相关系数越趋于1,拟合的回归方程越优,故去掉点后,故相关系数的绝对值越趋于1,B正确;
残差平方和变小拟合效果越好,故C正确;
解释变量与预报变量相关性增强,D错误.
故选:BC
例5.(2023·浙江宁波·高三期末)已知变量x和y的统计数据如下表:
x
6
7
8
9
10
y
3.5
4
5
5.5
7
如果由表中数据可得经验回归直线方程为,那么,当时,残差为______.(注:残差=观测值-预测值)
【答案】
【解析】,
所以,
所以时,,
所以残差为.
故答案为:.
例6.(2023·全国·模拟预测)2022年是极其不平凡的一年,我国在新冠疫情的反复肆虐下奋勇前行,取得了可观的抗疫成果.下表是2022年3月13日至3月18日河北省现存新冠肺炎确诊病例数目的统计结果:
日期
2022.3.13
2022.3.14
2022.3.15
2022.3.16
2022.3.17
2022.3.18
日期编号x
1
2
3
4
5
6
病例数目y
131
182
195
233
271
292
(1)请根据表中的数据用最小二乘法求y与x的回归直线方程;(计算结果均保留整数)
(2)若已知某校须在河北省病例数目达到450例之前采取封校措施,假设该时间段内河北省的疫情增长速率持平,请根据(1)中的回归直线方程推测该校最晚在哪一天采取封校措施.
参考公式:,,,
【解析】(1),,
,
,
所以回归直线方程;
(2)当,
所以推测该校最晚在2022年3月23日采取封校措施.
例7.(2023春·河北石家庄·高三石家庄二中校考开学考试)某中药企业计划种植两种药材,通过大量考察研究得到如下统计数据.药材A的亩产量约为300公斤,其收购价格处于上涨趋势,最近五年的价格如下表:
年份
2018
2019
2010
2021
2022
年份编号
1
2
3
4
5
单价(元/公斤)
18
20
23
25
29
药材的收购价格始终为20元/公斤,其亩产量的频率分布直方图如下:
(1)若药材A的单价(单位:元/公斤)与年份编号间具有线性相关关系;请求出关于的回归直线方程,并估计2024年药材A的单价;
(2)利用上述频率分布直方图估计药材B的平均亩产量(同一组数据用中点值为代表);
(3)若不考虑其他因素影响,为使收益最大,试判断2024年该药企应当种植药材A还是药材B?并说明理由.
参考公式:回归直线方程,其中.
【解析】(1)由题意可得:,
,
则,,
故回归直线方程为,
当时,,
即2024年药材A的单价预计为元/公斤.
(2)由频率分布直方图可得:组距为20,自左向右各组的频率依次为,
故B药材的平均亩产量为公斤.
(3)预计2024年药材A每亩产值为元,
药材B每亩产值为元元,
所以药材A的每亩产值更高,应该种植药材A.
例8.(2023·全国·高三专题练习)为了让人民享受到更优质的教育服务,我国逐年加大对教育的投入.为了预测2022年全国普通本科招生数,建立了招生数y(单位:万人)与时间变量t的三个回归模型.其中根据2001年至2019年的数据(时间变量t的值依次取1,2,3,…,19)建立模型①: (决定系数)和模型②:=152.4+16.3t(相关系数0.97,决定系数).根据2014年至2019年的数据(时间变量t的值依次取1,2,3,…,6)建立模型③:=372.8+9.8t(相关系数0.99,决定系数).
(1)可以根据模型①得到2022年全国普通本科招生数的预测值为597.88万人,请你分别利用模型②③,求2022年全国普通本科招生数的预测值;
(2)你认为用哪个模型得到的预测值更可靠?说明理由(写出一个即可).
【解析】(1)利用模型②得2022年全国普通本科招生数的预测值为=152.4+16.3×22=511(万人);
利用模型③得2022年全国普通本科招生数的预测值为=372.8+9.8×9=461(万人).
(2)利用模型③得到的预测值更可靠,理由如下(以下理由任选一个作答即可).
理由一:从计算结果可以看出,模型③的决定系数最大,说明其拟合效果最好,因此利用模型③得到的预测值更可靠.
理由二:模型①的决定系数比模型②③小很多,说明其拟合效果最差.对于模型②③,模型③的相关系数0.99比模型②的相关系数0.97大,说明模型③的两变量的线性相关性比模型②更强.因此利用模型③得到的预测值更可靠.
例9.(2023·辽宁·校联考模拟预测)5G技术对社会和国家十分重要,从战略地位来看,业界一般将其定义为继蒸汽机革命、电气革命和计算机革命后的第四次工业革命.某科技公司生产一种5G手机的核心部件,下表统计了该公司2017-2021年在该部件上的研发投入x(单位:千万元)与收益y(单位:亿元)的数据,结果如下:
年份
2017
2018
2019
2020
2021
研发投入x
2
3
4
5
6
收益y
2
3
3
3
4
(1)求研发投入x与收益y的相关系数r(精确到0.01);
(2)由表格可知y与x线性相关,试建立y关于x的线性回归方程,并估计当x为9千万元时,该公司生产这种5G手机的核心部件的收益为多少亿元;
(3)现从表格中的5组数据中随机抽取2组数据并结合公司的其他信息作进一步调研,记其中抽中研发投入超出4千万元的组数为X,求X的分布列及数学期望.
参考公式及数据:对于一组数据(i=1,2,3,⋯,n),相关系数,其回归直线的斜率和截距的最小二乘估计分别为,,.
【解析】(1)由题可得,,
,
,
所以.
(2)因为,,
所以y关于x的线性回归方程为.
当x=9时,,所以此时该公司生产这种5G手机的核心部件收益估计为5亿元.
(3)易知X的可能取值为0,1,2,
,,,
所以X的分布列为
X
0
1
2
P
所以.
例10.(2023·河南信阳·高三统考期末)热心网友们调查统计了柳州市某网红景点在2022年6月至10月的旅游收入y(单位:万元),得到以下数据:
月份x
6
7
8
9
10
旅游收入y
10
12
11
12
20
(1)根据表中所给数据,用相关系数r加以判断,是否可用线性回归模型拟合y与x的关系?若可以,求出y关于x之间的线性回归方程;若不可以,请说明理由;
(2)为调查游客对该景点的评价情况,网友们随机抽查了200名游客,得到如图列联表,请填写2×2列联表,并判断能否有99.9%的把握认为“游客是否喜欢该网红景点与性别有关联”?
喜欢
不喜欢
总计
男
100
女
60
总计
110
参考数据:,
注:r与的计算结果精确到0.001.参考公式:相关系数,
线性回归方程:,其中,,
.
临界值表:
0.010
0.005
0.001
6.635
7.879
10.828
【解析】(1)由已知得,,
,,,
所以,
因为,
说明y与x的线性相关关系很强,可用线性回归模型拟合y与x的关系,
设线性回归方程为,
∴,.
则y关于x线性回归方程为;
(2)由题可得2×2列联表,
喜欢
不喜欢
总计
男
70
30
100
女
40
60
100
总计
110
90
200
,
∴有99.9%的把握认为“游客是否喜欢该网红景点与性别有关联”.
例11.(2023·全国·高三专题练习)网民的智慧与活力催生新业态,网络购物,直播带货,APP买菜等进入我们的生活,改变了我们的生活方式,随之电信网络诈骗犯罪形势也非常严峻.自“国家反诈中心APP”推出后,某地区采取多措并举的推广方式,努力为人民群众构筑一道防诈反诈的“防火墙”.经统计,该地区网络诈骗月报案数与推广时间有关,并记录了经推广x个月后月报案件数y的数据.
x(个)
1
2
3
4
5
6
7
y(件)
891
888
351
220
200
138
112
(1)根据以上数据,使用作为回归方程模型,求出y关于x的回归方程;
(2)分析该地区一直推广下去,两年后能否将网络诈骗月报案数降至75件以下.参考数据(其中,,,,.
参考公式:对于一组数据,,,…,,,其回归直线的斜率和截距的最小二乘估计公式分别为:,.
【解析】(1)由表中数据可得(891+888+351+220+200+138+112)=400,
令,设y关于t的线性回归方程为,
则
则,
故y关于x的回归方程为;
(2)由回归方程可知,随x的增大,y逐渐减少,
当时,,
故两年后网络诈骗月报案数能降至75件以下.
例12.(2023·陕西榆林·统考一模)第二十二届世界杯足球赛在卡塔尔正式拉开序幕,这是历史上首次在北半球冬季举行的世界杯足球赛.某市为了解高中生是否关注世界杯足球赛与性别的关系,随机对该市50名高中生进行了问卷调查,得到如下列联表.
关注
不关注
合计
男高中生
4
女高中生
14
合计
已知在这50名高中生中随机抽取1人,抽到关注世界杯足球赛的高中生的概率为.
(1)完成上面的列联表;
(2)根据列联表中的数据,判断能否有的把握认为该市高中生是否关注世界杯足球赛与性别有关.
附:,其中.
【解析】(1)由题可知,关注世界杯足球赛的高中生有人,
不关注世界杯足球赛的高中生有人.
故完成的列联表如下:
关注
不关注
合计
男高中生
26
4
30
女高中生
14
6
20
合计
40
10
50
(2),
因为,
所以没有的把握认为该市高中生是否关注世界杯足球赛与性别有关.
【技能提升训练】
一、单选题
1.(2023·全国·高三专题练习)下列关于回归分析与独立性检验的说法正确的是( )
A.回归分析和独立性检验没有什么区别
B.回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定性关系
C.回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验
D.独立性检验可以100%确定两个变量之间是否具有某种关系
【答案】C
【解析】回归分析是对两个变量之间的相关关系的一种分析,而相关关系是一种不确定关系,通过回归分析预测和估计两个变量之间具有的相关关系;
独立性检验是对两个变量之间是否具有某种关系的分析,并且可以分析这两个变量在多大程度上具有这种关系,但不能100%肯定这种关系.
故ABD错误,C正确.
故选:C.
2.(2023·全国·高三专题练习)已知下列命题:
①回归直线恒过样本点的中心;
②两个变量线性相关性越强,则相关系数就越接近于1;
③两个模型中残差平方和越小的模型拟合的效果越好.
则正确命题的个数是( ).
A.0 B.1 C.2 D.3
【答案】D
【解析】由回归方程的性质可得,回归直线恒过样本点的中心,①对,
由相关系数的性质可得,两个变量线性相关性越强,则相关系数就越接近于1,②对,
根据残差的定义可得,两个模型中残差平方和越小的模型拟合的效果越好,③对,
故正确命题的个数为3,
故选:D.
3.(2023·全国·高三专题练习)某中学有学生近600人,要求学生在每天上午7:30之前进校,现有一个调查小组调查某天7:00~7:30进校人数的情况,得到如下表格(其中纵坐标表示第分钟至第分钟到校人数,,,如当时,纵坐标表示在7:08~7:09这一分钟内进校的人数为4人).根据调查所得数据,甲同学得到的回归方程是(图中的实线表示),乙同学得到的回归方程是(图中的虚线表示),则下列结论中错误的是( )
1
5
9
15
19
21
24
27
28
29
30
1
3
4
4
11
21
36
66
94
101
106
A.7:00~7:30内,每分钟的进校人数与相应时间呈正相关
B.乙同学的回归方程拟合效果更好
C.根据甲同学得到的回归方程可知该校当天7:09~7:10这一分钟内的进校人数一定是9人
D.该校超过半数的学生都选择在规定到校时间的前5分钟内进校
【答案】C
【解析】对于A,根据散点图知,7:00~7:30内,每分钟的进校人数与相应时间呈正相关,故A正确;
对于B,由图知,曲线的拟合效果更好,故乙同学的回归方程拟合效果更好,故B正确;
对于C,表格中并未给出对应的值,而由甲的回归方程得到的只能是估计值,不一定就是实际值,故C错误;
对于D,全校学生近600人,从表格中的数据知,7:26~7:30进校的人数超过300,故D正确,
故选:C.
4.(2023·全国·高三专题练习)下图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.
根据该折线图判断,下列结论正确的是( )
A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠
B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠
C.投资额与年份负相关
D.投资额与年份的相关系数
【答案】B
【解析】因2009年之前与2010年之后投资额变化较大,故为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠,所以A错误,B正确;
随年份的增长,投资额总体上在增长,所以投资额与年份正相关,,故CD错误.
故选:B.
5.(2023春·广东揭阳·高三校考阶段练习)给出以下四个命题:
①在回归分析中,可用相关指数的值判断模型的拟合效果,越大,模型的拟合效果越好;
②回归模型中离差是实际值与估计值的差,离差点所在的带状区域宽度越窄,说明模型拟合精度越高;
③在一组样本数据(,不全相等)的散点图中,若所有样本点都在直线上,则这组样本数据的线性相关系数为;
④对分类变量与的统计量来说,值越小,判断“与有关系”的把握程度越大.
其中,真命题的个数为( )
A. B. C. D.
【答案】B
【解析】对于①,由相关指数的定义知:越大,模型的拟合效果越好,①正确;
对于②,离差点所在的带状区域宽度越窄,则离差平方和越小,模型拟合精度越高,②正确;
对于③,若所有样本点都在直线上,则线性相关系数,③错误;
对于④,由独立性检验的思想知:值越大,“与有关系”的把握程度越大,④错误.
故选:B.
6.(2023秋·江苏南通·高三统考期末)经验表明,树高与胸径具有线性关系,为了解回归方程的拟合效果,利用下列数据计算残差,用来绘制残差图.
胸径x/cm
18.2
19.1
22.3
24.5
26.2
树高的观测值y/m
18.9
19.4
20.8
22.8
24.8
树高的预测值
18.6
19.3
21.5
23.0
24.4
则残差的最大值和最小值分别是( )A.0.4,-1.8 B.1.8,-0.4 C.0.4,-0.7 D.0.7,-0.4
【答案】C
【解析】解:由表可得,
各组数据的残差为:,,
,,
,
故残差最大值为0.4,最小值为-0.7.
故选:C
7.(2023春·河南开封·高三统考开学考试)某部门统计了某地区今年前7个月在线外卖的规模如下表:
月份代号x
1
2
3
4
5
6
7
在线外卖规模y(百万元)
11
13
18
★
28
★
35
其中4、6两个月的在线外卖规模数据模糊,但这7个月的平均值为23.若利用回归直线方程来拟合预测,且7月相应于点的残差为,则( )A.1.0 B.2.0 C.3.0 D.4.0
【答案】B
【解析】依题意,,而,于是得,
而当时,,即,联立解得,
所以.
故选:B
8.(2023·广西柳州·统考模拟预测)下列说法正确的是( )
A.在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差
B.某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学
C.数据2,3,4,5的方差是数据4,6,8,10的方差的一半
D.在回归直线方程,当解释变量每增加1个单位时,预报变量多增加0.1个单位
【答案】D
【解析】对于A选项:在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好,故A选项错误;
对于B选项:概率只说明事件发生的可能性,事件不一定发生,所以并不能说明天气预报不科学,故B选项错误;
对于C选项:根据所给的数据,看出第二组是由第一组乘以2得到的,前一组的方差是后一组的四分之一,标准差是一半,故C选项错误;
对于D选项:在回归直线方程中,当解释变量每增加1个单位时,预报变量增加0.1个单位,故D选项正确.
故选:D.
9.(2023·全国·高三专题练习)用模型拟合一组数据时,设,将其变换后得到回归方程为,则( )
A. B.1 C. D.2
【答案】D
【解析】因为,,
所以,
又,
所以,解得,
所以,
故选:D
10.(2023·全国·高三专题练习)如图是一组实验数据的散点图,拟合方程,令,则关于的回归直线过点,,则当时,的取值范围是( )
A. B. C. D.
【答案】D
【解析】根据题意可得,
由关于的回归直线过点,可得:
,所以,
所以,
由可得,
所以,
所以,所以,
故选:D
11.(2023·全国·高三专题练习)人类已进入大数据时代,目前,全球年数据产生量已经从级别跃升到,乃至级别(,,,).由国际数据公司的研究结果得到2008年至2020年全球年数据产生量(单位:)的散点图.根据散点图,下面四个选项中最适宜刻画2008年至2020年全球年数据产生量和实际的函数模型是( )
A. B.
C. D.
【答案】D
【解析】由散点图知:全球年数据产生量随年份的增加而增加,且增加的速度越来越快,
因为的图象是一条直线,
的图象,随x增大,y增大,但图象越来越平缓,
的图象,随x增大,y增大,但图象越来越平缓,
的图象,随x增大,y增大,图象越来越陡峭,
所以D选项正确,A、B、C选项错误.
故选:D.
12.(2023·全国·高三专题练习)某高中调查学生对2022年冬奥会的关注是否与性别有关,随机抽样调查150人,进行独立性检验,经计算得,临界值表如下:
0.15
0.10
0.05
0.025
0.010
2.072
2.076
3.841
5.024
6.635
则下列说法中正确的是:( )A.有97.5%的把握认为“学生对2022年冬奥会的关注与性别无关”
B.有99%的把握认为“学生对2022 年冬奥会的关注与性别有关”
C.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别有关”
D.在犯错误的概率不超过2.5%的前提下可认为“学生对2022年冬奥会的关注与性别无关”
【答案】C
【解析】由题意可知,,
所以在犯错误的概率不超过的前提下可认为“学生对2022 年冬奥会的关注与性别有关”.
故选:C.
13.(2023·上海·高三专题练习)为了考查某种病毒疫苗的效果,现随机抽取100只小白鼠进行试验,得到如下2×2列联表:
感染
未感染
总计
服用
10
40
50
未服用
20
30
50
总计
30
70
100
附:,其中.
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
根据以上数据,得到的结论正确的是( )A.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”
B.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗无关”
C.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”
D.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗无关”
【答案】C
【解析】依题意,,
显然有,
所以有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”,选项A,B,D不正确,C正确.
故选:C
14.(2023·全国·高三专题练习)通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:
跳绳
性别
合计
男
女
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
已知,
0.05
0.01
0.001
3.841
6.635
10.828
则以下结论正确的是( )A.根据小概率值的独立性检验,爱好跳绳与性别无关
B.根据小概率值的独立性检验,爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
C.根据小概率值的独立性检验,有99%以上的把握认为“爱好跳绳与性别无关”
D.根据小概率值的独立性检验,在犯错误的概率不超过1%的前提下,认为“爱好跳绳与性别无关”
【答案】A
【解析】由题知
因为,所以爱好跳绳与性别无关且这个结论犯错误的概率超过0.001,故A正确,B错误,又因为,所以有99%以上的把握认为“爱好跳绳与性别有关,或在犯错误的概率不超过1%的前提下,认为“爱好跳绳与性别有关.故C和D错误.
故选:A.
二、多选题
15.(2023春·广东·高三统考开学考试)给出下列说法,其中正确的是( )
A.某病8位患者的潜伏期(天)分别为3,3,8,4,2,7,10,18,则它们的第50百分位数为
B.已知数据的平均数为2,方差为3,那么数据,,的平均数和方差分别为5,13
C.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定
D.样本相关系数
【答案】AC
【解析】选项A,将3,3,8,4,2,7,10,18由小到大排列为2,3,3,4,7,8,10,18,第50百分位数即为中位数,这组数的中位数为,故A正确,
选项B,由数据的平均数为2,方差为3,则数据,,的平均数为,方差为,故B错误,
选项C,在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定,故C正确.
选项D中,样本的相关系数应满足,故D错误.
故选:AC
16.(2023·全国·高三专题练习)下列命题中正确的是( )
A.在回归分析中,成对样本数据的样本相关系数r的绝对值越大,成对样本数据的线性相关程度越强
B.在回归分析中,可用决定系数的值判断模型的拟合效果,越大,模型的拟合效果越好
C.比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型拟合效果越差
D.对分类变量X与Y,统计量的值越大,则判断“X与Y有关系”的把握程度越大
【答案】ABD
【解析】相关系数的绝对值越大,相关程度越强,A正确;
决定系数越大,拟合效果越好,故B正确;
残差平方和越小,模拟效果越好,故C错误;
统计量的值越大,分类变量X与Y相互独立的概率越小,即判断“X与Y有关系”的把握程度越大,故D正确.
故选:ABD
17.(2023·全国·高三专题练习)(多选)千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,随机观察了他所在地区的100天中的“日落云里走”的情况和后半夜天气情况,得到如下数据,
后半夜天气情况
“日落云里走”的情况
下雨
未下雨
总计
出现
25
5
30
未出现
25
45
70
总计
50
50
100
并计算得到,则小波对该地区天气的判断正确的是( )A.后半夜下雨的概率约为
B.未出现“日落云里走”时,后半夜下雨的概率约为
C.有99%的把握认为“‘日落云里走’是否出现”与“后半夜是否下雨”有关
D.若出现“日落云里走”,则后半夜有99%的可能会下雨
【答案】AC
【解析】对A,把频率看作概率,可得后半夜下雨的概率约为,故A判断正确:
对B,未出现“日落云里走”时,后半夜下雨的概率约为,故B判断错误;
对C,由,知有99%的把握认为“‘日落云里走’是否出现”与“后半夜是否下雨”有关,故C判断正确;
易知D判断错误.
故选:AC
18.(2023·全国·高三专题练习)“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如下所示的列联表,通过计算得到K2的观测值为9
认可
不认可
40岁以下
20
20
40岁以上(含40岁)
40
10
已知,,则下列判断正确的是( )A.在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”
B.在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”
C.有99%的把握认为“光盘行动”的认可情况与年龄有关
D.在犯错误的概率不超过0.001的前提下,认为“光盘行动”的认可情况与年龄有关
【答案】AC
【解析】∵K2的观测值为9,且P(K2≥6.635)=0.010,P(K2≥10.828)=0.001,
又∵9>6.635,但9<10.828,∴有99%的把握认为“光盘行动”的认可情况与年龄有关,
或者说,在犯错误的概率不超过0.010的前提下,认为“光盘行动”的认可情况与年龄有关,
所以选项C正确,选项D错误,由表可知认可“光盘行动”的人数为60人,
所以在该餐厅用餐的客人中认可“光盘行动”的比例为%≈66.7%,
故选项A正确,选项B错误.
故选:AC.
19.(2023秋·河北保定·高三校考期末)下列说法中正确的有( )
A.将一组数据中的每一个数据都加上或减去同一个常数后,方差不变;
B.设有一个线性回归方程,变量增加1个单位时,平均增加5个单位;
C.设具有相关关系的两个变量,的相关系数为,则越接近于0,和之间的线性相关程度越弱;
D.在一个列联表中,由计算得的值,在的前提下,的值越大,判断两个变量间有关联的把握就越大.
【答案】ACD
【解析】根据方差公式,可知将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变.故A正确;
变量增加一个单位时,平均减小5个单位,故B不正确;
设具有相关关系的两个变量,的相关系数为,则越接近于,和之间的线性相关程度越弱,故C正确;
在一个列联表中,由计算得的值,若,则有95%的把握判断两个变量间有相关关系,因此在的前提下,的值越大,判断两个变量间有关联的把握就越大,故D正确.
故选:ACD.
三、填空题
20.(2023·全国·高三专题练习)2020年,全球展开了某疫苗研发竞赛,我为处于领先地位,为了研究疫苗的有效率,在某地进行临床试验,对符合一定条件的10000名试验者注射了该疫苗,一周后有20人感染,为了验证疫苗的有效率,同期,从相同条件下未注射疫苗的人群中抽取2500人,分成5组,各组感染人数如下:
调查人数
300
400
500
600
700
感染人数
3
3
6
6
7
并求得与的回归方程为,同期,在人数为10000的条件下,以拟合结果估算未注射疫苗的人群中感染人数,记为;注射疫苗后仍被感染的人数记为,则估计该疫苗的有效率为__________. (疫苗的有效率为;参考数据:;结果保留3位有效数字)
【答案】
【解析】由题设表格中的数据可得,故,
故,而,
故疫苗有效率为,
故答案为:.
21.(2023·全国·高三专题练习)给出的下列四个命题中,正确的命题序号为______.
①从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②设回归直线方程为,当变量每增加一个单位时,平均增加2个单位;
③已知服从正态分布,且,则;
④变量与相对应的一组样本数据为,,,,由上述样本数据得到与的线性回归分析,若表示解释变量对于预报变量变化的贡献率,则.
【答案】④
【解析】对于①,从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样;故①错误;
对于②,在回归直线方程中,当变量每增加一个单位时,平均增加0.2个单位;故②错误;
对于③,若服从正态分布,且,则,所以,故③错误;
对于④,在线性回归中,相关指数等于相关系数,由题意,,,,,,,,,
则,,所以相关指数
,故④正确;
故答案为:④
22.(2023·全国·高三专题练习)x和y的散点图如图所示,在相关关系中,若用拟合时的决定系数为,用拟合时的决定系数为,则,中较大的是________.
【答案】
【解析】由题图知,用拟合的效果比拟合的效果要好,所以,故较大者为.
故答案为:.
23.(2023·高三课时练习)已知x、y的取值如下表所示:
x
2
3
4
5
y
2.2
3.8
5.5
m
若y与x线性相关,且回归直线方程为,则表格中实数m的值为_________.
【答案】6.5
【解析】因为,,所以,解得.
故答案为:6.5.
24.(2023·高三课时练习)观察下列图形,其中两个变量x、y具有相关关系的图是______.(写出所有满足条件的图形序号)
【答案】③④
【解析】根据散点图可知在③④中,样本点成带状分布,则两个变量具有相关关系,
所以两个变量x、y具有相关关系的图是③④.
故答案为:③④.
25.(2023·湖南岳阳·统考一模)已知某车间在上半年的六个月中,每个月的销售额y(万元)与月份()满足线性回归方程,则该车间上半年的总销售额约为______万元.
【答案】198
【解析】由题意可得该车间上半年的总销售额约为:
(万元),
故答案为:198
26.(2023·高三课时练习)某实验室对小白鼠体内x、y两项指标进行研究,连续五次实验所测得的这两项指标数据如下表:
x
120
110
125
130
115
y
92
83
90
96
89
已知y与x具有线性相关关系,利用上表中的五组数据求得回归直线方程为.若下一次实验中,利用该回归直线方程预测得,则的值为______.
【答案】0.54
【解析】已知y与x具有线性相关关系,且直线方程为过样本中心值,
又, ,
所以①,
又实验中,预测得,所以②,
联立①②解得:.
故答案为:0.54.
27.(2023秋·广西河池·高三统考期末)近年来,“考研热”持续升温,2022年考研报考人数官方公布数据为457万,相比于2021年增长了80万之多,增长率达到21%以上.考研人数急剧攀升原因较多,其中,本科毕业生人数增多、在职人士考研比例增大,是两大主要因素.据统计,某市各大高校近几年的考研报考总人数如下表:
年份
2018
2019
2020
2021
2022
年份序号x
1
2
3
4
5
报考人数y(万人)
1. 1
1.6
2
2.5
m
根据表中数据,可求得y关于x的线性回归方程为,则m的值为___________.
【答案】2.8
【解析】,,
,
,
解得.
故答案为:2.8.
四、解答题
28.(2023·全国·高三专题练习)据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm,其余均在50mmm以上,局地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数(,且)表示是否下雨:当时表示该地区下雨,当时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下:
332 714 740 945 593 468 491 272 073 445
992 772 951 431 169 332 435 027 898 719
(1)求出k的值,使得该地区每一天下雨的概率均为;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;
(2)2016年到2020年该地区端午节当天降雨量(单位:mm)如表:
时间
2016年
2017年
2018年
2019年
2020年
年份
1
2
3
4
5
降雨量
28
27
25
23
22
经研究表明:从2016年到2020年,该地区端午节有降雨的年份的降雨量与年份具有线性相关关系,求回归直线方程.并预测该地区2022年端午节有降雨的话,降雨量约为多少?
参考公式:,.
【解析】(1)由题意可知,,解得,即表示下雨,表示不下雨.
所给的20组数据中,,,,,,,,共组表示天中恰好有天下雨,
故所求的概率为.
(2)由题中所给的数据可得,,
所以,,
所以回归方程为,当时,.
所以该地区年端午节有降雨的话,降雨量约为.
29.(2023·全国·高三专题练习)互联网使我们的生活日益便捷,网络外卖也开始成为不少人日常生活中不可或缺的一部分,某市一调查机构针对该市市场占有率较高的甲,乙两家网络外卖企业(以下称外卖甲、外卖乙)的经营情况进行了调查,调查结果如下表:
1日
2日
3日
4日
5日
外卖甲日接单(百单)
5
2
9
8
11
外卖乙日接单(百单)
2
3
10
5
15
(1)试根据表格中这五天的日接单量情况,从统计的角度说明这两家外卖企业的经营状况;
(2)据统计表明,与之间具有线性相关关系.
①请用相关系数对与之间的相关性强弱进行判断;(若,则可认为与有较强的线性相关关系,值精确到0.001)
②经计算求得与之间的回归直线方程为,假定每单外卖业务企业平均能获纯利润3元,试预测当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润的大致范围.(值精确到0.01)
参考数据:,.
【解析】(1)由表格中的数据,可得,,
外卖甲的日接单量的方差,
外卖乙的日接单量的方差,
因为,即外卖甲平均日接单量与外卖乙平均日接单量相同,但外卖甲日接单量更集中一些,所以外卖甲比外卖乙经营状况更好.
(2)①因为
又,,
所以代入计算可得,相关系数,
所以可认为与之间有较强的线性相关关系.
②令,可得,解得,
又,
所以当外卖乙日接单量不低于25百单时,外卖甲所获取的日纯利润大约不低于6006元.
30.(2023·高三课时练习)为打造“四态融合、产村一体”的望山、见水、忆乡愁的美丽乡村,增加农民收入,某乡政府在近几年中任选了5年,经统计,年份代号x与景区农家乐接待游客人数y(单位:万人)的数据如下表:
年份代号x
2
3
5
7
8
接待游客人数y(万人)
3
3.5
4
6.5
8
(1)根据数据说明变量x与y是正相关还是负相关;
(2)求相关系数r的值,并说明年份与接待游客数的相关性的强与弱;
(3)分析近几年中该景区农家乐接待游客人数y的变化情况,求该景区农家乐接待游客人数关于年份代号的回归直线方程;并预测在年份代号为10时该景区农家乐接待游客的人数(单位:万人,精确到小数点后2位).
附:一般地,当r的绝对值大于0.75时认为两个变量之间有很强的线性关系.
,
.
【解析】(1)由表中数据可得,,
则,
由于变量y的值随x的值的增加而增加(),
因此x与y之间是正相关;
(2)因为,
所以年份与接待游客数的相关性很强;
(3)因为,
所以景区农家乐接待游客人数y关于年份代号x的回归直线方程为,
当x=10时,,
由此预测在年份代号为10时该景区农家乐接待游客人数约为9.04万人.
31.(2023秋·河南开封·高三统考期末)某加工工厂加工产品A,现根据市场调研收集到需加工量X(单位:千件)与加工单价Y(单位:元/件)的四组数据如下表所示:
X
6
8
10
12
Y
12
m
6
4
根据表中数据,得到Y关于X的线性回归方程为,其中.
(1)若某公司产品A需加工量为1.1万件,估计该公司需要给该加工工厂多少加工费;
(2)通过计算线性相关系数,判断Y与X是否高度线性相关.
参考公式: ,时,两个相关变量之间高度线性相关.
【解析】(1)∵,,
则,
又∵
∴,,
∴,
∵1.1万=11千,
∴当时,(元),
∴(元),
答:估计该公司需要给该加工工厂57200元加工费.
(2)由(1)知,,,,
∴
∴,
∴两个相关变量之间高度线性相关.
32.(2023·全国·高三专题练习)受北京冬奥会的影响,更多人开始关注滑雪运动,但由于室外滑雪场需要特殊的气候环境,为了满足日益增长的消费需求,国内出现了越来越多的室内滑雪场.某投资商抓住商机,在某大学城附近开了一家室内滑雪场.经过6个季度的经营,统计该室内滑雪场的季利润数据如下:
第个季度
1
2
3
4
5
6
季利润(万元)
2.2
3.6
4.3
4.9
5.3
5.5
根据上面的数据得到的一些统计量如下:
4.3
0.5
101.4
14.1
1.8
表中,.
(1)若用方程拟合该室内滑雪场的季利润与季度的关系,试根据所给数据求出该方程;
(2)利用(1)中得到的方程预测该室内滑雪场从第几个季度开始季利润超过6.5万元;
附:线性回归方程中,,.参考数据:
【解析】(1)由,先求y关于u的线性回归方程,
由已知数据得,
故,
所以y关于u的回归方程为,
故y关于x的回归方程为;
(2)令,得,
所以,
故预测从第12个季度开始季利润超过6.5万元;
33.(2023·全国·高三专题练习)长沙某公司对其主推产品在过去5个月的月广告投入xi(百万元)和相应的销售额yi(百万元)进行了统计,其中i=1,2,3,4,5,对所得数据进行整理,绘制散点图并计算出一些统计量如下:
,,,,,
,,其中,i=1,2,3,4,5.
(Ⅰ)根据散点图判断,与哪一个适宜作为月销售额关于月广告投入xi的回归方程类型?(给出判断即可,不必说明理由)
(Ⅱ)根据(Ⅰ)的判断结果及题中所给数据,建立y关于x的回归方程,并据此估计月广告投入220万元时的月销售额.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.
【解析】(1)根据散点图选择作为回归方程.
(2)令,则,
,
故回归方程为,
当月广告投入为万元时,月销售额为(百万元).
答:选择作为回归方程,当月广告投入为万元时,月销售额约(万元).
34.(2023春·河南濮阳·高三统考开学考试)某出租车公司为推动驾驶员服务意识和服务水平大提升,对出租车驾驶员从驾驶技术和服务水平两个方面进行了考核,并从中随机抽取了100名驾驶员,这100名驾驶员的驾驶技术与性别的2×2列联表和服务水平评分的频率分布直方图如下,已知所有驾驶员的服务水平评分均在区间内.
驾驶技术
优秀
非优秀
男
25
45
女
5
25
(1)判断能否有95%的把握认为驾驶员的驾驶技术是否优秀与性别有关;
(2)从服务水平评分在,内的驾驶员中用分层抽样的方法抽取5人,再从这5人中随机抽取3人,求这3人中恰有2人的评分在内的概率.
附:,其中.
0.10
0.050
0.010
2.706
3.841
6.635
【解析】(1),
没有95%的把握认为驾驶员的驾驶技术是否优秀与性别有关;
(2),
解得:,
故服务水平评分在,内的驾驶员人数比例为,
故用分层抽样的方法抽取5人中,内有4人,设为,内有1人,设为,
再从这5人中随机抽取3人,共有以下情况:
,共10种情况,
其中这3人中恰有2人的评分在的有,6种情况,
故这3人中恰有2人的评分在内的概率为.
35.(2023秋·浙江嘉兴·高三统考期末)为积极响应“反诈”宣传教育活动的要求,某企业特举办了一次“反诈”知识竞赛,规定:满分为100分,60分及以上为合格.该企业从甲、乙两个车间中各抽取了100位职工的竞赛成绩作为样本.对甲车间100位职工的成绩进行统计后,得到了如图所示的成绩频率分布直方图.
(1)估算甲车间职工此次“反诈”知识竞赛的合格率;
(2)若将频率视为概率,以样本估计总体.从甲车间职工中,采用有放回的随机抽样方法抽取3次,每次抽1人,每次抽取的结果相互独立,记被抽取的3人次中成绩合格的人数为.求随机变量的分布列;
(3)若乙车间参加此次知识竞赛的合格率为,请根据所给数据,完成下面的列联表,并根据列联表判断是否有的把握认为此次职工“反计”知识竞赛的成绩与其所在车间有关?
2×2列联表
甲车间
乙车间
合计
合格人数
不合格人数
合计
附参考公式:①,其中.
②独立性检验临界值表
【解析】(1)根据频率分布直方图可求得甲车间此次参加“反诈”知识竞赛的合格率
,即.
(2)由题意可知,由于每次抽取的结果是相互独立的,故,
所以,
故随机变量的分布列为
0
1
2
3
(3)根据题中统计数据可填写列联表如下,
甲车间
乙车间
合计
合格人数
80
60
140
不合格人数
20
40
60
合计
100
100
200
所以有的把握认为“此次职工‘反计’知识竞赛的成绩与职工所在车间有关系”.
36.(2023·江苏南通·统考一模)第二十二届卡塔尔世界杯足球赛(FIFAWorldCupQatar2022)决赛中,阿根廷队通过扣人心弦的点球大战战胜了法国队.某校为了丰富学生课余生活,组建了足球社团.足球社团为了解学生喜欢足球是否与性别有关,随机抽取了男、女同学各100名进行调查,部分数据如表所示:
喜欢足球
不喜欢足球
合计
男生
40
女生
30
合计
(1)根据所给数据完成上表,并判断是否有的把握认为该校学生喜欢足球与性别有关?
(2)社团指导老师从喜欢足球的学生中抽取了2名男生和1名女生示范点球射门.已知男生进球的概率为,女生进球的概率为,每人射门一次,假设各人射门相互独立,求3人进球总次数的分布列和数学期望.
附:.
【解析】(1)列联表如下:
喜欢足球
不喜欢足球
合计
男生
60
40
100
女生
30
70
100
合计
90
110
200
有的把握认为该校学生喜欢足球与性别有关
(2)3人进球总次数的所有可能取值为,
的分布列如下:
0
1
2
3
的数学期望.
37.(2023秋·内蒙古阿拉善盟·高三阿拉善盟第一中学校考期末)盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开后才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内装有正版海贼王手办,且每个盲盒只装一个.某销售网点为调查该款盲盒的受欢迎程度,随机抽取了400人进行问卷调查,并全部收回.经统计,有的人购买了该款盲盒,在这些购买者当中,男生占;而在未购买者当中,男生、女生各占.
(1)完成下面的列联表,并判断是否有的把握认为是否购买该款盲盒与性别有关?
女生
男生
总计
购买
未购买
总计
(2)从购买该款盲盒的人中按性别用分层抽样的方法随机抽取6人,再从这6人中随机抽取3人发放优惠券,求抽到的3人中恰有1位男生的概率.
参考公式:,其中.
参考数据:
0.10
0.05
0.025
0.010
0.005
0.001
2.706
3.841
5.024
6.635
7.879
10.828
【解析】(1)由题可得:购买了该款盲盒的人数为人,其中购买了该款盲盒的男生人数为人,则购买了该款盲盒的女生为人,
所以未购买者总人数为280人,男生、女生各占为140人,则列联表为:
女生
男生
总计
购买
80
40
120
未购买
140
140
280
总计
220
180
400
根据列联表中的数据,可得,
因为,所以有99.5%的把握认为是否购买该款盲盒与性别有关.
(2)抽取6人中,女生有:(人),记为.
男生有:(人),记为A,B.
从这6人中随机抽取3人,有,,,共20种基本事件,
其中抽到的3人中恰有1位男生,有,
,共12种基本事件,
所以抽到的3人中恰有1位男生的概率.
38.(2023秋·江苏·高三统考期末)为深入贯彻党的教䏍方针,全面落实《中共中央国务院关于全面加强新时代大中小学劳动教育的意见》,某校从2022年起积极推进劳动课程改革,先后开发开设了具有地方特色的家政、烹饪、手工、园艺、非物质文化遗产等劳动实践类校本课程.为调研学生对新开设劳动课程的满意度并不断改进劳动教育,该校从2022年1月到10月每两个月从全校3000名学生中随机抽取150名学生进行问卷调查,统计数据如下表:
月份
2
4
6
8
10
满意人数
80
95
100
105
120
(1)由表中看出,可用线性回归模型拟合满意人数与月份之间的关系,求关于的回归直线方程,并预测12月份该校全体学生中对劳动课程的满意人数;
(2)10月份时,该校为进一步深化劳动教育改革,了解不同性别的学生对劳动课程是否满意,经调研得如下统计表:
满意
不满意
合计
男生
65
10
75
女生
55
20
75
合计
120
30
150
请根据上表判断是否有的把握认为该校的学生性别与对劳动课程是否满意有关?参考公式:.
,其中.
【解析】(1)由题意可得,
则
可得,
故关于的回归直线方程为.
令,得,
据此预测12月份该校全体学生中对劳动课程的满意人数为人.
(2)提出假设:该校的学生性别与对劳动课程是否满意无关.
则.
因为,而,
故有的把握认为该校的学生性别与对劳动课程是否满意有关.
39.(2023秋·河南郑州·高三校联考期末)近年来,各地电商行业迅速发展,电商行业的从业人数也相应增长.现将某地近5年电商行业的从业人数统计如下表所示.
第年
1
2
3
4
5
从业人数(万人)
5
8
11
11
15
(1)若与线性相关,求与之间的回归直线方程;
(2)若甲、乙、丙、丁4名大学生毕业后进入电商行业的概率分别为,且他们是否进入电商行业相互独立.记这4人中最终进入电商行业的人数为,求的分布列以及数学期望.
参考公式:在线性回归方程中,.
【解析】(1)依题意,,
而,故,
故所求回归直线方程为;
(2)依题意,的所有可能取值为.
,
,
,,,
所以的分布列为
0
1
2
3
4
故.
相关试卷
这是一份备战2024高考数学艺体生一轮复习40天突破90分讲义专题28 统计案例和回归方程(原卷版+解析版),共69页。
这是一份备战2024高考数学艺体生一轮复习40天突破90分讲义word版专题28 统计案例和回归方程(解析版),共40页。
这是一份2024年高考数学第一轮复习专题28 统计案例和回归方程(原卷版),共27页。