- 专题9.1 随机抽样、统计图表(举一反三)(新高考专用)(含答案) 2025年高考数学一轮复习专练(新高考专用) 试卷 0 次下载
- 专题9.2 用样本估计总体(举一反三)(新高考专用)(含答案) 2025年高考数学一轮复习专练(新高考专用) 试卷 0 次下载
- 专题10.1 分类加法计数原理与分步乘法计数原理(举一反三)(新高考专用)(含答案) 2025年高考数学一轮复习专练(新高考专用) 试卷 0 次下载
- 专题10.2 排列与组合(举一反三)(新高考专用)(含答案) 2025年高考数学一轮复习专练(新高考专用) 试卷 1 次下载
- 专题10.3 二项式定理(举一反三)(新高考专用)(含答案) 2025年高考数学一轮复习专练(新高考专用) 试卷 1 次下载
专题9.3 成对数据的统计分析(举一反三)(新高考专用)(含答案) 2025年高考数学一轮复习专练(新高考专用)
展开TOC \ "1-3" \h \u
\l "_Tc2726" 【题型1 变量的相关关系】 PAGEREF _Tc2726 \h 4
\l "_Tc21703" 【题型2 样本相关系数】 PAGEREF _Tc21703 \h 6
\l "_Tc6758" 【题型3 一元线性回归模型】 PAGEREF _Tc6758 \h 8
\l "_Tc26673" 【题型4 非线性回归模型】 PAGEREF _Tc26673 \h 11
\l "_Tc17098" 【题型5 残差分析】 PAGEREF _Tc17098 \h 16
\l "_Tc18241" 【题型6 列联表与独立性检验】 PAGEREF _Tc18241 \h 18
\l "_Tc7303" 【题型7 独立性检验与其他知识综合】 PAGEREF _Tc7303 \h 21
1、成对数据的统计分析
【知识点1 变量的相关关系】
1.变量的相关关系
(1)函数关系
函数关系是一种确定性关系,常用解析式来表示.
(2)相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关
系.与函数关系不同,相关关系是一种非确定性关系.
2.散点图
(1)散点图
成对样本数据都可用直角坐标系中的点表示出来,由这些点组成的统计图叫做散点图.
(2)正相关和负相关
如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个
变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.
3.线性相关
一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,则称这两个变量线
性相关.
【知识点2 样本相关系数】
1.样本相关系数
(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用
相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:
(其中,,,和,,,的均值分别为和).
①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;
当其中一个数据的值变大时,另一个数据的值通常也变大.
②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;
当其中一个数据的值变大时,另一个数据的值通常会变小.
【知识点3 一元线性回归模型】
1.一元线性回归模型
把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称
为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.
2.线性经验回归方程与最小二乘法
设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+
(i=1,2,,n),得|-(+a)|= ||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.
通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线
y=bx+a的“整体接近程度”.
当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方
程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二
乘法,求得的,叫做b,a的最小二乘估计.
经验回归直线一定过点(,).
3.残差分析
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减
去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
4.回归分析的三大常用结论
(1)求解经验回归方程的关键是确定回归系数,应充分利用回归直线过样本点的中心.
(2)根据经验回归方程计算的值,仅是一个预报值,不是真实发生的值.
(3)根据的值可以判断两个分类变量有关的可信程度,若越大,则两分类变量有关的把握越大.
【知识点4 列联表与独立性检验】
1.2×2列联表
假设两个分类变量X和Y,它们的可能取值分别为{,}和{,},其2×2列联表为
2×2列联表给出了成对分类变量数据的交叉分类频数.
2.独立性检验
(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示.
则.
(2)利用的取值推断分类变量X和Y是否独立的方法称为独立性检验,读作“卡方独立性检验”,简
称独立性检验.
(3)独立性检验中几个常用的小概率值和相应的临界值.
3.独立性检验的应用问题的解题策略
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式计算;
(3)通过比较与临界值的大小关系来作统计推断.
【方法技巧与总结】
1.经验回归直线过点.
2.求时,常用公式.
3.回归分析和独立性检验都是基于成对样本观测数据进行估计或推断,得出的结论都可能犯错误.
【题型1 变量的相关关系】
【例1】(2024·辽宁葫芦岛·一模)已知变量x与y的回归直线方程为y=3x−1,变量y与z负相关,则( )
A.x与y负相关,x与z负相关B.x与y正相关,x与z正相关
C.x与y负相关,x与z正相关D.x与y正相关,x与z负相关
【解题思路】根据已知条件,结合回归方程可判断x与y正相关,再由变量y与z负相关,即可判断x与z负相关.
【解答过程】根据回归方程y=3x−1可知变量x与y正相关,又变量y与z负相关,
由正相关、负相关的定义可知,x与z负相关.
故选:D.
【变式1-1】(23-24高二下·北京丰台·期末)在一般情况下,下列各组的两个变量呈正相关的是( )
A.某商品的销售价格与销售量B.汽车匀速行驶时的路程与时间
C.气温与冷饮的销售量D.人的年龄与视力
【解题思路】根据相关关系的概念逐项判定,即可求解.
【解答过程】对于A,某商品的销售价格与销售量呈负相关关系,故错误;
对于B,汽车匀速行驶时的路程与时间是函数关系,故错误;
对于C,气温与冷饮的销售量呈正相关,故正确;
对于D,人的年龄与视力呈负相关,故错误.
故选:C.
【变式1-2】(23-24高二下·四川眉山·期末)根据物理中的胡克定律,弹簧伸长的长度与所受的外力成正比.测得一根弹簧伸长长度x和相应所受外力F的一组数据如下:
据此给出以下结论:
①这两变量不相关;②这两个变量负相关;③这两个变量正相关.
其中所有正确结论的个数是( )
A.3B.2C.1D.0
【解题思路】根据散点图判断.
【解答过程】画出弹簧伸长长度x和相应所受外力F的散点图,
可以判断这两变量相关,且为正相关,故①②错误,③正确.
故选:C.
【变式1-3】(2024·全国·模拟预测)观察下列散点图,其中两个变量的相关关系判断正确的是( )
A.a为正相关,b为负相关,c为不相关B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关D.a为正相关,b为不相关,c为负相关
【解题思路】根据给定的散点图,结合相关性,即可求解.
【解答过程】根据给定的散点图,可得a中的数据分布在左下方到右上方的区域里,为正相关,
b中的数据分布在左上方到右下方的区域里,为负相关,
c中的数据各点分布不成带状,相关性不明确,不相关.
故选:A.
【题型2 样本相关系数】
【例2】(2024·上海·三模)上海百联集团对旗下若干门店的营业额与三个影响因素分别作了相关性分析,绘制了如下的散点图,则下述大小关系正确的为( ).
A.r1>r2>r3B.r2>r3>r1C.r1>r3>r2D.r3>r2>r1
【解题思路】根据散点图判断两变量的线性相关性,再根据线性相关性与相关系数的关系判断即可.
【解答过程】由散点图可知,图一两个变量成正相关,且线性相关性较强,故r1>0,
图二、图三两个变量都成负相关,且图二的线性相关性更强,
故r2<0,r3<0,r2>r3,故0>r3>r2,所以r1>r3>r2.
故选:C.
【变式2-1】(23-24高二上·辽宁·期末)在一组样本数据x1,y1、x2,y2、⋯、xn,ynn≥2、x1、x2、⋯、xn不全相等)的散点图中,若所有的样本点xi,yii=1,2,⋯,n都在直线y=−2x+1上,则这组样本数据的相关系数为( )
A.2B.−2C.−1D.1
【解题思路】根据相关系数的与线性相关关系可得解.
【解答过程】因为所有的样本点都在直线y=−2x+1上,所以相关系数r满足r=1.
又因为−2<0,所以r<0,所以r=−1.
故选:C.
【变式2-2】(2024·四川成都·二模)对变量x,y有观测数据xi,yii∈N*,得散点图1;对变量u,v有观测数据ui,vii∈N*,得散点图2.r1表示变量x,y之间的线性相关系数,r2表示变量u,v之间的线性相关系数,则下列说法正确的是( )
A.变量x与y呈现正相关,且r1
C.变量x与y呈现正相关,且r1>r2D.变量x与y呈现负相关,且r1
【解答过程】由题意可知,变量x,y的散点图中,y随x的增大而增大,所以变量x与y呈现正相关;
再分别观察两个散点图,图1比图2点更加集中,相关性更好,所以线性相关系数r1>r2.
故选:C.
【变式2-3】(2024·湖南·模拟预测)某骑行爱好者在专业人士指导下对近段时间骑行锻炼情况进行统计分析,统计每次骑行期间的身体综合指标评分x与骑行用时y(单位:小时)如下表:
由上表数据得到的正确结论是( )
参考数据:i=15xi−x2=10,i=15yi−y2=7.06,i=15xi−xyi−y=−8.4,70.6≈8.402.
参考公式:相关系数r=i=1nxi−xyi−yi=1nxi−x2i=1nyi−y2.
A.身体综合指标评分x与骑行用时y正相关
B.身体综合指标评分x与骑行用时y的相关程度较弱
C.身体综合指标评分x与骑行用时y的相关程度较强
D.身体综合指标评分x与骑行用时y的关系不适合用线性回归模型拟合
【解题思路】求出相关系数,根据相关系数的大小确定答案即可.
【解答过程】因为相关系数r=i=15xi−xyi−yi=15xi−x2i=15yi−y2=−8.410×7.06≈−1.
即相关系数近似为−1,y与x负相关,且相关程度相当高,从而可用线性回归模型拟合y与x的关系.
所以选项ABD错误,C正确.
故选:C.
【题型3 一元线性回归模型】
【例3】(2024·全国·模拟预测)2023年第19届亚运会在杭州举行,亚运会的吉祥物琮琮、莲莲、宸宸深受大家喜爱,某商家统计了最近5个月销量,如表所示:若y与x线性相关,且线性回归方程为y=−0.6x+a,则下列说法不正确的是( )
A.由题中数据可知,变量y与x负相关
B.当x=5时,残差为0.2
C.可以预测当x=6时销量约为2.1万只
D.线性回归方程y=−0.6x+a中a=5.7
【解题思路】对于选项A,利用表中数据变化情况或看回归方程的b正负均可求解;对于选项B,利用样本中心点求出线性回归方程,再利用回归方程即可求出预测值,进而可求出残差;对于选项C,利用回归方程即可求出预测值;对于选项D,利用回归方程一定过样本中心点即可求解.
【解答过程】对于选项A,从数据看,y随x的增大而减小,所以变量y与x负相关,故A正确;
对于选项B,由表中数据知x=1+2+3+4+55=3,y=5+4.5+4+3.5+2.55=3.9,
所以样本中心点为(3,3.9),将样本中心点(3,3.9)代入y=−0.6x+a中得a=3.9+1.8=5.7,
所以线性回归方程为y=−0.6x+5.7,所以y5=−0.6×5+5.7=2.7,残差e=2.5−2.7=−0.2,故B错误;
对于选项C,当x=6时销量约为y=−0.6×6+5.7=2.1(万只),故C正确.
对于选项D,由B选项可知a=3.9+1.8=5.7,故D正确.
故选:B.
【变式3-1】(2024·河北沧州·二模)随着“一带一路”经贸合作持续深化,西安某地对外贸易近几年持续繁荣,2023年6月18日,该地很多商场都在搞“6⋅18”促销活动.市物价局派人对某商品同一天的销售量及其价格进行调查,得到该商品的售价x(单位:元)和销售量y(单位:百件)之间的一组数据:
用最小二乘法求得y与x之间的经验回归方程是y=0.28x+a,当售价为45元时,预测该商品的销售量件数大约为( )(单位:百件)
A.11.2B.11.75C.12D.12.2
【解题思路】求出x,y,根据回归直线方程必过样本中心点x,y求出a,即可得到回归直线方程,最后代入计算可得.
【解答过程】因为x=1520+25+30+35+40=30,y=155+7+8+9+11=8,
所以回归直线y=0.28x+a过点30,8,故8=0.28×30+a,解得a=−0.4,
所以y=0.28x−0.4,将x=45代入y=0.28x−0.4中,得y=0.28×45−0.4=12.2,
即当售价为45元时,该商品的销售量件数大约为12.2百件.
故选:D.
【变式3-2】(2024·青海西宁·二模)只要骑车,都应该戴头盔.骑行头盔是骑行中生命坚实的保护屏障.骑行过程中的摔倒会对头部造成很大的损害,即使骑行者是以较低的车速沿着坡度平稳的自行车道骑行,也同样不可忽视安全问题.佩戴头盔的原因很简单也很重要——保护头部,减少伤害.相关数据表明,在每年超过500例的骑车死亡事故中,有75%的死亡原因是头部受到致命伤害造成的,医学研究发现,骑车佩戴头盔可防止85%的头部受伤,并且大大减小了损伤程度和事故死亡率.
某市对此不断进行安全教育,下表是该市某主干路口连续5年监控设备抓拍到通过该路口的骑电动车不戴头盔的人数的统计数据:
(1)求不戴头盔人数y与年份序号x之间的线性回归方程;
(2)预测该路口2024年不戴头盔的人数.
参考公式:回归方程y=bx+a中斜率和截距的最小二乘法估计公式分别为b=i=1nxi−xyi−yi=1nxi−x2,a=y−bx.
【解题思路】(1)根据所给数据求出x,y,i=15xi−x2,i=15xi−xyi−y,即可求出b、a,从而得到回归直线方程;
(2)求出x=6时y即可得解.
【解答过程】(1)由题意知x=1+2+3+4+55=3,y=1450+1300+1200+1100+9505=1200,
所以i=15xi−x2=(1−3)2+(2−3)2+(3−3)2+(4−3)2+(5−3)2=10,
i=15xi−xyi−y=(1−3)×(1450−1200)+(2−3)×(1300−1200)+(3−3)×(1200−1200)+(4−3) ×(1100−1200)+(5−3)×(950−1200)=−1200,
所以b=i=15xi−xyi−yi=15xi−x2=−120010=−120,
所以a=y−bx=1200+120×3=1560,
所以不戴头盔人数y与年份序号x之间的线性回归方程为y=−120x+1560.
(2)当x=6时,y=−120×6+1560=840,
即预测该路口2024年不戴头盔的人数为840.
【变式3-3】(2024·吉林延边·二模)我国为全面建设社会主义现代化国家,制定了从2021年到2025年的“十四五”规划.某企业为响应国家号召,汇聚科研力量,加强科技创新,准备增加研发资金.该企业为了了解研发资金的投入额x(单位:百万元)对年收入的附加额y(单位:百万元)的影响,对往年研发资金投入额xi和年收入的附加额yi进行研究,得到相关数据如下:
(1)求年收入的附加额y与投入额x的经验回归方程;
(2)若年收入的附加额与投入额的比值大于1,则称对应的投入额为“优秀投资额”,现从上面8个投入额中任意取3个,用X表示这3个投入额为“优秀投资额”的个数,求X的分布列及数学期望.
【参考数据】i=18xiyi=334.1,i=18yi=48.6,i=18xi2=356.
【附】在经验回归方程y=bx+a中,b=i=1nxi−xyi−yi=1nxi−x2=i=1nxiyi−nxyi=1nxi2−nx2,a=y−bx.
【解题思路】(1)根据已知数据和参考公式,即可出y与投入额x的经验回归方程;
(2)求出X的所有可能取值和对应的概率,即可求出X的分布列,再由期望公式即可求出答案.
【解答过程】(1)x=2+3+4+5+6+8+9+118=6,y=18i=18yi=48.68=6.075,
b=i=1nxiyi−nxyi=1nxi2−nx2=334.1−8×6×6.075356−8×36=0.625,
又因为a=y−bx,所以a=6.075−0.625×6=2.325,
所以年收入的附加额y与投入额x的线性回归方程为y=0.625x+2.325
(2)8个投入额中,“优秀投资额”的个数为5个,故X的所有可能取值为0,1,2,3,
PX=0=C33C83=156;PX=1=C32C51C83=1556;PX=2=C31C52C83=3056;PX=3=C53C83=1056
则X的分布列为
EX=0×156+1×1556+2×1528+3×528=10556.
【题型4 非线性回归模型】
【例4】(2024·陕西安康·模拟预测)随着移动互联网和直播带货技术的发展,直播带货已经成为一种热门的销售方式,特别是商家通过展示产品,使顾客对商品有更全面的了解.下面统计了某新手开启直播带货后从6月份到10月份每个月的销售量yi(万件)(i=1,2,3,4,5)的数据,得到如图所示的散点图.其中6月份至10月份相应的代码为xi(i=1,2,3,4,5),如:x1=1表示6月份.
(1)根据散点图判断,模型①y=a+bx与模型②y=c+dx2哪一个更适宜作为月销售量y关于月份代码x的回归方程?(给出判断即可,不必说明理由)
(2)(i)根据(1)的判断结果,建立y关于x的回归方程;(计算结果精确到0.01)
(ⅱ)根据结果预测12月份的销售量大约是多少万件?
参考公式与数据:b=i=1nxi−xyi−yi=1nxi−x2=i=1nxiyi−nxyi=1nxi2−nx2, a=y−bx. i=15xi2=55, i=15ti2=979,i=15xiyi=80.8, i=15tiyi=335.6,其中ti=xi2.
【解题思路】(1)根据散点图结合一次函数以及二次函数图象特征分析判断;
(2)(i)令t=x2,根据题中数据和公式求回归方程;
(ⅱ)令x=7,代入回归方程运算求解即可.
【解答过程】(1)由散点图可知增加幅度不一致,且散点图接近于曲线,非线性,
结合图象故选模型②y=c+dx2.
(2)(i)令t=x2,则y=c+dt,
可得t=15i=15xi2=11,y=152.2+2.4+3.8+5.6+8=4.4,
则d=i=15tiyi−5t⋅yi=15ti2−5t2=335.6−5×11×4.4979−5×112≈0.25,c=y−d⋅t=4.4−0.25×11=1.65,
所以y关于t的回归方程为y=1.65+0.25t,
即y关于x的回归方程y=1.65+0.25x2;
(ⅱ)令x=7,可得y=1.65+0.25×72=13.9,
预测12月份的销售量大约是13.9万件.
【变式4-1】(2024·全国·模拟预测)脑机接口,即指在人或动物大脑与外部设备之间创建的直接连接,实现脑与设备的信息交换.近日埃隆.马斯克宣布,脑机接口公司Neuralink正在接收第二位植入者申请,该试验可以实现意念控制手机和电脑.未来10到20年,我国脑机接口产业将产生数百亿元的经济价值.为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量y(单位:亿元)与研发人员增量x(人)的10组数据.现用模型①y=bx+a,②y=c+dx分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.
根据收集到的数据,计算得到下表数据,其中ti=xi,t=110i=110ti.
(1)根据残差图,判断应选择哪个模型;(无需说明理由)
(2)根据(1)中所选模型,求出y关于x的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)
附:对于一组具有线性相关关系的数据x1,y1,x2,y2,⋯,xn,yn,其经验回归直线y=a+bx的斜率和截距的最小二乘估计分别为b=i=1n(xi−x)(yi−y)i=1n(xi−x)2,a=y−bx.
【解题思路】(1)根据残差图分析判断;
(2)令t=x,y与t可用线性回归来拟合,有y=c+dt,然后根据公式结合已知的数据求出c,d,从而可求出y关于t的经验回归方程,进而可求出y关于x的经验回归方程,再由y^>8可求出研发人员增量.
【解答过程】(1)选择模型②,理由如下:
由于模型②残差点比较均匀在落在水平的带状区域中,且带状区域的宽度比模型①带状宽度窄,
所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,所以模型②比较合适.
(2)根据模型②,令t=x,y与t可用线性回归来拟合,有y=c+dt.
则d=i=110(yi−y)(ti−t)i=110(ti−t)2=,所以c=y−dt=7.5−0.64×2.25=6.06,
则y关于t的经验回归方程为y^=0.64t+6.06,所以y关于x的经验回归方程为y^=0.64x+6.06.
由题意,y^=0.64x+6.06>8,解得x>97322≈9.2,又x为整数,所以x≥10.
所以,要使年收益增量超过8亿元,研发人员增量至少为10人.
【变式4-2】(2024·福建南平·模拟预测)某大型商场的所有饮料自动售卖机在一天中某种饮料的销售量y(单位:瓶)与天气温度x(单位:℃)有很强的相关关系,为能及时给饮料自动售卖机添加该种饮料,该商场对天气温度x和饮料的销售量y进行了数据收集,得到下面的表格:
经分析,可以用y=a⋅2kx作为y关于x的经验回归方程.
(1)根据表中数据,求y关于x的经验回归方程(结果保留两位小数);
(2)若饮料自动售卖机在一天中不需添加饮料的记1分,需添加饮料的记2分,每台饮料自动售卖机在一天中需添加饮料的概率均为13,在商场的所有饮料自动售卖机中随机抽取3台,记总得分为随机变量X,求X的分布列与数学期望.
参考公式及数据:对于一组数据x1,y1,x2,y2,⋯,xn,yn,经验回归方程y=bx+a的斜率和截距的最小二乘估计公式分别为b=i=1n(xi−x)(yi−y)i=1n(xi−x)2,a=y−bx;x=25,i=17(xi−x)2=700
【解题思路】(1)设z=lg2y,m=lg2a,转化为z=kx+m,利用最小二乘法,求得k=2770≈0.39,求得a≈2−1.64,进而得到y关于x的经验回归方程;
(2)根据题意,得到变量X的可能取值为3,4,5,6,利用独立重复试验的概率公式,求得相应的概率,列出分布列,结合期望的公式,即可求解.
【解答过程】(1)解:设z=lg2y,m=lg2a,由y=a⋅2kx,可得z=lg2y=kx+lg2a=kx+m,
因为lg24=2,lg216=4,lg264=6,lg2256=8,lg22048=11,lg24096=12,
lg28192=13,所以z=2+4+6+8+11+12+137=8,
由表中的数据可得x=10+15+20+25+30+35+407=25,
则i=17xizi−7xz=10×2+15×4+20×6+25×8+30×11+35×12+40×13−7×25×8=270,
所以k=i=17(xi−x)(zi−z)i=17(xi−x)2=i=17xizi−nxzi=17(xi−x)2=270700=2770≈0.39,
则m=z−kx=8−2770×25≈−1.64,可得a=2m≈2−1.64,
所以y关于x的经验回归方程为y^=2−1.64⋅20.39x=20.39x−1.64.
(2)解:由题意,随机变量X的可能取值为3,4,5,6,
可得PX=3=233=827,PX=4=C31×232×13=49,
PX=5=C32×23×132=29,PX=6=133=127,
所以变量X的分布列为
所以,期望为EX=3×827+4×49+5×29+6×127=4.
【变式4-3】(2024·重庆·二模)某商场推出“云闪付”购物活动,由于推广期内优惠力度较大,吸引了越来越多的顾客使用这种支付方式.现统计了活动刚推出一周内每天使用“云闪付”支付的人数,用x表示活动推出的天数,y表示每天使用该支付方式的人数,统计数据如下表所示:
根据散点图判断,在推广期内,支付的人数y关于天数x的回归方程适合用y=c⋅dx表示.
(1)求该回归方程,并预测活动推出第8天使用“云闪付”的人数;(lgc,lgd的结果精确到0.01)
(2)推广期结束后,商场对顾客的支付方式进行统计,结果如下表:
商场规定:使用会员卡支付的顾客享8折,“云闪付”的顾客随机优惠,其它支付方式的顾客无优惠,根据统计结果得知,使用“云闪付”的顾客,享7折的概率为13,享8折的概率为16,享9折的概率为12.设顾客购买标价为a元的商品支付的费用为X,根据所给数据用事件发生的频率估计相应事件发生的概率,写出X的分布列,并求EX.
参考数据:设vi=lgyi,v=17i=17vi≈1.59,i=17xi⋅vi≈51.30,100.63≈4.27,101.92≈83.18.
参考公式:对于一组数据u1,v1,u2,v2,⋯un,vn,其回归直线v=β⋅u+α的斜率和截距的最小二乘估计公式分别为:β^=i=1nui⋅vi−nu⋅vi=1nui2−nu2,α^=v−β^⋅u.
【解题思路】(1)由y=c⋅dx两边取常用对数,利用换元法转化为线性归回直线方程并结合公式进行求解;
(2)根据概率的乘法公式进行求解列出分布列,根据期望公式计算结果.
【解答过程】(1)由y=c⋅dx,得lgy=lgc+lgd⋅x,设v=lgy,b=lgd,a=lgc,则v=a+b⋅x.
x=4,v≈1.59,i=17xi2=140,
lgd=b=i=17xi⋅vi−7⋅x⋅vi=17xi2−7x2=51.3−7×4×1.59140−7×16≈0.24.
把样本中心点4,1.59代入方程得lgc=a=v−lgd⋅x=1.59−0.24×4≈0.63,
所以v=0.24x+0.63,即lgy=0.24x+0.63,
其回归方程为y=100.24x+0.63=100.63⋅100.24x,
当x=8时,y=100.63⋅100.24×8≈4.27×83.18≈355.
(2)X的可能取值为:0.7a,0.8a,0.9a,a.
PX=0.7a=310×13=0.1,PX=0.8a=310+310×16=0.35
PX=0.9a=310×12=0.15,PX=a=410=0.4,
分布列如下:
所以,购物的平均费用为:EX=0.7a×0.1+0.8a×0.35+0.9a×0.15+a×0.4=0.885a.
【题型5 残差分析】
【例5】(2024·河南·模拟预测)已知一组样本数据x1,y1,x2,y2,,xn,yn,根据这组数据的散点图分析x与y之间的线性相关关系,若求得其线性回归方程为y=−30.4+13.5x,则在样本点9,53处的残差为( )
A.38.1B.22.6C.−38.1D.91.1
【解题思路】对于响应变量y,通过观测得到的数据为观测值,通过线性回归方程得到y的称为预测值,观测值减去预测值称为残差.
【解答过程】因为观测值减去预测值称为残差,
所以当x=9时,y=−30.4+13.5×9=91.1,
所以残差为53−91.1 =−38.1.
故选:C.
【变式5-1】(2024·河北石家庄·三模)下列残差满足一元线性回归模型中对随机误差的假定的是( )
A. B.
C. D.
【解题思路】根据一元线性回归模型对随机误差的假定即可判断结果.
【解答过程】图A显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;
图B说明残差的方差不是一个常数,随观测时间变大而变大;
图C显示残差与观测时间有线性关系,应将时间变量纳入模型;
图D的残差较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,
可见D满足一元线性回归模型对随机误差的假定.
故选:D.
【变式5-2】(23-24高二下·河北唐山·阶段练习)某种产品的广告费支出x与销售额y(单位:万元)之间有下表关系:
y与x的线性回归方程为y=6.5x+17.5,当广告支出5万元时,随机误差的效应(残差)为( )
A.−10B.−20C.20D.10
【解题思路】随机误差的效应(残差)为观测值减去预测值
【解答过程】当广告支出5万元时,观测值为60,预测值为y=6.5×5+17.5=50,则随机误差的效应(残差)为60−50=10.
故选:D.
【变式5-3】(23-24高二下·安徽·阶段练习)设某制造公司进行技术升级后的第x个月(x=1,2,3,4,5)的利润为y(单位:百万元),根据统计数据,求得y关于x的经验回归方程为y=6x+3,若x=1时的观测值y=10,则x=1时的残差为( )
A.−1B.1C.3D.6
【解题思路】利用残差的定义求解.
【解答过程】解:因为x=1时的预测值为y^=6×1+3=9,
所以残差为10−9=1.
故选:B.
【题型6 列联表与独立性检验】
【例6】(2024·上海闵行·二模)某疾病预防中心随机调查了339名50岁以上的公民,研究吸烟习惯与慢性气管炎患病的关系,调查数据如下表:
假设H0:患慢性气管炎与吸烟没有关系,即它们相互独立.通过计算统计量χ2,得χ2≈7.468,根据χ2分布概率表:P(χ2≥6.635)≈0.01,P(χ2≥5.024)≈0.025,P(χ2≥3.841)≈0.05,P(χ2≥2.706)≈0.1.给出下列3个命题,其中正确的个数是( )
①“患慢性气管炎与吸烟没有关系”成立的可能性小于5%;
②有99%的把握认为患慢性气管炎与吸烟有关;
③χ2分布概率表中的0.05、0.01等小概率值在统计上称为显著性水平,小概率事件一般认为不太可能发生.
A.0个B.1个C.2个D.3个
【解题思路】根据χ2≈7.468,与临界值表对照判断.
【解答过程】解:因为χ2≈7.468,且χ2≥6.635,
所以有99%的把握认为患慢性气管炎与吸烟有关,
即“患慢性气管炎与吸烟没有关系”成立的可能性小于5%,
故①②正确;
χ2分布概率表中的0.05、0.01等小概率值在统计上称为显著性水平,小概率事件一般认为不太可能发生. 故③正确;
故选:D.
【变式6-1】(2024·辽宁鞍山·二模)校数学兴趣社团对“学生性别和选学生物学是否有关”作了尝试性调查.其中被调查的男女生人数相同.男生选学生物学的人数占男生人数的45,女生选学生物学的人数占女生人数35.若有90%的把握认为选学生物学和性别有关,则调查人数中男生不可能有( )人.
附表:
其中,K2=nad−bc2a+bc+da+cb+d.
A.20B.30C.35D.40
【解题思路】借助卡方计算即可得.
【解答过程】设总人数为2n,则男生选学生物学的人数为45n,女生选生物学的人数为35n,
则K2=2n4n5×2n5−3n5×n52n×n×7n5×3n5=2n21≥2.706,
即n≥2.706×212≈28.413,又n为5的倍数,故男生最少有30人.
故选:A.
【变式6-2】(2024高三·全国·专题练习)某医院对治疗支气管肺炎的两种方案A,B进行比较研究,将志愿者分为两组,分别采用方案A和方案B进行治疗,统计结果如下:
(1)完成上述列联表,并比较两种治疗方案有效的频率;
(2)能否在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关?
附:K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d).
【解题思路】(1)根据合计数可以完善表格,结合频数可得频率;
(2)根据列联表的数据和卡方公式,计算观测值,比较观测值和临界值可得结论.
【解答过程】解:(1)列联表如下:
使用方案A组有效的频率为96120=0.8;使用方案B组有效的频率为7280=0.9.
(2)K2=200×(96×8−24×72)2120×80×168×32≈3.571<3.841,
所以,不能在犯错误的概率不超过0.05的前提下认为治疗是否有效与方案选择有关.
【变式6-3】(2024·上海·高考真题)为了解某地初中学生体育锻炼时长与学业成绩的关系,从该地区29000名学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:
(1)该地区29000名学生中体育锻炼时长不少于1小时人数约为多少?
(2)估计该地区初中学生日均体育锻炼的时长(精确到0.1)
(3)是否有95%的把握认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关?
(附:χ2=n(ad−bc)2a+bc+da+cb+d,其中n=a+b+c+d,Pχ2≥3.841≈0.05.)
【解题思路】(1)求出相关占比,乘以总人数即可;
(2)根据平均数的计算公式即可得到答案;
(3)作出列联表,再提出零假设,计算卡方值和临界值比较大小即可得到结论.
【解答过程】(1)由表可知锻炼时长不少于1小时的人数为占比179+43+28580=2558,
则估计该地区29000名学生中体育锻炼时长不少于1小时的人数为29000×2558=12500.
(2)估计该地区初中生的日均体育锻炼时长约为
15800.52×139+0.5+12×191+1+1.52×179+1.5+22×43+2+2.52×28 ≈0.9.
则估计该地区初中学生日均体育锻炼的时长为0.9小时.
(3)由题列联表如下:
提出零假设H0:该地区成绩优秀与日均锻炼时长不少于1小时但少于2小时无关.
其中α=0.05.
χ2=580×(45×308−177×50)295×485×222×358≈3.976>3.841.
则零假设不成立,
即有95%的把握认为学业成绩优秀与日均锻炼时长不小于1小时且小于2小时有关.
【题型7 独立性检验与其他知识综合】
【例7】(2024·江苏南通·模拟预测)跑步是人们日常生活中常见的一种锻炼方式,其可以提高人体呼吸系统和心血管系统机能,抑制人体癌细胞生长和繁殖.为了解人们是否喜欢跑步,某调查机构在一小区随机抽取了40人进行调查,统计结果如下表.
(1)根据以上数据,判断能否有95%的把握认为人们对跑步的喜欢情况与性别有关?
(2)该小区居民张先生每天跑步或开车上班,据以往经验,张先生跑步上班准时到公司的概率为23,张先生跑步上班迟到的概率为13.对于下周(周一~周五)上班方式张先生作出如下安排:周一跑步上班,从周二开始,若前一天准时到公司,当天就继续跑步上班,否则,当天就开车上班,且因公司安排,周五开车去公司(无论周四是否准时到达公司).设从周一开始到张先生第一次开车去上班前跑步上班的天数为X,求X的概率分布及数学期望EX.
附:χ2=nad−bc2a+bc+da+cb+d,其中n=a+b+c+d.
【解题思路】(1)由2×2列联表中的数据,求得χ2=4099,结合附表,即可得到结论;
(2)由题意,得到变量X的可能取值为1,2,3,4,求得相应的概率,列出分布列,结合期望的公式,即可求解.
【解答过程】(1)解:假设H0:人们对跑步的喜欢情况与性别无关,
根据题意,由2×2列联表中的数据,
可得χ2=40×12×10−8×10220×20×22×18=4099≈0.404<3.841,
因为Pχ2≥3.841=0.050,所以没有95%的把握认为人们对跑步的喜欢情况与性别有关联.
(2)解:由题意,随机变量X的所有可能取值分别为1,2,3,4,
可得PX=1=13,PX=2=23×13=29,PX=3=23×23×13=427,
PX=4=23×23×23=827,
所以变量X的概率分布为
所以,期望为EX=1×13+2×29+3×427+4×827=6527.
【变式7-1】(2024·安徽芜湖·三模)在学校食堂就餐成为了很多学生的就餐选择.现将一周内在食堂就餐超过3次的学生认定为“喜欢食堂就餐”,不超过3次的学生认定为“不喜欢食堂就餐”.学校为了解学生食堂就餐情况,在校内随机抽取了100名学生,统计数据如下:
(1)依据小概率值α=0.001的独立性检验,分析学生喜欢食堂就餐是否与性别有关:
(2)该校甲同学逢星期二和星期四都在学校食堂就餐,且星期二会从①号、②号两个套餐中随机选择一个套餐,若星期二选择了①号套餐,则星期四选择①号套餐的概率为45;若星期二选择了②号套餐,则星期四选择①号套餐的概率为23,求甲同学星期四选择②号套餐的概率.
(3)用频率估计概率,从该校学生中随机抽取10名,记其中“喜欢食堂就餐”的人数为X.事件“X=k”的概率为PX=k,求使PX=k取得最大值时k的值.
参考公式:χ2=nad−bc2a+bc+da+cb+d,其中n=a+b+c+d.
【解题思路】(1)计算χ2,与临界值比较后得结论;
(2)全概率公式计算概率;
(3)依题意可得ξ∼B10,35,即可得到PX=k,从而得到C10k35k⋅2510−k≥C10k+135k+1⋅259−kC10k35k⋅2510−k≥C10k−135k−1⋅2511−k,解得即可.
【解答过程】(1)H0:假设食堂就餐与性别无关
由列联表可得χ2=10040×30−10×20250×50×60×40≈16.667>10.828
所以依据小概率值α=0.001的独立性检验,可以得到学生喜欢食堂就餐与性别有关.
(2)记星期二选择了①号套餐为事件A1,选择②号套餐为A2,
星期四选择了①号套餐为事件B1,选择②号套餐为B2,
则PA1=PA2=12,PB1∣A1=45,PB1∣A2=23,
所以PB1=PA1PB1∣A1+PA2PB1∣A2=12×45+12×23=1115,
所以PB2=1−PB1=1−1115=415.
(3)依题意可得学生“喜欢饭堂就餐”的概率P=60100=35,
则ξ∼B10,35,所以Pξ=k=C10k35k⋅1−3510−k=C10k35k⋅2510−k 0≤k≤10且k∈N,
若Pξ=k取得最大值,则Pξ=k≥Pξ=k+1Pξ=k≥Pξ=k−1,
C10k35k⋅2510−k≥C10k+135k+1⋅259−kC10k35k⋅2510−k≥C10k−135k−1⋅2511−k
即25≥35×10−kk+135×11−kk≥25,,解得285≤k≤335,
又0≤k≤10且k∈N,所以k=6.
【变式7-2】(2024·湖南邵阳·三模)某市开展“安全随我行”活动,交警部门在某个交通路口增设电子抓拍眼,并记录了某月该路口连续10日骑电动摩托车未佩戴头盔的人数y与天数x的情况,对统计得到的样本数据xi,yii=1,2,⋅⋅⋅,10作了初步处理,得到下面的散点图及一些统计量的值.
表中Yi=lnyi,Y=110i=110Yi.
(1)依据散点图推断,y=bx+a与y=ebx+a哪一个更适合作为未佩戴头盔人数y与天数x的回归方程类型?(给出判断即可,不必说明理由)
(2)依据(1)的结果和上表中的数据求出y关于x的回归方程.
(3)为了解佩戴头盔情况与性别的关联性,交警对该路口骑电动摩托车市民进行调查,得到如下列联表:
依据α=0.10的独立性检验,能否认为市民骑电动摩托车佩戴头盔与性别有关联?
参考公式:b=i=1nxiyi−nxyi=1nxi2−nx2,a=y−bx,χ2=nad−bc2a+bc+da+cb+d,其中n=a+b+c+d.
【解题思路】(1)根据散点图的形状,可判断更适宜作为未佩戴头盔人数y与天数x的回归方程类型.
(2)将y=ebx+a两边取对数,转化为线性回归方程,利用表中的数据和线性回归方程公式求解即可.
(3)应用卡方公式求卡方值,由独立性检验的基本思想下结论即可.
【解答过程】(1)依据散点图可以判断,y=ebx+a更适合作为未佩戴头盔人数y与天数x的回归方程类型.
(2)由Yi=lnyi,得Y=lnebx+a=bx+a,
依题意得b=i=110xiYi−10xYi=110xi2−10x2=79.75−10×5.5×1.9385−10×5.52=−−0.3,
a=Y−bx=1.9−−0.3×5.5=3.55,
所以Y=−0.3x+3.55,即y=e−0.3x+3.55.
(3)零假设H0:市民佩戴头盔与性别无关联.
根据列联表中的数据,经计算得到:
χ2=408×6−14×12220×20×22×18=40×120×12020×20×22×18≈3.636>2.706=x0.10,
根据小概率值α=0.10的独立性检验,我们推断H0不成立,即认为市民佩戴头盔与性别有关联,
此推断犯错误的概率不超过0.10.
【变式7-3】(2024·陕西西安·模拟预测)某医疗科研小组为研究某市市民患有疾病A与是否具有生活习惯B的关系,从该市市民中随机抽查了100人,得到如表数据.(注:用M表示M的对立事件)
(1)是否有超过99%的把握认为,该市市民患有疾病A与是否具有生活习惯B有关?
(2)从该市市民中任选一人,M表示事件“选到的人不具有生活习惯B”,N表示事件“选到的人患有疾病A”,试利用该调查数据,求PN|M的估计值;
(3)从该市市民中任选3人,记这3人中具有生活习惯B,且未患有疾病A的人数为X,试利用该调查数据,求X的数学期望的估计值.
附:k2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
【解题思路】(1)先完善列联表,然后根据公式计算卡方,对照临界值表即可得结论;
(2)根据表中数据分别求出P(M),P(NM),然后由条件概率公式可得;
(3)由二项分布的期望公式可得.
【解答过程】(1)由已知得列联表如下:
根据列联表中的数据,经计算得:
k2=100×(40×25−15×20)245×55×40×60≈8.249>6.635=k0.012.
故有超过99%的把握认为,该市市民患有疾病A与是否具有生活习惯B有关.
(2)由(1)数据可得:P(M)=45100=920,P(NM)=20100=15.
所以P(N∣M)=P(NM)P(M)=15920=49 .
(3)由(2)知,P(NM)=20100=15,
所以X~B3,15,所以E(X)的估计值为np=3×15=35.
一、单选题
1.(23-24高二下·重庆沙坪坝·阶段练习)已知变量x和y满足关系y=−x+1,变量y与z正相关,则( )
A.x与y负相关,x与z负相关B.x与y正相关,x与z正相关
C.x与y正相关,x与z负相关D.x与y负相关,x与z正相关
【解题思路】根据关系式判断x,y负相关,再由变量y与z正相关可得x,z负相关即可判断.
【解答过程】因为变量x和y满足关系y=−x+1,变量y与z正相关,
由正相关、负相关的定义可知x与y负相关,x与z负相关.
故选:A.
2.(2024·广西贵港·模拟预测)下列说法中错误的是( )
A.独立性检验的本质是比较观测值与期望值之间的差异
B.两个变量x,y的相关系数为r,若r越接近1,则x与y之间的线性相关程度越强
C.若一组样本数据(xi,yi)(i=1,2,3,⋯,n)的样本点都在直线y=0.98x+3上,则这组数据的相关系数r为0.98
D.由一组样本数据(xi,yi)(i=1,2,3,⋯,n)求得的回归直线方程为y=0.98x+3,设yi=0.98xi+3,则i=1n(yi−yi)2i=1n(yi−y)2<1
【解题思路】根据独立检验和线性回归方程的相关性质进行判断,得到答案.
【解答过程】A,独立性检验的本质是比较观测值与期望值之间的差异,从而确定研究对象是否有关联,A正确;
B,两个变量x,y的相关系数为r,若r越接近1,则x与y之间的线性相关程度越强,B正确;
C,若一组样本数据(xi,yi)(i=1,2,3,⋯,n)的样本点都在直线y=0.98x+3上,则这组数据的相关系数r为1,C错误;
D,由残差分析可知,i=1n(yi−yi)2i=1n(yi−y)2介于0与1之间,D正确.
故选:C.
3.(2024·上海·模拟预测)在研究线性回归模型时,样本数据xi,yii=1,2,3,⋯,n所对应的点均在直线y=−12x+3上,用r表示解释变量对于反应变量变化的线性相关度,则r=( )
A.−1B.1C.−12D.2
【解题思路】结合回归方程,根据线性相关系数的性质可得结论.
【解答过程】因为样本数据所对应的点都在直线y=−12x+3上,
所以变量y,x为负相关关系,且r=−1,
故选:A.
4.(2024·江西南昌·三模)如图对两组数据x,y和v,u分别进行回归分析,得到散点图如图,并求得线性回归方程分别是y=b1x+a1和u=b2v+a2,并对变量x,y进行线性相关检验,得到相关系数r1,对变量v,u进行线性相关检验,得到相关系数r2,则下列判断正确的是( )
A.b1>0B.b2<0C.r1
【解答过程】由散点图可知,x与y负相关,v与u正相关,则b1<0,b2>0,故A、B错误;
且图形中点x,y比v,u更加集中在一条直线附近,
则r1>r2,又r1<0,r2>0,得r1+r2<0.
故C错误,D正确.
故选:D.
5.(2024·湖南邵阳·三模)某学习小组对一组数据xi,yii=1,2,3,⋯,7进行回归分析,甲同学首先求出回归直线方程y=5x+4,样本点的中心为2,m.乙同学对甲的计算过程进行检查,发现甲将数据2,3误输成3,2,将这两个数据修正后得到回归直线方程y=kx+7,则实数k=( )
A.5013B.2533C.1123D.52
【解题思路】根据题意分析求得x2+x3+⋯+x7=11以及y2+y3+⋯+y7=96,然后将正确数据代入,即可求得样本中心点,代入回归直线即可得到结果.
【解答过程】由题意可得m=5×2+4=14,即修正前的样本中心点为2,14,
假设甲输入的x1,y1为3,2,
则3+x2+x3+⋯+x7=2×7=14,则x2+x3+⋯+x7=11,
且2+y2+y3+⋯+y7=7×14=98,则y2+y3+⋯+y7=96,
则改为正确数据后,则x=172+11=137,y=173+96=997,
所以修正后的样本中心点为137,997,
将点137,997代入回归直线方程y=kx+7可得997=137k+7,解得k=5013.
故选:A.
6.(2024·湖北荆州·三模)根据变量Y和x的成对样本数据,由一元线性回归模型Y=bx+a+eEe=0,De=σ2得到经验回归模型y=bx+a,求得如图所示的残差图.模型误差( )
A.满足一元线性回归模型的所有假设
B.不满足一元线性回归模型的E(e)=0的假设
C.不满足一元线性回归模型的D(e)=σ2假设
D.不满足一元线性回归模型的E(e)=0和D(e)=σ2的假设
【解题思路】根据一元线性回归模型Y=bx+a+eE(e)=0,D(e)=σ2的有关概念即可判断.
【解答过程】用一元线性回归模型Y=bx+a+eE(e)=0,D(e)=σ2得到经验回归模型y=bx+a,
根据对应的残差图,残差的均值E(e)=0不可能成立,且残差图中的点分布在一条拋物线形状的弯曲带状区域上,
说明残差与坐标轴变量有二次关系,D(e)=σ2不满足一元线性回归模型,
故选:D.
7.(2024·天津河北·二模)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长. 已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型y=c1ec2x(其中e为自然对数的底数)拟合,设z=lny,得到数据统计表如下:
由上表可得经验回归方程z=0.52x+a,则2026年该科技公司云计算市场规模y的估计值为( )
(参考公式:a=z−bx)
A.e5.08B.e5.6C.e6.12D.e6.5
【解题思路】根据a=z−bx可得线性回归方程,再由回归方程求出2026年z的预测值,代入z=lny即可得解.
【解答过程】因为x=3,z=3,
所以a=z−0.52x=3−3×0.52=1.44,
即经验回归方程z=0.52x+1.44,
当x=9时,z=0.52×9+1.44=6.12,
所以y=ez=e6.12,
即2026年该科技公司云计算市场规模y的估计值为e6.12.
故选:C.
8.(2024·四川成都·三模)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:
附:K2=n(ad−bc)2a+bc+da+cb+d(n=a+b+c+d),
已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )
A.甲班人数少于乙班人数
B.甲班的优秀率高于乙班的优秀率
C.表中c的值为15,b的值为50
D.根据表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”
【解题思路】根据条件解出b=45,c=20,然后直接计算即可判断A,B,C错误,使用K2的计算公式计算K2,并将其与5.024比较,即可得到D正确.
【解答过程】对于C,由条件知10+b+c+30=105,10+c105=27,故b+c=65,10+c=30.
所以b=45,c=20,故C错误;
对于A,由于甲班人数为10+b=10+45=55,
乙班人数为c+30=20+30=50<55,故A错误;
对于B,由于甲班优秀率为1055=211,乙班优秀率为2050=25>211,故B错误;
对于D,由于K2=105⋅45×20−10×30255⋅50⋅30⋅75≈6.109>5.024,故D正确.
故选:D.
二、多选题
9.(2024·广东东莞·三模)下列选项中正确的有( )
A.若两个具有线性相关关系的变量的相关性越强,则线性相关系数r的绝对值越接近于1
B.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高
C.已知随机变量X服从正态分布N2,σ2,P(X<4)=0.8,则P(2
【解题思路】对于AB,结合相关系数,残差的定义,即可求解;对于C,结合正态分布的对称性,即可求解;对于D,结合方差的线性公式,即可求解.
【解答过程】若两个具有线性相关关系的变量的相关性越强,则线性相关系数|r|的值越接近于1,故A正确;
在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越高,故B正确;
随机变量X服从正态分布N(2,σ2),
则P(2
则22×m=8,解得m=2,故D正确.
故选:ABD.
10.(2024·湖北武汉·模拟预测)某科技公司统计了一款App最近5个月的下载量如表所示,若y与x线性相关,且线性回归方程为y^=−0.6x+a^,则( )
A.y与x负相关B.a^=5.6
C.预测第6个月的下载量是2.1万次D.残差绝对值的最大值为0.2
【解题思路】对于A:根据回归方程分析判断;对于B:根据线性回归方程必过样本中心点,运算求解;对于C:根据回归方程进而预测;对于D:根据题意结合残差的定义分析判断.
【解答过程】对于A:因为−0.6<0,所以变量y与x负相关,故A正确;
对于B:x=15×(1+2+3+4+5)=3,
y=15×(5+4.5+4+3.5+2.5)=3.9,
y=−0.6x+a,则−0.6×3+a=3.9,
解得a=5.7,故B错误;
对于C:当x=6时,y=−0.6×6+5.7=2.1,
故可以预测第6个月的下载量约为2.1万次,故C正确;
对于D:当x=1时,y1=−0.6×1+5.7=5.1,y1−y1=0.1,
当x=2时,y2=−0.6×2+5.7=4.5,y2−y2=0,
当x=3时,y3=−0.6×3+5.7=3.9,y3−y3=0.1,
当x=4时,y4=−0.6×4+5.7=3.3,y4−y4=0.2,
当x=5时,y5=−0.6×5+5.7=2.7,y5−y5=0.2,
故残差绝对值的最大值为0.2,故D正确.
故选:ACD.
11.(2024·广东江门·模拟预测)某中学为更好的开展素质教育,现对外出研学课程是否和性别有关做了一项调查,其中被调查的男生和女生人数相同,且男生中选修外出研学课程的人数占男生总人数的35,女生中选修外出研学课程的人数占女生总人数的12.若依据α=0.05的独立性检验,可以认为“选修外出研学课程与性别有关”.则调查人数中男生可能有( )
附:
K2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d
A.150人B.225人C.300人D.375人
【解题思路】设男生人数为5nn∈N∗,根据题意用n表示出女生人数、男生中“选修外出研学课程”人数、女生中“选修外出研学课程”人数,进而表示出表格中其它人数,利用公式计算出K2,由K2>3.841得到n的范围,进而得到男生人数的范围,选出符合题意的选项.
【解答过程】设男生人数为5nn∈N∗,根据题意可得2×2列联表如下:
则K2=10n3n⋅5n2−2n⋅5n2211n2⋅9n2⋅5n⋅5n=10n99,
若有95%的把握认为喜欢选修外出研学课程与性别有关,则10n99>3.841,
解得n>38.03,则5n>190.13.
故选:BCD.
三、填空题
12.(2024·全国·模拟预测)某试验小组收集了部分父亲和儿子的身高数据,通过测量与回归方程计算得到如下五组儿子身高的观测值与估计值,则该组统计数据的决定系数R2= 1 .
【解题思路】根据决定系数的意义及表格中的数据即可求解.
【解答过程】因为决定系数R2∈0,1,其值越接近1,说明模型拟合效果越好,误差越小,
从表中数据可知没有误差,
所以R2=1.
故答案为:1.
13.(2024·陕西铜川·模拟预测)已知某品牌的新能源汽车的使用时间x(年)与维护费用y(千元)之间有如下数据:
若x与y之间具有线性相关关系,且y关于x的线性回归方程为y=0.7x+a.据此估计,该品牌的新能源汽车的使用时间为12年时,维护费用约为 9.08 千元.
【解题思路】求出x,y,得到样本中心点坐标,将其代入回归方程可求出a,然后将x=12代入回归方程可得答案.
【解答过程】由题意可得x=2+4+6+8+105=6,y=2.4+3.2+4.4+6.8+7.65=4.88
由于回归直线过样本的中心点,所以0.7×6+a=4.88,解得a=0.68,
所以回归直线方程为y=0.7x+0.68,当x=12时,y=0.7×12+0.68=9.08,
所以当该品牌的新能源汽车的使用时间为12年时,维护费用约为9.08千元.
故答案为:9.08.
14.(2024·上海金山·二模)为了考察某种药物预防疾病的效果,进行动物试验,得到如下图所示列联表:
取显著性水平α=0.05,若本次考察结果支持“药物对疾病预防有显著效果”,则m(m≥40,m∈N)的最小值为 44 .
(参考公式:χ2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d);参考值:P(χ2≥3.841)≈0.05)
【解题思路】由题意列出不等式,结合近似计算求出m的取值范围,即可得答案.
【解答过程】由题意可知χ2=100m(m−30)−80−m50−m280×20×50×50≥3.841,
则(100m−4000)2≥502×42×3.841,
解得m≥43.92或m≤36.08,而m≥40,m∈N,
故m的最小值为44.
故答案为:44.
四、解答题
15.(2024·河南新乡·模拟预测)氮氧化物是一种常见的大气污染物,下图为我国2015年至2023年氮氧化物排放量(单位:万吨)的折线图,其中年份代码1~9分别对应年份2015~2023.
已知i=19yi≈12000,i=19yi−y2≈100,i=19ti−t2≈7.7,i=19tiyi≈51800.
(1)可否用线性回归模型拟合y与t的关系?请分别根据折线图和相关系数加以说明.
(2)若根据所给数据建立回归模型y=−138t+2025,可否用此模型来预测2024年和2034年我国的氮氧化物排放量?请说明理由.
附:相关系数r=i=1ntiyi−ntyi=1nti−t2i=1nyi−y2.
【解题思路】(1)根据题意,由相关系数的计算公式代入计算,即可判断;
(2)根据题意,由线性回归方程的意义,即可判断.
【解答过程】(1)从折线图看,各点落在一条直线附近,因而可以用线性回归模型拟合y与t的关系,
由题意知t=191+2+3+4+5+6+7+8+9=5,
相关系数r=i=19tiyi−9tyi=19ti−ı2i=19yi−y2≈51800−5×120007.7×1100=−82008470≈−0.97.
故可以用线性回归模型拟合y与t的关系.
(2)可以预测2024年的氮氧化物排放量,但不可以预测2034年的氮氧化物排放量.
理由如下:
①2024年与所给数据的年份较接近,因而可以认为短期内氮氧化物排放量将延续该趋势,故可以用此模型进行预测;
②2034年与所给数据的年份相距过远,而影响氮氧化物排放量的因素有很多,这些因素在短期内可能保持不变,但从长期看很有可能会变化,因而用此模型预测可能是不准确的.
16.(2024·青海·二模)某企业近年来的广告费用x(百万元)与所获得的利润y(千万元)的数据如下表所示,已知y与x之间具有线性相关关系.
(1)求y关于x的线性回归方程:
(2)若该企业从2018年开始,广告费用连续每一年都比上一年增加10万元,根据(1)中所得的线性回归方程,预测2025年该企业可获得的利润.
参考公式:b=i=1nxi−xyi−yi=1nxi−x2,a=y−bx.
【解题思路】(1)首先算出x,y,i=15xi2,i=15xiyi的值,然后可以依次算出b,a的值即可求解;
(2)先预测广告费用,然后代入预测模型可预测利润.
【解答过程】(1)x=1.5+1.6+1.7+1.8+1.95=1.7,y=1.6+2+2.4+2.5+35=2.3,
i=15xi2=1.52+1.62+1.72+1.82+1.92=14.55,
i=15xiyi=1.5×1.6+1.6×2+1.7×2.4+1.8×2.5+1.9×3=19.88,
b=i=15xiyi−5xyi=15xi2−5x2=19.88−5×1.7×−5×1.72=3.3,
a=y−bx=2.3−3.3×1.7=−3.31.
故所求的线性回归方程为y=3.3x−3.31.
(2)由题可知,到2025年时广告费用为2.2百万元,
故可预测该公司所获得的利润约为3.3×2.2−3.31 =3.95(千万元).
17.(2024·四川宜宾·三模)某地为调查年龄在35―50岁段人群每周的运动情况,从年龄在35―50岁段人群中随机抽取了200人的信息,将调查结果整理如下:
(1)根据以上信息,能否有99%把握认为该地年龄在35―50岁段人群每周运动超过2小时与性别有关?
(2)在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人.再从这6人中随机抽取2人进行访谈,求这2人中至少有1人是女性的概率.
参考公式:K2=nad−bc2a+bc+da+cb+d,n=a+b+c+d.
【解题思路】(1)根据二联表求解卡方,即可与临界值比较作答,
(2)列举基本事件,即可由古典概型的概率个数求解.
【解答过程】(1)由题意可得
由K2=nad−bc2a+bc+da+cb+d=200×60×20−80×402100×100×140×60≈9.524>6.635.
知:有99%把握认为该地35-50岁年龄段人每周运动超过2小时与性别有关.
(2)在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人
在以上被抽取且每周运动不超过2小时的人中,按性别进行分层抽样,共抽6人,则女性抽取4人,记为:A1,A2,A3,A4,男性抽取2人,记为:B1,B2,从这6人中随机抽取2人,抽法有:
A1A2,A1A3,A1A4,A1B1,A1B2,A2A3,A2A4,A2B1,A2B2,A3A4,A3B1,A3B2,A4B1,A4B2,B1B2共15种,
这两人中至少有一人是女性的抽法有:
A1A2,A1A3,A1A4,A1B1,A1B2,A2A3,A2A4,A2B1,A2B2,A3A4,A3B1,A3B2,A4B1,A4B2共14种,故两人中至少有一人是女性的概率P=1415.
18.(23-24高二下·宁夏石嘴山·期中)红铃虫(Pectinphra gssypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图.现用两种模型①y=ebx+a,②y=cx2+d分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
表中zi=lnyi;z=18i=18zi;ti=xi2;t=18i=18ti
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出y关于x的回归方程.
附:对于一组数据ω1,v1,ω2,v2,…ωn,vn,其回归直线v=α+βω的斜率和截距的最小二乘估计分别为,β=i=1n(ωi−ω)(vi−v)i=1n(ωi−ω)2,α=v−βω
【解题思路】(1)根据残差点的分布情况分析即可;
(2)取对数,将非线性回归转化为线性回归,然后根据所给数据代入公式即可得回归方程.
【解答过程】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令z=lny,z与温度x可以用线性回归方程来拟合,则z=a+bx.
∴ b=i=18(xi−x)(zi−z)i=18(xi−x)2=50.4168=0.3, a=z−bx=2.9−0.3×25=−4.6
则z关于x的线性回归方程为z^=0.3x−4.6,即lny=0.3x−4.6,
∴产卵数y关于温度x的回归方程为y^=e0.3x−4.6.
19.(2024·四川成都·模拟预测)在学校食堂就餐成为了很多学生的就餐选择.学校为了解学生食堂就餐情况,在校内随机抽取了100名学生,其中男生和女生人数之比为1:1,现将一周内在食堂就餐超过8次的学生认定为“喜欢食堂就餐”,不超过8次的学生认定为“不喜欢食堂就餐”.“喜欢食堂就餐”的人数比“不喜欢食堂就餐”人数多20人,“不喜欢食堂就餐”的男生只有10人.
(1)将上面的列联表补充完整,并依据小概率值α=0.001的独立性检验,分析学生喜欢食堂就餐是否与性别有关:
(2)用频率估计概率,从该校学生中随机抽取10名,记其中“喜欢食堂就餐”的人数为X.事件“X=k”的概率为P(X=k),求随机变量X的期望和方差.
参考公式:χ2=n(ad−bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
【解题思路】(1)根据题意,补充完善列联表,进行独立性检验即可.
(2)根据题意,X~B10,0.6,利用二项分布的均值方差公式求解.
【解答过程】(1)列联表见图,
零假设H0:假设食堂就餐与性别无关,
由列联表可得H0:χ2=100(40×30−10×20)250×50×60×40≈16.667>10.828,
根据小概率α=0.001的独立性检验推断H0不成立,
即可以得到学生喜欢食堂就餐与性别有关,此推断犯错误的概率不超过0.001.
(2)由题意可知,抽取的10名学生,喜欢饭堂就餐的学生人数X服从二项分布,
且喜欢饭堂就餐的频率为60100=0.6,则X~B10,0.6,
故其期望E(X)=np=6,方差D(X)=np(1−p)=2.4.
考点要求
真题统计
考情分析
(1)了解样本相关系数的统计含义
(2)了解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题
(3)会利用统计软件进行数据分析
2022年新高考全国I卷:第20题,12分
2023年全国甲卷(文数、理数):第19题,12分
2024年全国甲卷(文数):第18题,12分
2024年天津卷:第3题,5分
2024年上海卷:第13题,5分、第19题,12分
成对数据的统计分析是高考的重点、热点内容,从近几年的高考情况来看,主要以解答题的形式考查,一般会与概率等知识结合考查,综合性强,难度中等;有时也会在选择、填空题中出现,难度不大;复习时要加强此类问题的训练.
X
Y
合计
y1
y2
x1
a
b
a+b
x2
c
d
c+d
合计
a+c
b+d
a+b+c+d
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
编号
1
2
3
4
5
6
xcm
1
1.2
1.4
1.6
1.8
2.0
FN
3.08
3.76
4.31
5.02
5.51
6.25
身体综合指标评分x
1
2
3
4
5
用时(y/小时)
9.5
8.8
7.8
7
6.1
时间x
1
2
3
4
5
销售量y/万只
5
4.5
4
3.5
2.5
x
20
25
30
35
40
y
5
7
8
9
11
年份
2019
2020
2021
2022
2023
年份序号x
1
2
3
4
5
不戴头盔人数y
1450
1300
1200
1100
950
投入额xi
2
3
4
5
6
8
9
11
年收入的附加额yi
3.6
4.1
4.8
5.4
6.2
7.5
7.9
9.1
X
0
1
2
3
P
156
1556
1528
528
y
t
i=110xi−x2
i=110ti−t2
i=110yi−yxi−x
i=110yi−yti−t
7.5
2.25
82.50
4.50
12.14
2.88
x
10
15
20
25
30
35
40
y
4
16
64
256
2048
4096
8192
X
3
4
5
6
P
827
49
29
127
x
1
2
3
4
5
6
7
y
6
13
25
40
73
110
201
支付方式
云闪付
会员卡
其它支付方式
比例
30%
30%
40%
X
0.7a
0.8a
0.9a
a
P
0.1
0.35
0.15
0.4
x
2
4
5
6
8
y
30
40
60
50
70
不吸烟者
吸烟者
总计
不患慢性气管炎者
121
162
283
患慢性气管炎者
13
43
56
总计
134
205
339
PK2≥k
0.100
0.050
0.010
0.005
0.001
k
2.706
3.841
6.635
7.879
10.828
有效
无效
合计
使用方案A组
96
120
使用方案B组
72
合计
32
P(K2≥k0)
0.005
0.010
0.001
k0
3.841
6.635
10.828
有效
无效
合计
使用方案A组
96
24
120
使用方案B组
72
8
80
合计
168
32
200
时间范围学业成绩
0,0.5
0.5,1
1,1.5
1.5,2
2,2.5
优秀
5
44
42
3
1
不优秀
134
147
137
40
27
1,2
其他
合计
优秀
45
50
95
不优秀
177
308
485
合计
222
358
580
喜欢
不喜欢
合计
男
12
8
20
女
10
10
20
合计
22
18
40
Pχ2≥x0
0.100
0.050
0.025
0.010
0.001
x0
2.706
3.841
5.024
6.635
10.828
X
1
2
3
4
P
13
29
427
827
男生
女生
合计
喜欢食堂就餐
40
20
60
不喜欢食堂就餐
10
30
40
合计
50
50
100
α
0.1
0.05
0.01
0.005
0.001
xa
2.706
3.841
6.635
7.879
10.828
x
y
Y
i=110xiyi
i=110xi2
i=110xiYi
5.5
8.7
1.9
301
385
79.75
性别
佩戴头盔
合计
不佩戴
佩戴
女性
8
12
20
男性
14
6
20
合计
22
18
40
α
0.15
0.10
0.05
0.025
0.010
0.005
0.001
xα
2.072
2.706
3.841
5.024
6.635
7.879
10.828
疾病A
生活习惯B
具有
不具有
患病
25
15
未患病
20
40
α
0.10
0.05
0.010
0.001
ka
2.706
3.841
6.635
10.828
疾病A
生活习惯B
合计
具有
不具有
患病
25
15
40
未患病
20
40
60
合计
45
55
100
年份
2018年
2019年
2020年
2021年
2022年
年份代码x
1
2
3
4
5
z=lny
2
2.4
3
3.6
4
优秀
非优秀
甲班
10
b
乙班
c
30
PK2≥k0
0.05
0.025
0.010
0.005
k0
3.841
5.024
6.635
7.879
月份编号x
1
2
3
4
5
下载量y(万次)
5
4.5
4
3.5
2.5
男生
女生
合计
选修外出研学课程
a
b
a+b
未选修外出研学课程
c
d
c+d
合计
a+c
b+d
PK−2≥k0
0.05
0.010
k0
3.841
6.635
男生
女生
合计
选修外出研学课程
3n
5n2
11n2
不选修外出研学课程
2n
5n2
9n2
合计
5n
5n
10n
儿子身高观测值/cm
161.3
167.7
170.0
173.5
177.5
儿子身高估计值/cm
161.3
167.7
170.0
173.5
177.5
使用时间x(年)
2
4
6
8
10
维护费用y(千元)
2.4
3.2
4.4
6.8
7.6
药物
疾病
合计
未患病
患病
服用
m
50−m
50
未服用
80−m
m−30
50
合计
80
20
100
年份
2018
2019
2020
2021
2022
广告费用x/百万元
1.5
1.6
1.7
1.8
1.9
利润y/千万元
1.6
2
2.4
2.5
3
女性
男性
每周运动超过2小时
60
80
每周运动不超过2小时
40
20
PK2>k0
0.10
0.05
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
女性
男性
每周运动超过2小时
60
80
140
每周运动不超过2小时
40
20
60
总计
100
100
200
x
z
t
i=18xi−x2
i=18ti−t2
i=18zi−zxi−x
i=18yi−yti−t
25
2.9
646
168
422688
50.4
70308
男生
女生
合计
喜欢食堂就餐
不喜欢食堂就餐
10
合计
100
a
0.1
0.05
0.01
0.005
0.001
xa
2.706
3.841
6.635
7.879
10.828
男生
女生
合计
喜欢食堂就餐
40
20
60
不喜欢食堂就餐
10
30
40
合计
50
50
100
重难点17 新情景、新定义下的数列问题(举一反三)(新高考专用)(含答案) 2025年高考数学一轮复习专练(新高考专用): 这是一份重难点17 新情景、新定义下的数列问题(举一反三)(新高考专用)(含答案) 2025年高考数学一轮复习专练(新高考专用),文件包含重难点17新情景新定义下的数列问题举一反三新高考专用教师版2025年高考数学一轮复习专练新高考专用docx、重难点17新情景新定义下的数列问题举一反三新高考专用学生版2025年高考数学一轮复习专练新高考专用docx等2份试卷配套教学资源,其中试卷共66页, 欢迎下载使用。
第九章 统计与成对数据的统计分析综合测试卷(新高考专用)(含答案) 2025年高考数学一轮复习专练(新高考专用): 这是一份第九章 统计与成对数据的统计分析综合测试卷(新高考专用)(含答案) 2025年高考数学一轮复习专练(新高考专用),文件包含第九章统计与成对数据的统计分析综合测试卷新高考专用教师版2025年高考数学一轮复习专练新高考专用docx、第九章统计与成对数据的统计分析综合测试卷新高考专用学生版2025年高考数学一轮复习专练新高考专用docx等2份试卷配套教学资源,其中试卷共23页, 欢迎下载使用。
第09讲 统计与成对数据的统计分析(2022-2024高考真题)(新高考专用)(含答案) 2025年高考数学一轮复习专练(新高考专用): 这是一份第09讲 统计与成对数据的统计分析(2022-2024高考真题)(新高考专用)(含答案) 2025年高考数学一轮复习专练(新高考专用),文件包含第09讲统计与成对数据的统计分析2022-2024高考真题新高考专用教师版2025年高考数学一轮复习专练新高考专用docx、第09讲统计与成对数据的统计分析2022-2024高考真题新高考专用学生版2025年高考数学一轮复习专练新高考专用docx等2份试卷配套教学资源,其中试卷共24页, 欢迎下载使用。