高考数学一轮复习第10章第3课时成对数据的统计分析学案
展开2.理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题.
3.会利用统计知识进行数据分析.
1.变量的相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
3.相关关系的刻画
(1)散点图:成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
(2)样本相关系数r的计算式
r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2
=i=1nxiyi-nxyi=1nxi2-nx2i=1nyi2-ny2
(3)样本相关系数r的性质
①样本相关系数r的取值范围为[-1,1];
②若r>0时,成对样本数据正相关;
③若r<0时,成对样本数据负相关;
④样本相关系数与相关程度
当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
提醒:当两个变量的相关系数|r|=1时,两个变量呈函数关系.
4.一元线性回归模型与最小二乘法
(1) 一元线性回归模型
称Y=bx+a+e, Ee=0,De=σ2为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
(2)最小二乘法
将y=bx+a称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的b,a叫做b,a的最小二乘估计,其中
b=i=1nxi-xyi-yi=1nxi-x2,a=y-bx.
提醒:经验回归方程一定过点(x,y).
5.刻画回归效果的方式
(1)残差图法
在残差图中,残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为
i=1nyi-yi2,
残差平方和越小,模型拟合效果越好.
(3)利用R2刻画拟合效果
R2=1-i=1nyi-yi2i=1nyi-y2,
R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
6.列联表与独立性检验
(1)分类变量X,Y的2×2列联表:
则χ2=nad-bc2a+bc+da+cb+d.
(2)利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)χ2独立性检验中几个常用的小概率值和相应的临界值.
[常用结论]
两个分类变量之间关联关系的定性分析的方法
(1)利用等高堆积条形图直观判断:
如图,在等高堆积条形图中,下方同一颜色区域的两个高度相差比较明显时,可以判断两个分类变量之间有关联性.
(2)频率分析法:在2×2列联表中,aa+b与cc+d或ba+b与dc+d相差越大,两个分类变量有关联的可能性越大.
一、易错易混辨析(正确的打“√”,错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)经验回归直线y=bx+a至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )
(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( )
(4)若事件X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.( )
(5)经验回归方程y=bx+a中,若a<0,则变量x和y负相关.( )
[答案] (1)√ (2)× (3)√ (4)× (5)×
二、教材习题衍生
1.(人教A版选择性必修第三册P103习题8.1T1改编)下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
A B
C D
D [观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.]
2.(人教A版选择性必修第三册P103练习T3改编)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),则y与x的相关系数为( )
A.12 B.-1 C.0 D.-12
B [∵测得(x,y)的四组值分别为(1,2),(2,0),(4,-4),(-1,6),∴x=1.5,y=1,i=14xi2=22,i=14yi2=56,i=14xiyi=-20,样本相关系数
r=-20-4×1.5×122-4×1.5256-4×12=-1.故选B.]
3.(人教A版选择性必修第三册P113练习T2改编)从某学校随机选取8名女大学生,关于其身高x(单位:cm)和体重(单位:kg)的经验回归方程为y=0.849x-85.712,则身高172 cm的女大学生的体重约为________kg.
60.316 [当x=172时,y=0.849×172-85.712=60.316.]
4.(人教A版选择性必修第三册P133 例4改编)为了调查患肺癌是否与吸烟有关,调查了100名50岁以下的人,调查结果如下表:
根据列联表数据,求得χ2=________(保留3位有效数字),那么,在犯错误的概率不超过________的前提下认为患肺癌与吸烟有关.
附:
χ2=nad-bc2a+bc+da+cb+d.
22.2 0.001 [由20+m=40,得m=20.
由20+n=25,得n=5.
故χ2=100×20×55-20×5240×60×25×75≈22.2>10.828=x0.001.
所以在犯错误的概率不超过0.001的前提下认为患肺癌与吸烟有关.]
考点一 成对数据的相关性
[典例1] (1)(多选)(2022·山东临沂二模)对两组数据进行统计后得到的散点图如图,关于其线性相关系数的结论正确的是( )
A.r1<0 B.r2>1
C.r1+r2>0 D.r1>r2
(2)(2022·成都一模)如图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.
根据该折线图判断,下列结论正确的是( )
A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠
B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠
C.投资额与年份负相关
D.投资额与年份的相关系数r<0
(1)AC (2)B [(1)由散点图可知,线性相关系数r1的图象表示y与x成负相关,故-1
(2)因2009年之前与2010年之后投资额变化较大,故为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠,所以A错误,B正确;
随年份的增长,投资额总体上在增长,所以投资额与年份正相关,r>0,故CD错误.
故选B.]
判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性经验回归方程中:b>0时,正相关;b<0时,负相关.
[跟进训练]
1.(1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-12x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C.-12 D.1
(2)若已知
i=1nyi-y2是i=1nxi-x2的4倍,i=1n(xi-x)(yi-y)是i=1nxi-x2的1.5倍,则相关系数r的值为________.
(1)A (2)34 [(1)所有样本点均在同一条斜率为负数的直线上,则样本相关系数最小,为-1.
(2)由r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2,得r=34.]
考点二 回归模型
一元线性回归模型
[典例2] (2022·河南安阳模拟)2022年6月,某直播间一周的交易额共计35亿元,数据统计如下表:
(1)通过分析,发现可用线性回归模型拟合交易额y与t的关系,请用相关系数(系数精确到0.01)加以说明;
(2)利用最小二乘法建立y关于t的经验回归方程(系数精确到0.1),并预测下一周的第一天(即第8天)的交易额.
参考数据:i=17ti-tyi-y=42.1,i=17yi-y2=8.1,7≈2.65.参考公式:相关系数r=i=1nti-tyi-yi=1nti-t2i=1nyi-y2在经验回归方程y=bt+a中,斜率和截距的最小二乘法估计公式分别为b=i=1ntiyi-ntyi=1ntt2-nt2=
i=1nti-tyi-yi=1nti-t2,a=y-bt.
[解] (1)因为t=4,i=17ti-t2=28,i=17ti-t·yi-y=42.1,i=17yi-y2=8.1,
所以r=i=17ti-tyi-yi=17ti-t2i=17yi-y2,≈42.12×2.65×8.1≈0.98.
因为交易额y与t的相关系数近似为0.98,说明交易额y与t具有很强的正线性相关,
从而可用线性回归模型拟合交易额y与t的关系.
(2)因为y=357=5,i=17ti-t2=28,所以b=i=17ti-tyi-yi=17ti-t2=42.128≈1.5,
a=y-bt≈5-1.5×4=-1,所以y关于t的经验回归方程为y=1.5t-1,将t=8代入经验回归方程得y=1.5×8-1=11(千万元)=1.1(亿元),
所以预测下一周的第一天的交易额为1.1亿元.
【教师备选题】
下面给出了根据我国2015年~2021年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验回归方程的残差图(2015年~2021年的年份代码x分别为1~7).
(1)根据散点图分析y与x之间的相关关系;
(2)根据散点图相应数据计算得
i=17yi=1 074,i=17xiyi=4 517,求y关于x的经验回归方程(精确到0.01);(3)根据经验回归方程的残差图,
附:经验回归方程y=bx+a中斜率和截距的最小二乘估计公式分别为:
b=i=1nxi-xyi-yi=1nxi-x2,a=y-bx.
[解] (1)根据散点图可知,散点均匀的分布在一条直线附近,且随着x的增大,y增大,故y与x成线性相关,且为正相关.
(2)依题意,x=17(1+2+3+4+5+6+7)=4,
y=17=i=17yi=17×1 074≈153.43,i=17xi2=140.
b=i=17xi-xyi-yi=17xi-x2=i=17xiyi-7xyi=17xi2-7x2
=4 517-7×153.43×4140-7×42≈7.89,
a=y-bx=153.43-7.89×4=121.87,
所以y关于x的经验回归方程为y=7.89x+121.87.
(3)由残差图可以看出,残差对应点分布在水平带状区域内,且宽度较窄,说明拟合效果较好,回归方程的预报精度较高.
非线性回归模型
[典例3] (2022·湖北七市州模拟)快递业的迅速发展导致行业内竞争日趋激烈.某快递网点需了解一天中收发一件快递的平均成本y(单位:元)与当天揽收的快递件数即揽件量x(单位:千件)之间的关系,对该网点近7天的每日揽件量xi(单位:千件)与当日收发一件快递的平均成本yi(单位:元)(i=1,2,3,4,5,6,7)的数据进行了初步处理,得到散点图及一些统计量的值.
表中wi=1xi,w=17i=17wi.
(1)根据散点图判断y=ax+b与y=c+dx哪一个更适宜作为y关于x的经验回归方程类型?并根据判断结果及表中数据求出y关于x的经验回归方程;
(2)已知该网点每天的揽件量x(单位:千件)与单件快递的平均价格t(单位:元)之间的关系是x=59-4t5.75≤t≤14.5,收发一件快递的利润等于单件的平均价格减去平均成本,根据(1)中建立的经验回归方程解决以下问题:
①预测该网点某天揽件量为2千件时可获得的总利润;
②单件快递的平均价格t为何值时,该网点一天内收发快递所获利润的预报值最大?
附:对于一组具有线性相关关系的数据μi,vi(i=1,2,…,n),其经验回归方程v=βμ+a的斜率和截距的最小二乘估计分别为β=i=1nμi-μvi-v,i=1nμi-μ2,a=v-βμ.
[解] (1)由散点图可知:y=c+dx更适宜作为y关于x的经验回归方程类型;
令w=1x,则d=i=17wi-wyi-yi=17wi-w2==5,c=y-dw=4.6-5×0.37=2.75,
∴y关于x的经验回归方程为y=2.75+5x.
(2)设收发x千件快递获利z千元,则z=t-yx=59-x24-5x-2.75x=-x34+12x-51≤x≤6.
①当x=2时,z=17,即该网点某天揽收2 000件快递可获得的总利润约为17 000元.
②∵z′=-34x2+12,令z′=0,解得x=4,
∴当x∈1,4时,z′>0;当x∈4,6时,z′<0.
∴z在1,4上单调递增,在4,6上单调递减,
∴当x=4时,zmax=27,此时t=10.75.
∴单件快递的平均价格t=10.75元时,该网点一天内收发快递所获利润的预报值最大.
回归分析问题的类型及解题方法
(1)求经验回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数b.
③待定系数法:利用经验回归方程过样本点的中心求系数a.
(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值.
(3)利用经验回归方程判断正、负相关,决定正相关还是负相关的是系数b.
(4)经验回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
[跟进训练]
2.(2022·山东师范大学附中模拟)某研究所为了研究某种昆虫的产卵数y与温度x之间的关系,现将收集到的温度xi和一组昆虫的产卵数yii=1,2,…,6的6组观测数据作了初步处理,得到如图的散点图及一些统计数据.
经计算得到以下数据:x=16i=16xi=26,y=16i=16yi=33,
i=16xi-xyi-y=557,i=16xi-x2=84,i=16yi-y2=3 930,i=16yi-yi2=236.64.
(1)若用线性回归模型来拟合数据的变化关系,求y关于x的经验回归方程y=bx+a (结果精确到0.1);
(2)若用非线性回归模型来拟合数据的变化关系,求得y关于x的经验回归方程y= 3x,且决定系数为R2=0.967 2.
①试与(1)中的回归模型相比,用R2说明哪种模型的拟合效果更好;
②用拟合效果好的模型预测温度为35 ℃时该组昆虫的产卵数(结果四舍五入取整数).
附参考公式:对于一组具有线性相关关系的数据x1,y1,x2,y2,……,xn,yn,其经验回归方程y=bx+a截距和斜率的最小二乘法估计公式分别为:b=i=1nxi-xyi-yi=16xi-x2,a=y-bx,相关系数:
R2=1-i=1nyi-yi2i=1nyi-y2.参考数据:e8.060 5≈3 167.
[解] (1)由题意可知b=i=16xi-xyi-yi=16xi-x2=55784≈6.6,
a=y-bx=33-6.6×26=-138.6.
∴y关于x的经验回归方程是y=6.6x-138.6.
(2)①用指数回归模型拟合y与x的关系,决定系数R2=0.967 2,
线性回归模型拟合y与x的关系,决定系数R2=1-i=16yi-yi2i=16yi-y2=1-236.643 930≈0.939 8, 且0.939 8<0.967 2,
∴用y= 3x比y=6.6x-138.6拟合效果更好.
②y= 3x中,令x=35,
则y= 3×35= 5≈0.06×3 167≈190,
故预测温度为35 ℃时该组昆虫产卵数约为190个.
考点三 独立性检验
[典例4] (2022·全国甲卷改编)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)依据小概率值α=0.1的独立性检验,能否以此推断甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:χ2=nad-bc2a+bc+da+cb+d,
[解] (1)根据表中数据,A家公司共有班次260次,准点班次有240次,设A家公司长途客车准点事件为M,
则P(M)=240260=1213.
B家公司共有班次240次,准点班次有210次,
设B家公司长途客车准点事件为N,
则P(N)=210240=78.
所以A家公司长途客车准点的概率为1213,
B家公司长途客车准点的概率为78.
(2)补充列联表如下.
零假设为H0:甲、乙两城之间的长途客车是否准点与客车所属公司无关.根据2×2列联表,可得χ2=nad-bc2a+bc+da+cb+d
=500×240×30-210×202260×240×450×50≈3.205>2.706=x0.1.
根据小概率值α=0.1的独立性检验,我们推断H0不成立,即认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
独立性检验的一般步骤
(1)根据样本数据完成2×2列联表.
(2)根据公式χ2=nad-bc2a+ba+cb+dc+d计算.
(3)比较χ2与临界值的大小关系,作统计推断.
[跟进训练]
3. (2020·新高考Ⅰ卷改编)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:
(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;
(2)根据所给数据,完成下面的2×2列联表:
(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否推断该市一天空气中PM2.5浓度与SO2浓度有关?
附:χ2=nad-bc2a+bc+da+cb+d,
[解] (1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.
(2)根据抽查数据,可得2×2列联表:
(3)零假设为H0:该市一天空气中PM2.5浓度与SO2浓度无关,则
χ2=100×64×10-16×10280×20×74×26≈7.484.
由于7.484>6.635=x0.01,所以依据小概率值α=0.01的独立性检验,我们推断H0不成立,
即认为该市一天空气中PM2.5浓度与SO2浓度有关.
课时分层作业(六十五) 成对数据的统计分析
一、选择题
1.(2022·山东聊城一模)根据分类变量x与y的成对样本数据,计算得到χ2=6.147.依据α=0.01的独立性检验x0.01=6.635,结论为( )
A.变量x与y不独立
B.变量x与y不独立,这个结论犯错误的概率不超过0.01
C.变量x与y独立
D.变量x与y独立,这个结论犯错误的概率不超过0.01
C [按照独立性检验的知识及比对的参数值,当χ2=6.147,我们可以下结论变量x与y独立.故排除选项A,B;依据α=0.01的独立性检验x0.01=6.635,6.147<6.635,所以我们不能得到“变量x与y独立,这个结论犯错误的概率不超过0.01”这个结论.故C正确,D错误.故选C.]
2.为了对变量x,y的线性相关性进行检验,由样本点(x1,y1),(x2,y2),…,(x9,y9)求得两个变量的样本相关系数为r,那么下面说法正确的是( )
A.若所有样本点都在直线y=13x+1上,则r=1
B.若变量x,y呈正相关,则变量x,y的线性相关性较强
C.若所有样本点都在直线y=2x+1上,则r=2
D.若r越小,则变量x,y的线性相关性越强
A [所有样本点都在一条直线y=kx+b上,若k>0,则x,y正相关,相关系数r=1;k<0,x,y负相关,相关系数r=-1,r越大,相关性越强,r越小,相关性越弱,四个选项中只有A正确.故选A.]
3.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
C [因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+a,b>0,则z=by+a=-0.1bx+b+a,故x与z负相关.]
4.中国是茶的故乡,也是茶文化的发源地.为了弘扬中国茶文化,某酒店推出特色茶食品“排骨茶”,为了解每壶“排骨茶”中所放茶叶克数x与食客的满意率y的关系,调查研究发现,可选择函数模型y=1100ebx+c来拟合y与x的关系,根据以下统计数据:
可求得y关于x的非线性经验回归方程为( )
A.y=1100e0.043x+4.291 B.y=1100e0.043x-4.291
C.y=1100e-0.043x-4.291 D.y=1100e-0.043x+4.291
A [根据已知数据可得x=15(1+2+3+4+5)=3,
令t=ln 100y,则t=15(4.34+4.36+4.44+4.45+4.51)=4.42.
对A:将y=1100e0.043x+4.291变形得ln 100y=0.043x+4.291,
令x=3,可得t=0.043×3+4.291=4.42,故A正确;
对B,C,D同理可得,对函数模型变形为经验回归方程后,样本中心点不经过经验回归方程,故错误.故选A.]
5.(多选)(2022·湖北武汉二模)在研究某种产品的零售价x(单位:元)与销售量y(单位:万件)之间的关系时,根据所得数据得到如下所示的对应表:
利用最小二乘法计算数据,得到的经验回归方程为y=bx+26.2,则下列说法中正确的是( )
A.x与y的样本相关系数r>0
B.经验回归方程必过点16,14.2
C.b<0
D.若该产品的零售价定为22元,可预测销售量是9.7万件
BCD [由表中数据可知
x=12+14+16+18+205=805=16,
y=17+16+14+13+115=715=14.2,
因为相关系数的公式为r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2,
故相关系数的正负取决分子,又i=15(xi-x)(yi-y)=-4×2.8+-2×1.8+0×-0.2+2×-1.2+4×-3.2=-30<0,
故A错误;
由变量x与y的均值,得样本点的中心为16,14.2,经验回归方程必过样本点的中心16,14.2,故B正确;
将16,14.2代入y=bx+26.2中,得14.2=b×16+26.2,解得b=-0.75,
所以b=-0.75<0,故C正确;
因为b=-0.75,所以经验回归方程为y=-0.75x+26.2,
当x=22时,y=-0.75×22+26.2=-16.5+26.2=9.7,
所以该产品的零售价定为22元,可预测销售量是9.7万件,故D正确.故选BCD.]
6.(多选)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下所示的列联表,经计算χ2≈4.762,则可以推断出( )
A.该学校男生对食堂服务满意的概率的估计值为35
B.调研结果显示,该学校男生比女生对食堂服务更满意
C.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.05
D.认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.01
AC [对于A,该学校男生对食堂服务满意的概率的估计值为3030+20=35,故A正确;
对于B,该学校女生对食堂服务满意的概率的估计值为4040+10=45>35,故B错误;
因为χ2≈4.762>3.841=x0.05,认为男、女生对该食堂服务的评价有差异,此推断犯错误的概率不超过0.05,故C正确,D错误.]
二、填空题
7.某工厂为研究某种产品产量x(单位:吨)与所需某种原材料y(单位:吨)的相关性,在生产过程中收集4组对应数据x,y如下表所示:
根据表中数据,得出y关于x的经验回归方程为y=0.7x+a.据此计算出在样本点(4,3)处的残差为-0.15,则a的值为________,表中m的值为________.
0.35 4.5 [由在样本点4,3处的残差为-0.15,可得当x=4时,y=3.15,即3.15=0.7×4+a,解得a=0.35.又x=143+4+5+6=4.5,y=142.5+3+4+m=149.5+m,回归直线过点x,y,所以149.5+m=0.7×4.5+0.35,解得m=4.5.]
8.某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过________.
附:χ2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d.
0.025 [由题意可得列联表如下,
χ2=105×45×20-10×30255×50×75×30≈6.109>5.024=x0.025.]
9.(2022·山东聊城二模)如图是调查某学校高一年级男、女学生是否喜欢徒步运动而得到的等高堆积条形图,阴影部分表示喜欢徒步的频率.已知该年级男生500人、女生400人(假设所有学生都参加了调查),现从所有喜欢徒步的学生中按分层随机抽样的方法抽取23人,则抽取的男生人数为________.
15 [根据等高堆积条形图可知: 喜欢徒步的男生人数为0.6×500=300,喜欢徒步的女生人数为0.4×400=160,
所以喜欢徒步的总人数为300+160=460,
按分层随机抽样的方法抽取23人,则抽取的男生人数为300460×23=15人.]
三、解答题
10.(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
并计算得i=110xi2=0.038,i=110yi2=1.615 8,i=110xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2,1.896≈1.377.
[解] (1)样本中10棵这种树木的根部横截面积的平均值x=0.610=0.06,
样本中10棵这种树木的材积量的平均值y=3.910=0.39.
据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,平均一棵的材积量为0.39 m3.
(2)r =i=110xi -xyi -yi=110xi -x2i=110yi -y2
=i=110xiyi-10xyi=110xi2-10x2i=110yi2-10y2
=0.247 4-10×0.06×× 8-10×0.392
=0.013 40.000 189 6≈0.013 40.013 77≈0.97,则r≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3,
又已知树木的材积量与其根部横截面积近似成正比,
可得=186Y,解得Y=1 209 m3.
则该林区这种树木的总材积量估计为1 209 m3.
11.机动车行经人行横道时,应当减速慢行,遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.如表是某市一主干路口监控设备所抓拍的1-5月份驾驶员不“礼让行人”行为统计数据:
(1)请利用所给数据求违章人数y与月份x之间的经验回归方程y=bx+a,并预测该路口10月份的不“礼让行人”违章驾驶员人数;
(2)交警从这5个月内通过该路口的驾驶员中随机抽查70人,调查驾驶员不“礼让行人”行为与驾龄的关系,如表所示:
依据小概率值α=0.1的独立性检验,能否据此判断“礼让行人”行为与驾龄有关?
附:χ2=nad-bc2a+bc+da+cb+d,
[解] (1)由表中的数据可知,x=1+2+3+4+55=3,
y=120+105+100+95+805=100,
i=15xiyi=1×120+2×105+3×100+4×95+5×80=1 410,i=15xi2=12+22+32+42+52=55,
所以b=i=15xiyi-5xyi=110xi2-5x2
=1 410-1 50055-45=-9,
故a=y-bx=100-(-9)×3=127.
所以所求的经验回归方程为y=-9x+127.
令x=10,则y=-9×10+127=37.
所以预测该路口10月份的不“礼让行人”违章驾驶员人数为37.
(2)零假设为H0:“礼让行人”行为与驾龄无关.
由表中的数据可得
χ2=70×24×14-16×16240×30×40×30=1445≈0.311<2.706=x0.1,
根据小概率值α=0.1的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即依据小概率值α=0.1的独立性检验,不能判断“礼让行人”行为与驾龄有关.
12.现收集到变量x,y的六组观测数据为:1,2,2,2.3,3,3,4,3.5,5,5,6,4.5,用最小二乘法计算得其经验回归直线为l1:y=b1x+a1,相关系数为r1;经过残差分析后发现5,5为离群点(对应残差绝对值过大的点),剔除后,用剩下的五组数据计算得其经验回归直线为l2:y=b2x+a2,相关系数为r2.则下列结论错误的是( )
A.a2>a1
B.b2>b1
C.r2>r1
D.去掉离群点后,残差平方和变小
B [由数据得,l1:x=161+2+3+4+5+6=3.5,y=162+2.3+3+3.5+5+4.5≈3.4,
b1=1×2+2×2.3+…+6×4.5-6×3.5×3.412+22+…+62-6×3.52≈0.58,则a1=3.4-0.58×3.5=1.37.
剔除离群点后,
l2:x'=151+2+3+4+6=3.2,
y'=152+2.3+3+3.5+4.5=3.06,
b2=1×2+2×2.3+…+6×4.5-5×3.2×3.0612+22+…+62-5×3.22
≈0.52,则a2=3.06-0.52×3.2≈1.40,
A.a2>a1,故正确;
B.b2>b1,故错误;
C.剔除离群点后,相关程度变强,所以相关系数r2>r1,故正确;
D.剔除离群点后,相关程度变强,所以残差平方和变小,故正确.故选B.]
13.某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
由表中数据,求得经验回归方程为y=-4x+a.若在这些样本点中任取一点,则它在经验回归方程左下方的概率为________.
13 [由表中数据得x=6.5,y=80,由y=-4x+a,得a=106,故经验回归方程为y=-4x+106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入经验回归方程,可知有6个样本点,因84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在经验回归方程的左下方,满足条件的只有2个,故所求概率为26=13.]
14.(2022·湖北新高考协作体高三开学考试)为了检测某种抗病毒疫苗的免疫效果,通常需要进行动物与人体试验.研究人员将疫苗注射到200只小白鼠体内,一段时间后测量小白鼠的某项指标值,按0,20,20,40,40,60,60,80,80,100分组,绘制频率分布直方图如图所示.试验发现小白鼠体内产生抗体的共有160只,其中该项指标值不小于60的有110只.假设小白鼠注射疫苗后是否产生抗体相互独立.
(1)填写下面的2×2列联表,并根据列联表及小概率值α=0.05的独立性检验,判断能否认为注射疫苗后小白鼠产生抗体与指标值不小于60有关?
单位:只
(2)为检验疫苗二次接种的免疫抗体性,对第一次注射疫苗后没有产生抗体的40只小白鼠进行第二次注射疫苗,结果又有20只小白鼠产生抗体.
(i)用频率估计概率,求一只小白鼠注射2次疫苗后产生抗体的概率p;
(ii)以(i)中确定的概率p作为人体注射2次疫苗后产生抗体的概率,进行人体接种试验,记n个人注射2次疫苗后产生抗体的数量为随机变量X.试验后统计数据显示,当X=90时,PX取最大值,求参加人体接种试验的人数n及EX.
参考公式: χ2=nad-bc2a+bc+da+cb+d(其中n=a+b+c+d为样本容量).
参考数据:
[解] (1)由频率分布直方图,知200只小白鼠按指标值分布为:
在0,20内有0.002 5×20×200=10(只);
在20,40内有0.006 25×20×200=25(只);
在40,60内有0.008 75×20×200=35(只);
在60,80内有0.025×20×200=100(只);
在80,100内有0.007 5×20×200=30(只).
由题意,有抗体且指标值小于60的有50只;而指标值小于60的小白鼠共有10+25+35=70(只),所以指标值小于60且没有抗体的小白鼠有20只,同理,指标值不小于60且没有抗体的小白鼠有20只,故列联表如下:
单位:只
零假设为H0:注射疫苗后小白鼠产生抗体与指标值不小于60无关联.
根据列联表中数据,得χ2=200×50×20-20×1102160×40×70×130≈4.945>3.841=x0.05.
根据α=0.05的独立性检验,推断H0不成立,即认为注射疫苗后小白鼠产生抗体与指标值不小于60有关,此推断犯错误的概率不大于0.05.
(2)(i)令事件A=“小白鼠第一次注射疫苗产生抗体”,事件B=“小白鼠第二次注射疫苗产生抗体”,事件C=“小白鼠注射2次疫苗后产生抗体”.
记事件A,B,C发生的概率分别为PA,PB,PC,
则PA=160200=0.8,PB=2040=0.5,PC=1-PAPB=1-0.2×0.5=0.9.
所以一只小白鼠注射2次疫苗后产生抗体的概率p=0.9.
(ii)由题意,知随机变量X~Bn,0.9,PX=k=Cnk×0.9k×0.1n-k(k=0,1,2,…,n).
因为PX=90最大,
所以Cn90×0.990×0.1n-90≥Cn91×0.991×0.1n-91,Cn90×0.990×0.1n-90≥Cn89×0.989×0.1n-89,
解得99≤n≤9019,因为n是整数,所以n=99或n=100,所以接受接种试验的人数为99或100.
①当接种人数为99时,EX=np=99×0.9=89.1;
②当接种人数为100时,EX=np=100×0.9=90.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
吸烟
肺癌
合计
肺癌患者
非肺癌患者
吸烟者
20
m
40
不吸烟者
n
55
60
合计
25
75
100
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
第t天
1
2
3
4
5
6
7
交易额
y/千万元
y1
y2
y3
y4
y5
y6
y7
x
y
w
i=17xi-x·yi-y
i=17wi-w·yi-y
i=17xi-x2
i=17wi-w2
4
4.6
0.37
-18
2.75
25.5
0.55
运营公司
班次数
准点
未准点
A
240
20
B
210
30
α
0.100
0.050
0.010
xα
2.706
3.841
6.635
运营公司
班次数
合计
准点
未准点
A
240
20
260
B
210
30
240
合计
450
50
500
PM2.5浓度
SO2浓度
[0,50]
(50,150]
(150,475]
[0,35]
32
18
4
(35,75]
6
8
12
(75,115]
3
7
10
PM2.5浓度
SO2浓度
[0,150]
(150,475]
[0,75]
(75,115]
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
PM2.5浓度
SO2浓度
[0,150]
(150,475]
[0,75]
64
16
(75,115]
10
10
茶叶克数x
1
2
3
4
5
ln (100y)
4.34
4.36
4.44
4.45
4.51
x
12
14
16
18
20
y
17
16
14
13
11
性别
满意度
满意
不满意
男
30
20
女
40
10
α
0.100
0.050
0.010
xα
2.706
3.841
6.635
x
3
4
5
6
y
2.5
3
4
m
α
0.05
0.025
0.010
0.001
xα
3.841
5.024
6.635
10.828
集中培训
分散培训
合计
一次考过
45
30
75
一次未考过
10
20
30
合计
55
50
105
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截
面积xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
月份
1
2
3
4
5
违章驾驶员人数
120
105
100
95
80
不礼让行人
礼让行人
驾龄不超过1年
24
16
驾龄1年以上
16
14
α
0.100
0.050
0.010
xα
2.706
3.841
6.635
单价x/元
4
5
6
7
8
9
销量y/件
90
84
83
80
75
68
抗体
指标值
合计
小于60
不小于60
有抗体
没有抗体
合计
α
0.25
0.15
0.100
0.050
xα
1.323
2.072
2.706
3.841
抗体
指标值
合计
小于60
不小于60
有抗体
50
110
160
没有抗体
20
20
40
合计
70
130
200
2024年高考数学重难点突破讲义:学案 第1讲 数据分析——成对数据的统计分析: 这是一份2024年高考数学重难点突破讲义:学案 第1讲 数据分析——成对数据的统计分析,共12页。
备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析: 这是一份备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析,共11页。
备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第2讲用样本估计总体: 这是一份备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第2讲用样本估计总体,共10页。