还剩27页未读,
继续阅读
2019版数学(理)二轮复习通用版讲义:专题四第三讲大题考法——概率与统计
展开
第三讲 大题考法——概率与统计
题型(一)
离散型随机变量的期望
主要是通过互斥事件或相互独立事件或二项分布来考查离散型随机变量的分布列、期望的求法及应用.
[典例感悟]
[典例1] (2018·全国卷Ⅰ)某工厂的某种产品成箱包装,每箱200件,每一箱产品在交付用户之前要对产品作检验,如检验出不合格品,则更换为合格品.检验时,先从这箱产品中任取20件作检验,再根据检验结果决定是否对余下的所有产品作检验.设每件产品为不合格品的概率都为p(0 (1)记20件产品中恰有2件不合格品的概率为f(p),求f(p)的最大值点p0.
(2)现对一箱产品检验了20件,结果恰有2件不合格品,以(1)中确定的p0作为p的值.已知每件产品的检验费用为2元,若有不合格品进入用户手中,则工厂要对每件不合格品支付25元的赔偿费用.
①若不对该箱余下的产品作检验,这一箱产品的检验费用与赔偿费用的和记为X,求EX;
②以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验?
[审题定向]
(一)定知识
主要考查概率与频率的关系、二项分布、导数的应用、数学期望、概率的意义及其应用.
(二)定能力
1.考查数学建模:由二项分布概率抽象为函数模型.
2.考查数学运算:二项分布的概率、求导,最值的求解及均值的计算.
(三)定思路
第(1)问利用定义法求概率,导数法求最值点:
先根据二项分布的概念判断并求解相应概率,并用导数法求其最值点;
第(2)问利用期望性质、概率的意义求解:
利用离散型随机变量的期望的性质求解并根据概率的意义进行判断.
[解] (1)因为20件产品中恰有2件不合格品的概率为f(p)=Cp2·(1-p)18,
所以f′(p)=C[2p(1-p)18-18p2(1-p)17]
=2Cp(1-p)17(1-10p).
令f′(p)=0,得p=0.1.
当p∈(0,0.1)时,f′(p)>0;
当p∈(0.1,1)时,f′(p)<0.
所以f(p)的最大值点为p0=0.1.
(2)由(1)知,p=0.1.
①令Y表示余下的180件产品中的不合格品件数,依题意知Y~B(180,0.1),X=20×2+25Y,即X=40+25Y.所以E(X)=E(40+25Y)=40+25E(Y)=490.
②若对余下的产品作检验,则这一箱产品所需要的检验费用为400元.由于EX>400,故应该对余下的产品作检验.
[典例2] (2017·全国卷Ⅲ)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:
最高气温
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
天数
2
16
36
25
7
4
以最高气温位于各区间的频率代替最高气温位于该区间的概率.
(1)求六月份这种酸奶一天的需求量X(单位:瓶)的分布列;
(2)设六月份一天销售这种酸奶的利润为Y(单位:元).当六月份这种酸奶一天的进货量n(单位:瓶)为多少时,Y的数学期望达到最大值?
[审题定向]
(一)定知识
主要考查频数分布表、随机变量的分布列、数学期望.
(二)定能力
1.考查数据分析:频数分布表中的数据、变量的期望值分析求解.
2.考查数学运算:分布列的求解;数学期望的计算、最值的求解.
(三)定思路
第(1)问利用频率估计概率、由分布列的定义列分布列:
利用频数分布表求出随机变量X所有可能取值的概率,然后列出分布列;
第(2)问分类讨论,求期望最值,比较求解:
根据题意对n进行分类讨论,分别求出Y的所有可能情况,利用(1)中分布列求数学期望,比较不同情况下Y的数学期望达到的最大值,得出n.
[解] (1)由题意知,X所有可能取值为200,300,500,
由表格数据知
P(X=200)==0.2,P(X=300)==0.4,
P(X=500)==0.4.
因此X的分布列为:
X
200
300
500
P
0.2
0.4
0.4
(2)由题意知,这种酸奶一天的需求量至多为500,至少为200,因此只需考虑200≤n≤500.
当300≤n≤500时,
若最高气温不低于25,则Y=6n-4n=2n;
若最高气温位于区间[20,25),
则Y=6×300+2(n-300)-4n=1 200-2n;
若最高气温低于20,则Y=6×200+2(n-200)-4n=800-2n.
因此E(Y)=2n×0.4+(1 200-2n)×0.4+(800-2n)×0.2=640-0.4n.
当200≤n<300时,
若最高气温不低于20,则Y=6n-4n=2n;
若最高气温低于20,则Y=6×200+2(n-200)-4n=800-2n.
因此E(Y)=2n×(0.4+0.4)+(800-2n)×0.2=160+1.2n.
所以n=300时,Y的数学期望达到最大值,最大值为520元.
[类题通法]
求解离散型随机变量的期望与方差的解题模型
[对点训练]
(2018·广州模拟)计划在某水库建一座至多安装3台发电机的水电站,过去50年的水文资料显示,水库年入流量X(年入流量:一年内上游来水与库区降水之和,单位:亿立方米)都在40以上.其中,不足80的年份有10年,不低于80且不超过120的年份有35年,超过120的年份有5年.将年入流量在以上三段的频率作为相应段的概率,并假设各年的年入流量相互独立.
(1)求在未来4年中,至多1年的年入流量超过120的概率;
(2)水电站希望安装的发电机尽可能运行,但每年发电机最多可运行台数受年入流量X限制,并有如下关系:
年入流量X
40
80≤X≤120
X>120
发电机最多
可运行台数
1
2
3
若某台发电机运行,则该台发电机年利润为5 000万元;若某台发电机未运行,则该台发电机年亏损800万元,欲使水电站年总利润的均值达到最大,应安装发电机多少台?
解:(1)依题意P1=P(40
P2=P(80≤X≤120)==,
P3=P(X>120)==.
所以在未来4年中,至多有1年的年入流量超过120的概率:P=C(1-P3)4+C(1-P3)3P3=4+4×3×==0.947 7.
(2)记水电站年总利润为Y(单位:万元),
由于水库年入流量总大于40,所以至少安装1台.
①安装1台发电机的情形:由于水库年入流量总大于40,所以1台发电机运行的概率为1,对应的年利润Y=5 000,E(Y)=5 000×1=5 000.
②安装2台发电机的情形:当40
因此P(Y=4 200)=P(40
当X≥80时,2台发电机运行,此时Y=5 000×2=10 000,
因此P(Y=10 000)=P(X≥80)=P2+P3=0.8.
所以Y的分布列如下:
Y
4 200
10 000
P
0.2
0.8
所以E(Y)=4 200×0.2+10 000×0.8=8 840.
③安装3台发电机的情形:
当40
因此P(Y=3 400)=P(40
当80≤X≤120时,2台发电机运行,此时Y=5 000×2-800=9 200,
此时P(Y=9 200)=P(80≤X≤120)=P2=0.7.
当X>120时,3台发电机运行,此时Y=5 000×3=15 000,
因此P(Y=15 000)=P(X>120)=P3=0.1.
所以Y的分布列如下:
Y
3 400
9 200
15 000
P
0.2
0.7
0.1
所以E(Y)=3 400×0.2+9 200×0.7+15 000×0.1=8 620.
综上,欲使水电站年总利润的均值达到最大,应安装2台发电机.
题型(二) 回归分析与概率、统计的交汇问题
主要考查统计图表的数据分析、线性回归方程的求解与应用.
[典例感悟]
[典例1] (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[审题定向]
(一)定知识
主要考查折线图、线性回归分析及其应用.
(二)定能力
1.考查数据分析:折线图中数据分布情况的影响.
2.考查数学运算:预测值的求解.
(三)定思路
第(1)问代入求值:
将变量的值分别代入求解即可;
第(2)问利用给出模型进行分析:
可以根据回归直线情况进行分析,也可以根据估计值进行分析.
[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,答出其中任意一种或其他合理理由均可得分)
[典例2] (2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=- .
[审题定向]
(一)定知识
主要考查折线图、回归模型的拟合关系的判定与回归方程求法及其应用.
(二)定能力
1.考查数据分析:对折线图中的数据、参考数据作出分析.
2.考查数学运算:相关系数的求解、回归方程的求解.
(三)定思路
第(1)问利用相关系数计算分析:
利用折线图中的数据和参考数据计算相关系数r后进行判断;
第(2)问利用最小二乘法求解:
利用公式求、得出回归方程,然后利用方程进行估计.
[解] (1)由折线图中的数据和附注中的参考数据得
=4,(ti-)2=28, =0.55,
(ti-)(yi-)=iyi-i
=40.17-4×9.32=2.89,
∴r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103.
=- ≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
[类题通法]
破解回归分析问题的关键
(1)会依据表格及公式=,=-求线性回归方程中的参数的值,注意不要代错公式;
(2)已知变量的某个值去预测相应预报变量时,只需把该值代入回归方程=x+中.
[对点训练]
(2018·成都模拟)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:
指标
1号
小白鼠
2号
小白鼠
3号
小白鼠
4号
小白鼠
5号
小白鼠
A
5
7
6
9
8
B
2
2
3
4
4
(1)若通过数据分析,得知A项指标数据与B项指标数据具有线性相关关系.试根据上表,求B项指标数据y关于A项指标数据x的线性回归方程=x+;
(2)现要从这5只小白鼠中随机抽取3只,求其中至少有一只的B项指标数据高于3的概率.
参考公式:=,=-.
解:(1)由题意,可得=7,=3,iyi=110,=255,==.∵=-,∴=-.∴所求线性回归方程为=x-.
(2) 设1号至5号小白鼠依次为a1,a2,a3,a4,a5,则在这5只小白鼠中随机抽取3只的抽取情况有a1a2a3,a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共10种.随机抽取的3只小白鼠中至少有一只的B项指标数据高于3的情况有a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共9种.∴从这5只小白鼠中随机抽取3只,其中至少有一只的B项指标数据高于3的概率为.
题型(三)
独立性检验与概率、统计的交汇问题
主要考查抽样方法、随机事件、古典概型、频率分布直方图或茎叶图的应用以及K2的计算与应用.
[典例感悟]
[典例1] (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
[审题定向]
(一)定知识
主要考查茎叶图及应用、中位数、2×2列联表、K2的值.
(二)定能力
1.考查数据分析:由茎叶图中的数据提取后进行分析;由K2的值进行分析.
2.考查数学运算:K2的求解.
(三)定思路
第(1)问观察、比较、判断:
观察茎叶图,通过比较中位数、平均数等统计数据作出结论;
第(2)问利用中位数定义,2×2列联表定义求解:
根据中位数的定义求中位数,并完成2×2列联表;
第(3)问计算K2的值:
计算出K2的值并与临界值表比较,进而得出结论.
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可得分)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)因为K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
[典例2] (2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
,
K2=.
[审题定向]
(一)定知识
主要考查用频率估计概率、独立性检验的应用、用样本估计总体.
(二)定能力
1.考查数据分析:由频率分布直方图中的数据、K2的值进行分析.
2.考查数学运算:频率的计算、K2的计算、中位数估计值.
(三)定思路
第(1)问利用频率估计概率:
根据新、旧养殖法的频率分布直方图,分别求出旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg的频率,利用频率估计概率,再利用相互独立事件的概率公式求解;
第(2)问计算K2的值:
根据频率分布直方图,得到2×2列联表,求得K2的值,然后与临界值比较求解;
第(3)问利用频率直方图求解:
根据新养殖法的箱产量频率分布直方图得到低于50 kg及低于55 kg的直方图面积,然后估算中位数.
[解] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)由(1)可得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
由表中数据及K2的计算公式得,
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为50+≈52.35(kg).
[类题通法]
解决独立性检验与概率综合问题的3步骤
(1)分析数据:根据条件中提供的数据准确分析数据.
(2)准确计算:对频率的计算或K2的计算确保计算准确.
(3)作出结论:用频率估计概率或根据K2的观测值与临界值进行对比时,注意问题的结论回答准确.
[对点训练]
(2019届高三·西安八校联考)某工厂有25周岁以上(含25周岁)的工人300名,25周岁以下的工人200名.为了研究工人的日平均生产件数是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],分别加以统计,得到如图所示的频率分布直方图.
(1)根据“25周岁以上(含25周岁)组”的频率分布直方图,求25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值(四舍五入保留整数);
(2)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(3)规定日平均生产件数不少于80的工人为生产能手,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
生产能手
非生产能手
合计
25周岁以上
(含25周岁)组
25周岁以下组
合计
附:K2=,
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
解:采用分层抽样,“25周岁以上(含25周岁)组”应抽取工人100×=60(名),“25周岁以下组”应抽取工人100×=40(名).
(1)由“25周岁以上(含25周岁)组”的频率分布直方图可知,其中位数为70+10×=70+≈73(件).综上,25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值为73.
(2)由频率分布直方图可知,样本中日平均生产件数不足60件的工人中,25周岁以上(含25周岁)的工人共有60×0.005×10=3(名),设其分别为m1,m2,m3;25周岁以下的工人共有40×0.005×10=2(名),设其分别为n1,n2,则所有基本事件为(m1,m2),(m1,m3),(m1,n1),(m1,n2),(m2,m3),(m2,n1),(m2,n2),(m3,n1),(m3,n2),(n1,n2),共10个.记“至少抽到一名‘25周岁以下组’的工人”为事件A,事件A包含的基本事件共7个.故P(A)=.
(3)由频率分布直方图可知,25周岁以上(含25周岁)的生产能手共有60×[(0.02+0.005)×10]=15(名),25周岁以下的生产能手共有40×[(0.032 5+0.005)×10]=15(名),则2×2列联表如下.
生产能手
非生产能手
合计
25周岁以上
(含25周岁)组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
K2==≈1.786<2.706.
综上,没有90%的把握认为“生产能手与工人所在的年龄组有关”.
题型(四) 正态分布
主要通过正态分布、二项分布的概念和性质,概率的计算以及数学期望的求法来考查综合应用能力.
[典例感悟]
[典例] (2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布N(μ,σ2).
(1)假设生产状态正常,记X表示一天内抽取的16个零件中其尺寸在(μ-3σ,μ+3σ)之外的零件数,求P(X≥1)及X的数学期望;
(2)一天内抽检零件中,如果出现了尺寸在(μ-3σ,μ+3σ)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①试说明上述监控生产过程方法的合理性;
②下面是检验员在一天内抽取的16个零件的尺寸:
9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得=i=9.97,s==≈0.212,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
用样本平均数作为μ的估计值,用样本标准差s作为σ的估计值,利用估计值判断是否需对当天的生产过程进行检查?剔除(-3,+3)之外的数据,用剩下的数据估计μ和σ(精确到0.01).
附:若随机变量Z服从正态分布N(μ,σ2),则P(μ-3σ
[审题定向]
(一)定知识
主要考查正态分布、二项分布、数学期望、3σ原则.
(二)定能力
1.考查数据分析:由给出的数据进行分析,判断合理性;由零件尺寸的数据分析判断是否需检查.
2.考查数学运算:概率、期望的计算;平均数、估计值、样本方差的计算求解.
(三)定思路
第(1)问利用正态分布、二项分布性质可求:
先由对立事件的概率公式求出P(X≥1)的值,再利用数学期望的公式求解;
第(2)问利用3σ原则分析:
利用独立性检验的思想判断监控生产过程方法的合理性;确定-3,+3的取值,以剔除(-3,+3)之外的数据,再用剩下的数据估计μ和σ.
[解] (1)抽取的一个零件的尺寸在(μ-3σ,μ+3σ)之内的概率为0.997 4,从而零件的尺寸在(μ-3σ,μ+3σ)之外的概率为0.002 6,故X~B(16,0.002 6).因此P(X≥1)=1-P(X=0)=1-0.997 416≈0.040 8.
X的数学期望为EX=16×0.002 6=0.041 6.
(2)①如果生产状态正常,一个零件尺寸在(μ-3σ,μ+3σ)之外的概率只有0.002 6,一天内抽取的16个零件中,出现尺寸在(μ-3σ,μ+3σ)之外的零件的概率只有0.040 8,发生的概率很小.因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.
②由=9.97,s≈0.212,得μ的估计值为=9.97,σ的估计值为=0.212,由样本数据可以看出有一个零件的尺寸在(-3,+3)之外,因此需对当天的生产过程进行检查.
剔除(-3,+3)之外的数据9.22,剩下数据的平均数为(16×9.97-9.22)=10.02,
因此μ的估计值为10.02.
=16×0.2122+16×9.972≈1 591.134,
剔除(-3,+3)之外的数据9.22,剩下数据的样本方差为(1 591.134-9.222-15×10.022)≈0.008,
因此σ的估计值为≈0.09.
[类题通法]
解决正态分布问题有3个关键点
(1)对称轴x=μ;
(2)标准差σ;
(3)分布区间.利用对称性求指定范围内的概率值;由μ,σ分布区间的特征进行转化,使分布区间转化为3σ特殊区间,从而求出所求概率.
[对点训练]
(2018·福建福州质检)从某技术公司开发的某种产品中随机抽取200件,测量这些产品的一项质量指标值(记为Z),由测量结果得如下频率分布直方图:
(1)公司规定:当Z≥95时,产品为正品;当Z<95时,产品为次品.公司每生产一件这种产品,若是正品,则盈利90元;若是次品,则亏损30元.记ξ为生产一件这种产品的利润,求随机变量ξ的分布列和数学期望;
(2)由频率分布直方图可以认为,Z服从正态分布N(μ,σ2),其中μ近似为样本平均数,σ2近似为样本方差s2(同一组中的数据用该区间的中点值作代表).
①利用该正态分布,求P(87.8
②某客户从该公司购买了500件这种产品,记X表示这500件产品中该项质量指标值位于区间(87.8,112.2)内的产品件数,利用①的结果,求E(X).
附:≈12.2,若Z~N(μ,σ2),则P(μ-σ
解:(1)由频率估计概率,产品为正品的概率为(0.033+0.024+0.008+0.002)×10=0.67,
所以随机变量ξ的分布列为
ξ
90
-30
P
0.67
0.33
所以E(ξ)=90×0.67+(-30)×0.33=50.4.
(2)由频率分布直方图知,抽取产品的该项质量指标值的样本平均数和样本方差s2分别为
=70×0.02+80×0.09+90×0.22+100×0.33+110×0.24+120×0.08+130×0.02=100,
s2=(-30)2×0.02+(-20)2×0.09+(-10)2×0.22+02×0.33+102×0.24+202×0.08+302×0.02=150.
①因为Z~N(100,150),
从而P(87.8
②由①知,一件产品中该项质量指标值位于区间(87.8,122.2)内的概率为0.682 7,依题意知X~B(500,0.682 7),
所以E(X)=500×0.682 7=341.35.
概率问题重在“辨”——辨析、辨型
[循流程思维——入题快]
概率问题的求解关键是辨别它的概率模型,只要找到模型,问题便迎刃而解.而概率模型的提取往往需要经过观察、分析、归纳、判断等复杂的辨析思维过程,常常因题设条件理解不准,某个概念认识不清而误入歧途.另外,还需弄清楚概率模型中等可能事件、互斥事件、对立事件、独立事件等事件间的关系,注意放回和不放回试验的区别,合理划分复合事件.
[按流程解题——快又准]
[典例] (2016·全国卷Ⅱ)某险种的基本保费为a(单位:元),继续购买该险种的投保人称为续保人,续保人本年度的保费与其上年度出险次数的关联如下:
上年度出险次数
0
1
2
3
4
≥5
保费
0.85a
a
1.25a
1.5a
1.75a
2a
设该险种一续保人一年内出险次数与相应概率如下:
一年内出险次数
0
1
2
3
4
≥5
概率
0.30
0.15
0.20
0.20
0.10
0.05
(1)求一续保人本年度的保费高于基本保费的概率;
(2)若一续保人本年度的保费高于基本保费,求其保费比基本保费高出60%的概率;
(3)求续保人本年度的平均保费与基本保费的比值.
[解题示范]
(1)设A表示事件“一续保人本年度的保费高于基本保费”,
则事件A发生当且仅当一年内出险次数大于1,故P(A)=1-(0.30+0.15)=0.55.❶
(2)设B表示事件“一续保人本年度的保费比基本保费高出60%”,
则事件B发生当且仅当一年内出险次数大于3,故P(B)=0.10+0.05=0.15.❷
又P(AB)=P(B),故P(B|A)====.❸
因此所求概率为.
❶辨析:利用对立事件的概率求P(A).
(3)记续保人本年度的保费为X,则X的分布列为
X
0.85a
a
1.25a
1.5a
1.75a
2a
P
0.30
0.15
0.20
0.20
0.10
0.05
E(X)=0.85a×0.30+a×0.15+1.25a×0.20+1.5a×0.20+1.75a×0.10+2a×0.05=1.23a.
因此续保人本年度的平均保费与基本保费的比值为1.23.
[思维升华] 该部分往往与实际问题相结合,要注意理解实际问题的意义,使之和相应的概率计算对应起来,只有这样才能有效地解决问题.
[应用体验]
(2018·唐山模拟)某篮球队在赛季已结束的8场比赛中,队员甲得分统计的茎叶图如图.
(1)根据这8场比赛,估计甲每场比赛中得分的均值μ和标准差σ;
(2)假设甲在每场比赛的得分服从正态分布N(μ,σ2),且各场比赛间相互没有影响,依次估计甲在82场比赛中得分在26分以上的平均场数.
参考数据:
≈5.66,≈5.68,≈5.70.
正态总体N(μ,σ2)在区间(μ-2σ,μ+2σ)内取值的概率约为0.954.
解:(1)μ=(7+8+10+15+17+19+21+23)=15,
σ2=[(-8)2+(-7)2+(-5)2+02+22+42+62+82]=32.25.
所以σ≈5.68.
所以估计甲每场比赛中得分的均值μ为15,标准差σ为5.68.
(2)由(1)得甲在每场比赛中得分在26分以上的概率
P(X≥26)≈[1-P(μ-2σ
设在82场比赛中,甲得分在26分以上的次数为Y,则Y~B(82,0.023).
Y的均值E(Y)=82×0.023=1.886.
由此估计甲在82场比赛中得分在26分以上的平均场数为1.886.
A卷——大题保分练
1.(2018·洛阳模拟)甲、乙两家外卖公司,其送餐员的日工资方案如下:甲公司,底薪80元,每单送餐员抽成4元;乙公司,无底薪,40单以内(含40单)的部分送餐员每单抽成6元,超出40单的部分送餐员每单抽成7元.假设同一公司的送餐员一天的送餐单数相同,现从这两家公司各随机选取一名送餐员,并分别记录其50天的送餐单数,得到如下频数表:
甲公司送餐员送餐单数频数表
送餐单数
38
39
40
41
42
天数
10
15
10
10
5
乙公司送餐员送餐单数频数表
送餐单数
38
39
40
41
42
天数
5
10
10
20
5
(1)现从记录甲公司的50天送餐单数中随机抽取3天的送餐单数,求这3天送餐单数都不小于40的概率;
(2)若将频率视为概率,回答下列两个问题:
①记乙公司送餐员日工资为X(单位:元),求X的分布列和数学期望E(X);
②小王打算到甲、乙两家公司中的一家应聘送餐员,如果仅从日工资的角度考虑,请利用所学的统计学知识为小王作出选择,并说明理由.
解:(1)记抽取的3天送餐单数都不小于40为事件M,
则P(M)==.
(2)①设乙公司送餐员的送餐单数为a,
当a=38时,X=38×6=228,
当a=39时,X=39×6=234,
当a=40时,X=40×6=240,
当a=41时,X=40×6+1×7=247,
当a=42时,X=40×6+2×7=254.
所以X的所有可能取值为228,234,240,247,254.
故X的分布列为
X
228
234
240
247
254
P
所以E(X)=228×+234×+240×+247×+254×=241.8.
②依题意,甲公司送餐员的日平均送餐单数为38×0.2+39×0.3+40×0.2+41×0.2+42×0.1=39.7,
所以甲公司送餐员的日平均工资为80+4×39.7=238.8元.
由①得乙公司送餐员的日平均工资为241.8元.
因为238.8<241.8,所以推荐小王去乙公司应聘.
2.(2018·河北五校联考)通过随机询问100名性别不同的大学生是否爱好某项运动,得到如下2×2列联表:
男
女
总计
爱好
40
不爱好
25
总计
45
100
(1)将题中的2×2列联表补充完整;
(2)能否有99%的把握认为是否爱好该项运动与性别有关?请说明理由;
(3)如果按性别进行分层抽样,从以上爱好该项运动的大学生中抽取6人组建“运动达人社”,现从“运动达人社”中选派3人参加某项校际挑战赛,记选出3人中的女大学生人数为X,求X的分布列和数学期望.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
解:(1)题中的2×2列联表补充如下:
男
女
总计
爱好
40
20
60
不爱好
15
25
40
总计
55
45
100
(2)K2=≈8.25>6.635,
所以有99%的把握认为是否爱好该项运动与性别有关.
(3)由题意,抽取6人中包括男生4名,女生2名,X的取值为0,1,2,
则P(X=0)==,
P(X=1)==,
P(X=2)==,
故X的分布列为
X
0
1
2
P
E(X)=0×+1×+2×=1.
3.(2019届高三·山西八校联考)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万元)的数据如下:
年份
2012
2013
2014
2015
2016
2017
2018
广告费
支出x
1
2
4
6
11
13
19
销售量y
1.9
3.2
4.0
4.4
5.2
5.3
5.4
(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;
(2)若用y=c+d模型拟合y与x的关系,可得回归方程=1.63+0.99,经计算线性回归模型和该模型的R2分别约为0.75和0.88,请用R2说明选择哪个回归模型更好;
(3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果回答下列问题:
①广告费x=20时,销售量及利润的预报值是多少?
②广告费x为何值时,利润的预报值最大?(精确到0.01)
参考公式:回归直线=+x的斜率和截距的最小二乘估计分别为
=,=-.
参考数据:≈2.24.
解:(1)∵=8,=4.2,iyi=279.4,=708,
∴===0.17,=-=4.2-0.17×8=2.84,
∴y关于x的线性回归方程为=0.17x+2.84.
(2)∵0.75<0.88且R2越大,反映残差平方和越小,模型的拟合效果越好,
∴选用=1.63+0.99更好.
(3)由(2)知,
①当x=20时,销售量的预报值=1.63+0.99≈6.07(万台),
利润的预报值z=200×6.07-20≈1 194(万元).
②z=200(1.63+0.99)-x=-x+198+326=-()2+198+326=-(-99)2+10 127,
∴当=99,即x=9 801时,利润的预报值最大,
故广告费为9 801万元时,利润的预报值最大.
4.第四届世界互联网大会在浙江乌镇隆重召开,人工智能技术深受全世界人民的关注,不同年龄段的人群关注人工智能技术应用与发展的侧重点有明显的不同,某中等发达城市的市场咨询与投资民调机构在该市对市民关注人工智能技术应用与发展的侧重方向进行调查,随机抽取1 000名市民,将他们的年龄分成6段:[20,30),[30,40),[40,50),[50,60),[60,70),[70,80],并绘制了如图所示的频率分布直方图.
(1)求这1 000名市民年龄的平均数和中位数(同一组中的数据用该组区间的中点值作代表);
(2)调查发现年龄在[20,40)的市民侧重关注人工智能技术在学习与工作方面的应用与发展,其中关注智能办公的共有100人,将样本的频率视为总体的频率,从该市年龄在[20,40)的市民中随机抽取300人,请估计这300人中关注智能办公的人数;
(3)用样本的频率代替概率,现从该市随机抽取20名市民调查关注人工智能技术在养老服务方面的应用与发展的情况,其中有k名市民的年龄在[60,80]的概率为P(X=k),其中k=0,1,2,…,20,当P(X=k)最大时,求k的值.
解:(1)由频率分布直方图可知,抽取的1 000名市民年龄的平均数=25×0.05+35×0.1+45×0.2+55×0.3+65×0.25+75×0.1=54(岁).
设1 000名市民年龄的中位数为x,则0.05+0.1+0.2+0.03×(x-50)=0.5,
解得x=55,
所以这1 000名市民年龄的平均数为54,中位数为55.
(2)由频率分布直方图可知,这1 000名市民中年龄在[20,40)的市民共有(0.05+0.10)×1 000=150人,所以关注智能办公的频率为=,
则从该市年龄在[20,40)的市民中随机抽取300人,这300人中关注智能办公的人数为300×=200.
故估计这300人中关注智能办公的人数为200.
(3)设在抽取的20名市民中,年龄在[60,80]的人数为X,X服从二项分布,
由频率分布直方图可知,年龄在[60,80]的频率为(0.025+0.010)×10=0.35,
所以X~B(20,0.35),所以P(X=k)=C0.35k(1-0.35)20-k,k=0,1,2,…,20.
设t===,k=1,2,…,20.
若t>1,则k<7.35,P(X=k-1) 若t<1,则k>7.35,P(X=k-1)>P(X=k).
所以当k=7时,P(X=k)最大,
即当P(X=k)最大时,k的值为7.
B卷——深化提能练
1.(2019届高三·福州四校联考)某知名品牌汽车深受消费者喜爱,但价格昂贵.某汽车经销商推出A,B,C三种分期付款方式销售该品牌汽车,并对近期100位采用上述分期付款方式付款的客户进行统计分析,得到柱状图如图所示.已知从A,B,C三种分期付款销售中,该经销商每销售此品牌汽车1辆所获得的利润分别是1万元、2万元、3万元.现甲、乙两人从该汽车经销商处,采用上述分期付款方式各购买此品牌汽车一辆.以这100位客户所采用的分期付款方式的频率估计1位客户采用相应分期付款方式的概率.
(1)求甲、乙两人采用不同分期付款方式的概率;
(2)记X(单位:万元)为该汽车经销商从甲、乙两人购车中所获得的利润,求X的分布列与期望.
解:(1)设“采用A种分期付款方式购车”为事件A,“采用B种分期付款方式购车”为事件B,“采用C种分期付款方式购车”为事件C,由柱状图得,
P(A)==0.35,P(B)==0.45,P(C)==0.2,
∴甲、乙两人采用不同分期付款方式的概率P=1-(P(A)·P(A)+P(B)·P(B)+P(C)·P(C))=0.635.
(2)由题意知,X的所有可能取值为2,3,4,5,6,
P(X=2)=P(A)P(A)=0.35×0.35=0.122 5,
P(X=3)=P(A)P(B)+P(B)P(A)=0.35×0.45+0.45×0.35=0.315,
P(X=4)=P(A)P(C)+P(B)P(B)+P(C)P(A)=0.35×0.2+0.45×0.45+0.2×0.35=0.342 5,
P(X=5)=P(B)P(C)+P(C)P(B)=0.45×0.2+0.2×0.45=0.18,
P(X=6)=P(C)P(C)=0.2×0.2=0.04.
∴X的分布列为
X
2
3
4
5
6
P
0.122 5
0.315
0.342 5
0.18
0.04
E(X)=0.122 5×2+0.315×3+0.342 5×4+0.18×5+0.04×6=3.7.
2.(2019届高三·湘东五校联考)已知具有相关关系的两个变量x,y的几组数据如下表所示:
x
2
4
6
8
10
y
3
6
7
10
12
(1)请根据上表数据在网格纸中绘制散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+,并估计当x=20时y的值;
(3)将表格中的数据看作5个点的坐标,则从这5个点中随机抽取3个点,记落在直线2x-y-4=0右下方的点的个数为ξ,求ξ的分布列以及期望.
参考公式:
=,=-.
解:(1)散点图如图所示:
(2)依题意,=×(2+4+6+8+10)=6,=×(3+6+7+10+12)=7.6,
=4+16+36+64+100=220,iyi=6+24+42+80+120=272,
====1.1,
∴=7.6-1.1×6=1,
∴线性回归方程为=1.1x+1,故当x=20时,y=23.
(3)可以判断,落在直线2x-y-4=0右下方的点满足2x-y-4>0,
故符合条件的点的坐标为(6,7),(8,10),(10,12),故ξ的所有可能取值为1,2,3,
P(ξ=1)==,P(ξ=2)===,P(ξ=3)==,
故ξ的分布列为
ξ
1
2
3
P
故E(ξ)=1×+2×+3×==.
3.(2018·辽宁五校联考)某校高三年级有500名学生,一次考试的英语成绩服从正态分布N(100,17.52),数学成绩的频率分布直方图如下:
(1)如果成绩高于135分的为特别优秀,则本次考试英语、数学成绩特别优秀的学生大约各多少人?
(2)试问本次考试英语和数学的平均成绩哪个较高,并说明理由;
(3)如果英语和数学两科成绩都特别优秀的共有6人,从(1)中的这些学生中随机抽取3人,设3人中两科成绩都特别优秀的有ξ人,求ξ的分布列和数学期望.
参考公式及数据:
若X~N(μ,σ2),则P(μ-σ
P(μ-2σ
解:(1)因为英语成绩服从正态分布N(100,17.52),
所以英语成绩特别优秀的概率P1=P(X≥135)=(1-0.96)×=0.02,
由频率估计概率,得数学成绩特别优秀的概率P2=0.001 6×20×=0.024,
所以英语成绩特别优秀的学生大约有500×0.02=10(人),
数学成绩特别优秀的学生大约有500×0.024=12(人).
(2)本次考试英语的平均成绩为100分,
数学的平均成绩为60×0.16+80×0.168+100×0.48+120×0.16+140×0.032=94.72(分),
因为94.72<100,所以本次考试英语的平均成绩较高.
(3)英语和数学成绩都特别优秀的有6人,则单科成绩特别优秀的有10人,ξ可取的值有0,1,2,3,
所以P(ξ=0)==,P(ξ=1)==,
P(ξ=2)==,P(ξ=3)==,
故ξ的分布列为
ξ
0
1
2
3
P
E(ξ)=0×+1×+2×+3×=.
4.
在中国,不仅是购物,而且从共享单车到医院挂号再到公共缴费,日常生活中几乎全部领域都支持手机下单和支付.出门不带现金的人数正在迅速增加.中国人民大学和法国调查公司益普索(Ipsos)合作,调查了腾讯服务的6 000名用户,从中随机抽取了60名,统计他们出门随身携带的现金(单位:元)如茎叶图所示,规定:随身携带的现金在100元以下的为“淡定族”,其他为“非淡定族”.
(1)根据上述样本数据,列出2×2列联表,判断是否有75%的把握认为“淡定族”与“性别”有关?
(2)用样本估计总体,若从腾讯服务的用户中随机抽取3人,设这3人中“淡定族”的人数为随机变量ξ,求随机变量ξ的概率分布列及数学期望.
参考公式:K2=,其中n=a+b+c+d.
参考数据:
P(K2≥k0)
0.25
0.15
0.10
0.05
k0
1.323
2.072
2.706
3.841
解:(1)依题意可得2×2列联表如下:
淡定族
非淡定族
总计
男
10
30
40
女
8
12
20
总计
18
42
60
K2=≈1.429>1.323,
故有75%的把握认为“淡定族”与“性别”有关.
(2)用样本估计总体,用户中为“淡定族”的概率为=,
ξ的可能取值为0,1,2,3,由题意,得到ξ~B,
P(ξ=k)=Ck3-k,k=0,1,2,3,
随机变量ξ的分布列为
ξ
0
1
2
3
P
故随机变量ξ的数学期望E(ξ)=0×+1×+2×+3×==.
题型(一)
离散型随机变量的期望
主要是通过互斥事件或相互独立事件或二项分布来考查离散型随机变量的分布列、期望的求法及应用.
[典例感悟]
[典例1] (2018·全国卷Ⅰ)某工厂的某种产品成箱包装,每箱200件,每一箱产品在交付用户之前要对产品作检验,如检验出不合格品,则更换为合格品.检验时,先从这箱产品中任取20件作检验,再根据检验结果决定是否对余下的所有产品作检验.设每件产品为不合格品的概率都为p(0 (1)记20件产品中恰有2件不合格品的概率为f(p),求f(p)的最大值点p0.
(2)现对一箱产品检验了20件,结果恰有2件不合格品,以(1)中确定的p0作为p的值.已知每件产品的检验费用为2元,若有不合格品进入用户手中,则工厂要对每件不合格品支付25元的赔偿费用.
①若不对该箱余下的产品作检验,这一箱产品的检验费用与赔偿费用的和记为X,求EX;
②以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验?
[审题定向]
(一)定知识
主要考查概率与频率的关系、二项分布、导数的应用、数学期望、概率的意义及其应用.
(二)定能力
1.考查数学建模:由二项分布概率抽象为函数模型.
2.考查数学运算:二项分布的概率、求导,最值的求解及均值的计算.
(三)定思路
第(1)问利用定义法求概率,导数法求最值点:
先根据二项分布的概念判断并求解相应概率,并用导数法求其最值点;
第(2)问利用期望性质、概率的意义求解:
利用离散型随机变量的期望的性质求解并根据概率的意义进行判断.
[解] (1)因为20件产品中恰有2件不合格品的概率为f(p)=Cp2·(1-p)18,
所以f′(p)=C[2p(1-p)18-18p2(1-p)17]
=2Cp(1-p)17(1-10p).
令f′(p)=0,得p=0.1.
当p∈(0,0.1)时,f′(p)>0;
当p∈(0.1,1)时,f′(p)<0.
所以f(p)的最大值点为p0=0.1.
(2)由(1)知,p=0.1.
①令Y表示余下的180件产品中的不合格品件数,依题意知Y~B(180,0.1),X=20×2+25Y,即X=40+25Y.所以E(X)=E(40+25Y)=40+25E(Y)=490.
②若对余下的产品作检验,则这一箱产品所需要的检验费用为400元.由于EX>400,故应该对余下的产品作检验.
[典例2] (2017·全国卷Ⅲ)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:
最高气温
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
天数
2
16
36
25
7
4
以最高气温位于各区间的频率代替最高气温位于该区间的概率.
(1)求六月份这种酸奶一天的需求量X(单位:瓶)的分布列;
(2)设六月份一天销售这种酸奶的利润为Y(单位:元).当六月份这种酸奶一天的进货量n(单位:瓶)为多少时,Y的数学期望达到最大值?
[审题定向]
(一)定知识
主要考查频数分布表、随机变量的分布列、数学期望.
(二)定能力
1.考查数据分析:频数分布表中的数据、变量的期望值分析求解.
2.考查数学运算:分布列的求解;数学期望的计算、最值的求解.
(三)定思路
第(1)问利用频率估计概率、由分布列的定义列分布列:
利用频数分布表求出随机变量X所有可能取值的概率,然后列出分布列;
第(2)问分类讨论,求期望最值,比较求解:
根据题意对n进行分类讨论,分别求出Y的所有可能情况,利用(1)中分布列求数学期望,比较不同情况下Y的数学期望达到的最大值,得出n.
[解] (1)由题意知,X所有可能取值为200,300,500,
由表格数据知
P(X=200)==0.2,P(X=300)==0.4,
P(X=500)==0.4.
因此X的分布列为:
X
200
300
500
P
0.2
0.4
0.4
(2)由题意知,这种酸奶一天的需求量至多为500,至少为200,因此只需考虑200≤n≤500.
当300≤n≤500时,
若最高气温不低于25,则Y=6n-4n=2n;
若最高气温位于区间[20,25),
则Y=6×300+2(n-300)-4n=1 200-2n;
若最高气温低于20,则Y=6×200+2(n-200)-4n=800-2n.
因此E(Y)=2n×0.4+(1 200-2n)×0.4+(800-2n)×0.2=640-0.4n.
当200≤n<300时,
若最高气温不低于20,则Y=6n-4n=2n;
若最高气温低于20,则Y=6×200+2(n-200)-4n=800-2n.
因此E(Y)=2n×(0.4+0.4)+(800-2n)×0.2=160+1.2n.
所以n=300时,Y的数学期望达到最大值,最大值为520元.
[类题通法]
求解离散型随机变量的期望与方差的解题模型
[对点训练]
(2018·广州模拟)计划在某水库建一座至多安装3台发电机的水电站,过去50年的水文资料显示,水库年入流量X(年入流量:一年内上游来水与库区降水之和,单位:亿立方米)都在40以上.其中,不足80的年份有10年,不低于80且不超过120的年份有35年,超过120的年份有5年.将年入流量在以上三段的频率作为相应段的概率,并假设各年的年入流量相互独立.
(1)求在未来4年中,至多1年的年入流量超过120的概率;
(2)水电站希望安装的发电机尽可能运行,但每年发电机最多可运行台数受年入流量X限制,并有如下关系:
年入流量X
40
X>120
发电机最多
可运行台数
1
2
3
若某台发电机运行,则该台发电机年利润为5 000万元;若某台发电机未运行,则该台发电机年亏损800万元,欲使水电站年总利润的均值达到最大,应安装发电机多少台?
解:(1)依题意P1=P(40
P3=P(X>120)==.
所以在未来4年中,至多有1年的年入流量超过120的概率:P=C(1-P3)4+C(1-P3)3P3=4+4×3×==0.947 7.
(2)记水电站年总利润为Y(单位:万元),
由于水库年入流量总大于40,所以至少安装1台.
①安装1台发电机的情形:由于水库年入流量总大于40,所以1台发电机运行的概率为1,对应的年利润Y=5 000,E(Y)=5 000×1=5 000.
②安装2台发电机的情形:当40
因此P(Y=10 000)=P(X≥80)=P2+P3=0.8.
所以Y的分布列如下:
Y
4 200
10 000
P
0.2
0.8
所以E(Y)=4 200×0.2+10 000×0.8=8 840.
③安装3台发电机的情形:
当40
此时P(Y=9 200)=P(80≤X≤120)=P2=0.7.
当X>120时,3台发电机运行,此时Y=5 000×3=15 000,
因此P(Y=15 000)=P(X>120)=P3=0.1.
所以Y的分布列如下:
Y
3 400
9 200
15 000
P
0.2
0.7
0.1
所以E(Y)=3 400×0.2+9 200×0.7+15 000×0.1=8 620.
综上,欲使水电站年总利润的均值达到最大,应安装2台发电机.
题型(二) 回归分析与概率、统计的交汇问题
主要考查统计图表的数据分析、线性回归方程的求解与应用.
[典例感悟]
[典例1] (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[审题定向]
(一)定知识
主要考查折线图、线性回归分析及其应用.
(二)定能力
1.考查数据分析:折线图中数据分布情况的影响.
2.考查数学运算:预测值的求解.
(三)定思路
第(1)问代入求值:
将变量的值分别代入求解即可;
第(2)问利用给出模型进行分析:
可以根据回归直线情况进行分析,也可以根据估计值进行分析.
[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,答出其中任意一种或其他合理理由均可得分)
[典例2] (2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=- .
[审题定向]
(一)定知识
主要考查折线图、回归模型的拟合关系的判定与回归方程求法及其应用.
(二)定能力
1.考查数据分析:对折线图中的数据、参考数据作出分析.
2.考查数学运算:相关系数的求解、回归方程的求解.
(三)定思路
第(1)问利用相关系数计算分析:
利用折线图中的数据和参考数据计算相关系数r后进行判断;
第(2)问利用最小二乘法求解:
利用公式求、得出回归方程,然后利用方程进行估计.
[解] (1)由折线图中的数据和附注中的参考数据得
=4,(ti-)2=28, =0.55,
(ti-)(yi-)=iyi-i
=40.17-4×9.32=2.89,
∴r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103.
=- ≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
[类题通法]
破解回归分析问题的关键
(1)会依据表格及公式=,=-求线性回归方程中的参数的值,注意不要代错公式;
(2)已知变量的某个值去预测相应预报变量时,只需把该值代入回归方程=x+中.
[对点训练]
(2018·成都模拟)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:
指标
1号
小白鼠
2号
小白鼠
3号
小白鼠
4号
小白鼠
5号
小白鼠
A
5
7
6
9
8
B
2
2
3
4
4
(1)若通过数据分析,得知A项指标数据与B项指标数据具有线性相关关系.试根据上表,求B项指标数据y关于A项指标数据x的线性回归方程=x+;
(2)现要从这5只小白鼠中随机抽取3只,求其中至少有一只的B项指标数据高于3的概率.
参考公式:=,=-.
解:(1)由题意,可得=7,=3,iyi=110,=255,==.∵=-,∴=-.∴所求线性回归方程为=x-.
(2) 设1号至5号小白鼠依次为a1,a2,a3,a4,a5,则在这5只小白鼠中随机抽取3只的抽取情况有a1a2a3,a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共10种.随机抽取的3只小白鼠中至少有一只的B项指标数据高于3的情况有a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共9种.∴从这5只小白鼠中随机抽取3只,其中至少有一只的B项指标数据高于3的概率为.
题型(三)
独立性检验与概率、统计的交汇问题
主要考查抽样方法、随机事件、古典概型、频率分布直方图或茎叶图的应用以及K2的计算与应用.
[典例感悟]
[典例1] (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
[审题定向]
(一)定知识
主要考查茎叶图及应用、中位数、2×2列联表、K2的值.
(二)定能力
1.考查数据分析:由茎叶图中的数据提取后进行分析;由K2的值进行分析.
2.考查数学运算:K2的求解.
(三)定思路
第(1)问观察、比较、判断:
观察茎叶图,通过比较中位数、平均数等统计数据作出结论;
第(2)问利用中位数定义,2×2列联表定义求解:
根据中位数的定义求中位数,并完成2×2列联表;
第(3)问计算K2的值:
计算出K2的值并与临界值表比较,进而得出结论.
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可得分)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)因为K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
[典例2] (2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
,
K2=.
[审题定向]
(一)定知识
主要考查用频率估计概率、独立性检验的应用、用样本估计总体.
(二)定能力
1.考查数据分析:由频率分布直方图中的数据、K2的值进行分析.
2.考查数学运算:频率的计算、K2的计算、中位数估计值.
(三)定思路
第(1)问利用频率估计概率:
根据新、旧养殖法的频率分布直方图,分别求出旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg的频率,利用频率估计概率,再利用相互独立事件的概率公式求解;
第(2)问计算K2的值:
根据频率分布直方图,得到2×2列联表,求得K2的值,然后与临界值比较求解;
第(3)问利用频率直方图求解:
根据新养殖法的箱产量频率分布直方图得到低于50 kg及低于55 kg的直方图面积,然后估算中位数.
[解] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(2)由(1)可得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
由表中数据及K2的计算公式得,
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为50+≈52.35(kg).
[类题通法]
解决独立性检验与概率综合问题的3步骤
(1)分析数据:根据条件中提供的数据准确分析数据.
(2)准确计算:对频率的计算或K2的计算确保计算准确.
(3)作出结论:用频率估计概率或根据K2的观测值与临界值进行对比时,注意问题的结论回答准确.
[对点训练]
(2019届高三·西安八校联考)某工厂有25周岁以上(含25周岁)的工人300名,25周岁以下的工人200名.为了研究工人的日平均生产件数是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],分别加以统计,得到如图所示的频率分布直方图.
(1)根据“25周岁以上(含25周岁)组”的频率分布直方图,求25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值(四舍五入保留整数);
(2)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(3)规定日平均生产件数不少于80的工人为生产能手,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
生产能手
非生产能手
合计
25周岁以上
(含25周岁)组
25周岁以下组
合计
附:K2=,
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
解:采用分层抽样,“25周岁以上(含25周岁)组”应抽取工人100×=60(名),“25周岁以下组”应抽取工人100×=40(名).
(1)由“25周岁以上(含25周岁)组”的频率分布直方图可知,其中位数为70+10×=70+≈73(件).综上,25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值为73.
(2)由频率分布直方图可知,样本中日平均生产件数不足60件的工人中,25周岁以上(含25周岁)的工人共有60×0.005×10=3(名),设其分别为m1,m2,m3;25周岁以下的工人共有40×0.005×10=2(名),设其分别为n1,n2,则所有基本事件为(m1,m2),(m1,m3),(m1,n1),(m1,n2),(m2,m3),(m2,n1),(m2,n2),(m3,n1),(m3,n2),(n1,n2),共10个.记“至少抽到一名‘25周岁以下组’的工人”为事件A,事件A包含的基本事件共7个.故P(A)=.
(3)由频率分布直方图可知,25周岁以上(含25周岁)的生产能手共有60×[(0.02+0.005)×10]=15(名),25周岁以下的生产能手共有40×[(0.032 5+0.005)×10]=15(名),则2×2列联表如下.
生产能手
非生产能手
合计
25周岁以上
(含25周岁)组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
K2==≈1.786<2.706.
综上,没有90%的把握认为“生产能手与工人所在的年龄组有关”.
题型(四) 正态分布
主要通过正态分布、二项分布的概念和性质,概率的计算以及数学期望的求法来考查综合应用能力.
[典例感悟]
[典例] (2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布N(μ,σ2).
(1)假设生产状态正常,记X表示一天内抽取的16个零件中其尺寸在(μ-3σ,μ+3σ)之外的零件数,求P(X≥1)及X的数学期望;
(2)一天内抽检零件中,如果出现了尺寸在(μ-3σ,μ+3σ)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①试说明上述监控生产过程方法的合理性;
②下面是检验员在一天内抽取的16个零件的尺寸:
9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得=i=9.97,s==≈0.212,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
用样本平均数作为μ的估计值,用样本标准差s作为σ的估计值,利用估计值判断是否需对当天的生产过程进行检查?剔除(-3,+3)之外的数据,用剩下的数据估计μ和σ(精确到0.01).
附:若随机变量Z服从正态分布N(μ,σ2),则P(μ-3σ
(一)定知识
主要考查正态分布、二项分布、数学期望、3σ原则.
(二)定能力
1.考查数据分析:由给出的数据进行分析,判断合理性;由零件尺寸的数据分析判断是否需检查.
2.考查数学运算:概率、期望的计算;平均数、估计值、样本方差的计算求解.
(三)定思路
第(1)问利用正态分布、二项分布性质可求:
先由对立事件的概率公式求出P(X≥1)的值,再利用数学期望的公式求解;
第(2)问利用3σ原则分析:
利用独立性检验的思想判断监控生产过程方法的合理性;确定-3,+3的取值,以剔除(-3,+3)之外的数据,再用剩下的数据估计μ和σ.
[解] (1)抽取的一个零件的尺寸在(μ-3σ,μ+3σ)之内的概率为0.997 4,从而零件的尺寸在(μ-3σ,μ+3σ)之外的概率为0.002 6,故X~B(16,0.002 6).因此P(X≥1)=1-P(X=0)=1-0.997 416≈0.040 8.
X的数学期望为EX=16×0.002 6=0.041 6.
(2)①如果生产状态正常,一个零件尺寸在(μ-3σ,μ+3σ)之外的概率只有0.002 6,一天内抽取的16个零件中,出现尺寸在(μ-3σ,μ+3σ)之外的零件的概率只有0.040 8,发生的概率很小.因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.
②由=9.97,s≈0.212,得μ的估计值为=9.97,σ的估计值为=0.212,由样本数据可以看出有一个零件的尺寸在(-3,+3)之外,因此需对当天的生产过程进行检查.
剔除(-3,+3)之外的数据9.22,剩下数据的平均数为(16×9.97-9.22)=10.02,
因此μ的估计值为10.02.
=16×0.2122+16×9.972≈1 591.134,
剔除(-3,+3)之外的数据9.22,剩下数据的样本方差为(1 591.134-9.222-15×10.022)≈0.008,
因此σ的估计值为≈0.09.
[类题通法]
解决正态分布问题有3个关键点
(1)对称轴x=μ;
(2)标准差σ;
(3)分布区间.利用对称性求指定范围内的概率值;由μ,σ分布区间的特征进行转化,使分布区间转化为3σ特殊区间,从而求出所求概率.
[对点训练]
(2018·福建福州质检)从某技术公司开发的某种产品中随机抽取200件,测量这些产品的一项质量指标值(记为Z),由测量结果得如下频率分布直方图:
(1)公司规定:当Z≥95时,产品为正品;当Z<95时,产品为次品.公司每生产一件这种产品,若是正品,则盈利90元;若是次品,则亏损30元.记ξ为生产一件这种产品的利润,求随机变量ξ的分布列和数学期望;
(2)由频率分布直方图可以认为,Z服从正态分布N(μ,σ2),其中μ近似为样本平均数,σ2近似为样本方差s2(同一组中的数据用该区间的中点值作代表).
①利用该正态分布,求P(87.8
附:≈12.2,若Z~N(μ,σ2),则P(μ-σ
所以随机变量ξ的分布列为
ξ
90
-30
P
0.67
0.33
所以E(ξ)=90×0.67+(-30)×0.33=50.4.
(2)由频率分布直方图知,抽取产品的该项质量指标值的样本平均数和样本方差s2分别为
=70×0.02+80×0.09+90×0.22+100×0.33+110×0.24+120×0.08+130×0.02=100,
s2=(-30)2×0.02+(-20)2×0.09+(-10)2×0.22+02×0.33+102×0.24+202×0.08+302×0.02=150.
①因为Z~N(100,150),
从而P(87.8
所以E(X)=500×0.682 7=341.35.
概率问题重在“辨”——辨析、辨型
[循流程思维——入题快]
概率问题的求解关键是辨别它的概率模型,只要找到模型,问题便迎刃而解.而概率模型的提取往往需要经过观察、分析、归纳、判断等复杂的辨析思维过程,常常因题设条件理解不准,某个概念认识不清而误入歧途.另外,还需弄清楚概率模型中等可能事件、互斥事件、对立事件、独立事件等事件间的关系,注意放回和不放回试验的区别,合理划分复合事件.
[按流程解题——快又准]
[典例] (2016·全国卷Ⅱ)某险种的基本保费为a(单位:元),继续购买该险种的投保人称为续保人,续保人本年度的保费与其上年度出险次数的关联如下:
上年度出险次数
0
1
2
3
4
≥5
保费
0.85a
a
1.25a
1.5a
1.75a
2a
设该险种一续保人一年内出险次数与相应概率如下:
一年内出险次数
0
1
2
3
4
≥5
概率
0.30
0.15
0.20
0.20
0.10
0.05
(1)求一续保人本年度的保费高于基本保费的概率;
(2)若一续保人本年度的保费高于基本保费,求其保费比基本保费高出60%的概率;
(3)求续保人本年度的平均保费与基本保费的比值.
[解题示范]
(1)设A表示事件“一续保人本年度的保费高于基本保费”,
则事件A发生当且仅当一年内出险次数大于1,故P(A)=1-(0.30+0.15)=0.55.❶
(2)设B表示事件“一续保人本年度的保费比基本保费高出60%”,
则事件B发生当且仅当一年内出险次数大于3,故P(B)=0.10+0.05=0.15.❷
又P(AB)=P(B),故P(B|A)====.❸
因此所求概率为.
❶辨析:利用对立事件的概率求P(A).
(3)记续保人本年度的保费为X,则X的分布列为
X
0.85a
a
1.25a
1.5a
1.75a
2a
P
0.30
0.15
0.20
0.20
0.10
0.05
E(X)=0.85a×0.30+a×0.15+1.25a×0.20+1.5a×0.20+1.75a×0.10+2a×0.05=1.23a.
因此续保人本年度的平均保费与基本保费的比值为1.23.
[思维升华] 该部分往往与实际问题相结合,要注意理解实际问题的意义,使之和相应的概率计算对应起来,只有这样才能有效地解决问题.
[应用体验]
(2018·唐山模拟)某篮球队在赛季已结束的8场比赛中,队员甲得分统计的茎叶图如图.
(1)根据这8场比赛,估计甲每场比赛中得分的均值μ和标准差σ;
(2)假设甲在每场比赛的得分服从正态分布N(μ,σ2),且各场比赛间相互没有影响,依次估计甲在82场比赛中得分在26分以上的平均场数.
参考数据:
≈5.66,≈5.68,≈5.70.
正态总体N(μ,σ2)在区间(μ-2σ,μ+2σ)内取值的概率约为0.954.
解:(1)μ=(7+8+10+15+17+19+21+23)=15,
σ2=[(-8)2+(-7)2+(-5)2+02+22+42+62+82]=32.25.
所以σ≈5.68.
所以估计甲每场比赛中得分的均值μ为15,标准差σ为5.68.
(2)由(1)得甲在每场比赛中得分在26分以上的概率
P(X≥26)≈[1-P(μ-2σ
Y的均值E(Y)=82×0.023=1.886.
由此估计甲在82场比赛中得分在26分以上的平均场数为1.886.
A卷——大题保分练
1.(2018·洛阳模拟)甲、乙两家外卖公司,其送餐员的日工资方案如下:甲公司,底薪80元,每单送餐员抽成4元;乙公司,无底薪,40单以内(含40单)的部分送餐员每单抽成6元,超出40单的部分送餐员每单抽成7元.假设同一公司的送餐员一天的送餐单数相同,现从这两家公司各随机选取一名送餐员,并分别记录其50天的送餐单数,得到如下频数表:
甲公司送餐员送餐单数频数表
送餐单数
38
39
40
41
42
天数
10
15
10
10
5
乙公司送餐员送餐单数频数表
送餐单数
38
39
40
41
42
天数
5
10
10
20
5
(1)现从记录甲公司的50天送餐单数中随机抽取3天的送餐单数,求这3天送餐单数都不小于40的概率;
(2)若将频率视为概率,回答下列两个问题:
①记乙公司送餐员日工资为X(单位:元),求X的分布列和数学期望E(X);
②小王打算到甲、乙两家公司中的一家应聘送餐员,如果仅从日工资的角度考虑,请利用所学的统计学知识为小王作出选择,并说明理由.
解:(1)记抽取的3天送餐单数都不小于40为事件M,
则P(M)==.
(2)①设乙公司送餐员的送餐单数为a,
当a=38时,X=38×6=228,
当a=39时,X=39×6=234,
当a=40时,X=40×6=240,
当a=41时,X=40×6+1×7=247,
当a=42时,X=40×6+2×7=254.
所以X的所有可能取值为228,234,240,247,254.
故X的分布列为
X
228
234
240
247
254
P
所以E(X)=228×+234×+240×+247×+254×=241.8.
②依题意,甲公司送餐员的日平均送餐单数为38×0.2+39×0.3+40×0.2+41×0.2+42×0.1=39.7,
所以甲公司送餐员的日平均工资为80+4×39.7=238.8元.
由①得乙公司送餐员的日平均工资为241.8元.
因为238.8<241.8,所以推荐小王去乙公司应聘.
2.(2018·河北五校联考)通过随机询问100名性别不同的大学生是否爱好某项运动,得到如下2×2列联表:
男
女
总计
爱好
40
不爱好
25
总计
45
100
(1)将题中的2×2列联表补充完整;
(2)能否有99%的把握认为是否爱好该项运动与性别有关?请说明理由;
(3)如果按性别进行分层抽样,从以上爱好该项运动的大学生中抽取6人组建“运动达人社”,现从“运动达人社”中选派3人参加某项校际挑战赛,记选出3人中的女大学生人数为X,求X的分布列和数学期望.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
解:(1)题中的2×2列联表补充如下:
男
女
总计
爱好
40
20
60
不爱好
15
25
40
总计
55
45
100
(2)K2=≈8.25>6.635,
所以有99%的把握认为是否爱好该项运动与性别有关.
(3)由题意,抽取6人中包括男生4名,女生2名,X的取值为0,1,2,
则P(X=0)==,
P(X=1)==,
P(X=2)==,
故X的分布列为
X
0
1
2
P
E(X)=0×+1×+2×=1.
3.(2019届高三·山西八校联考)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万元)的数据如下:
年份
2012
2013
2014
2015
2016
2017
2018
广告费
支出x
1
2
4
6
11
13
19
销售量y
1.9
3.2
4.0
4.4
5.2
5.3
5.4
(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;
(2)若用y=c+d模型拟合y与x的关系,可得回归方程=1.63+0.99,经计算线性回归模型和该模型的R2分别约为0.75和0.88,请用R2说明选择哪个回归模型更好;
(3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果回答下列问题:
①广告费x=20时,销售量及利润的预报值是多少?
②广告费x为何值时,利润的预报值最大?(精确到0.01)
参考公式:回归直线=+x的斜率和截距的最小二乘估计分别为
=,=-.
参考数据:≈2.24.
解:(1)∵=8,=4.2,iyi=279.4,=708,
∴===0.17,=-=4.2-0.17×8=2.84,
∴y关于x的线性回归方程为=0.17x+2.84.
(2)∵0.75<0.88且R2越大,反映残差平方和越小,模型的拟合效果越好,
∴选用=1.63+0.99更好.
(3)由(2)知,
①当x=20时,销售量的预报值=1.63+0.99≈6.07(万台),
利润的预报值z=200×6.07-20≈1 194(万元).
②z=200(1.63+0.99)-x=-x+198+326=-()2+198+326=-(-99)2+10 127,
∴当=99,即x=9 801时,利润的预报值最大,
故广告费为9 801万元时,利润的预报值最大.
4.第四届世界互联网大会在浙江乌镇隆重召开,人工智能技术深受全世界人民的关注,不同年龄段的人群关注人工智能技术应用与发展的侧重点有明显的不同,某中等发达城市的市场咨询与投资民调机构在该市对市民关注人工智能技术应用与发展的侧重方向进行调查,随机抽取1 000名市民,将他们的年龄分成6段:[20,30),[30,40),[40,50),[50,60),[60,70),[70,80],并绘制了如图所示的频率分布直方图.
(1)求这1 000名市民年龄的平均数和中位数(同一组中的数据用该组区间的中点值作代表);
(2)调查发现年龄在[20,40)的市民侧重关注人工智能技术在学习与工作方面的应用与发展,其中关注智能办公的共有100人,将样本的频率视为总体的频率,从该市年龄在[20,40)的市民中随机抽取300人,请估计这300人中关注智能办公的人数;
(3)用样本的频率代替概率,现从该市随机抽取20名市民调查关注人工智能技术在养老服务方面的应用与发展的情况,其中有k名市民的年龄在[60,80]的概率为P(X=k),其中k=0,1,2,…,20,当P(X=k)最大时,求k的值.
解:(1)由频率分布直方图可知,抽取的1 000名市民年龄的平均数=25×0.05+35×0.1+45×0.2+55×0.3+65×0.25+75×0.1=54(岁).
设1 000名市民年龄的中位数为x,则0.05+0.1+0.2+0.03×(x-50)=0.5,
解得x=55,
所以这1 000名市民年龄的平均数为54,中位数为55.
(2)由频率分布直方图可知,这1 000名市民中年龄在[20,40)的市民共有(0.05+0.10)×1 000=150人,所以关注智能办公的频率为=,
则从该市年龄在[20,40)的市民中随机抽取300人,这300人中关注智能办公的人数为300×=200.
故估计这300人中关注智能办公的人数为200.
(3)设在抽取的20名市民中,年龄在[60,80]的人数为X,X服从二项分布,
由频率分布直方图可知,年龄在[60,80]的频率为(0.025+0.010)×10=0.35,
所以X~B(20,0.35),所以P(X=k)=C0.35k(1-0.35)20-k,k=0,1,2,…,20.
设t===,k=1,2,…,20.
若t>1,则k<7.35,P(X=k-1) 若t<1,则k>7.35,P(X=k-1)>P(X=k).
所以当k=7时,P(X=k)最大,
即当P(X=k)最大时,k的值为7.
B卷——深化提能练
1.(2019届高三·福州四校联考)某知名品牌汽车深受消费者喜爱,但价格昂贵.某汽车经销商推出A,B,C三种分期付款方式销售该品牌汽车,并对近期100位采用上述分期付款方式付款的客户进行统计分析,得到柱状图如图所示.已知从A,B,C三种分期付款销售中,该经销商每销售此品牌汽车1辆所获得的利润分别是1万元、2万元、3万元.现甲、乙两人从该汽车经销商处,采用上述分期付款方式各购买此品牌汽车一辆.以这100位客户所采用的分期付款方式的频率估计1位客户采用相应分期付款方式的概率.
(1)求甲、乙两人采用不同分期付款方式的概率;
(2)记X(单位:万元)为该汽车经销商从甲、乙两人购车中所获得的利润,求X的分布列与期望.
解:(1)设“采用A种分期付款方式购车”为事件A,“采用B种分期付款方式购车”为事件B,“采用C种分期付款方式购车”为事件C,由柱状图得,
P(A)==0.35,P(B)==0.45,P(C)==0.2,
∴甲、乙两人采用不同分期付款方式的概率P=1-(P(A)·P(A)+P(B)·P(B)+P(C)·P(C))=0.635.
(2)由题意知,X的所有可能取值为2,3,4,5,6,
P(X=2)=P(A)P(A)=0.35×0.35=0.122 5,
P(X=3)=P(A)P(B)+P(B)P(A)=0.35×0.45+0.45×0.35=0.315,
P(X=4)=P(A)P(C)+P(B)P(B)+P(C)P(A)=0.35×0.2+0.45×0.45+0.2×0.35=0.342 5,
P(X=5)=P(B)P(C)+P(C)P(B)=0.45×0.2+0.2×0.45=0.18,
P(X=6)=P(C)P(C)=0.2×0.2=0.04.
∴X的分布列为
X
2
3
4
5
6
P
0.122 5
0.315
0.342 5
0.18
0.04
E(X)=0.122 5×2+0.315×3+0.342 5×4+0.18×5+0.04×6=3.7.
2.(2019届高三·湘东五校联考)已知具有相关关系的两个变量x,y的几组数据如下表所示:
x
2
4
6
8
10
y
3
6
7
10
12
(1)请根据上表数据在网格纸中绘制散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+,并估计当x=20时y的值;
(3)将表格中的数据看作5个点的坐标,则从这5个点中随机抽取3个点,记落在直线2x-y-4=0右下方的点的个数为ξ,求ξ的分布列以及期望.
参考公式:
=,=-.
解:(1)散点图如图所示:
(2)依题意,=×(2+4+6+8+10)=6,=×(3+6+7+10+12)=7.6,
=4+16+36+64+100=220,iyi=6+24+42+80+120=272,
====1.1,
∴=7.6-1.1×6=1,
∴线性回归方程为=1.1x+1,故当x=20时,y=23.
(3)可以判断,落在直线2x-y-4=0右下方的点满足2x-y-4>0,
故符合条件的点的坐标为(6,7),(8,10),(10,12),故ξ的所有可能取值为1,2,3,
P(ξ=1)==,P(ξ=2)===,P(ξ=3)==,
故ξ的分布列为
ξ
1
2
3
P
故E(ξ)=1×+2×+3×==.
3.(2018·辽宁五校联考)某校高三年级有500名学生,一次考试的英语成绩服从正态分布N(100,17.52),数学成绩的频率分布直方图如下:
(1)如果成绩高于135分的为特别优秀,则本次考试英语、数学成绩特别优秀的学生大约各多少人?
(2)试问本次考试英语和数学的平均成绩哪个较高,并说明理由;
(3)如果英语和数学两科成绩都特别优秀的共有6人,从(1)中的这些学生中随机抽取3人,设3人中两科成绩都特别优秀的有ξ人,求ξ的分布列和数学期望.
参考公式及数据:
若X~N(μ,σ2),则P(μ-σ
所以英语成绩特别优秀的概率P1=P(X≥135)=(1-0.96)×=0.02,
由频率估计概率,得数学成绩特别优秀的概率P2=0.001 6×20×=0.024,
所以英语成绩特别优秀的学生大约有500×0.02=10(人),
数学成绩特别优秀的学生大约有500×0.024=12(人).
(2)本次考试英语的平均成绩为100分,
数学的平均成绩为60×0.16+80×0.168+100×0.48+120×0.16+140×0.032=94.72(分),
因为94.72<100,所以本次考试英语的平均成绩较高.
(3)英语和数学成绩都特别优秀的有6人,则单科成绩特别优秀的有10人,ξ可取的值有0,1,2,3,
所以P(ξ=0)==,P(ξ=1)==,
P(ξ=2)==,P(ξ=3)==,
故ξ的分布列为
ξ
0
1
2
3
P
E(ξ)=0×+1×+2×+3×=.
4.
在中国,不仅是购物,而且从共享单车到医院挂号再到公共缴费,日常生活中几乎全部领域都支持手机下单和支付.出门不带现金的人数正在迅速增加.中国人民大学和法国调查公司益普索(Ipsos)合作,调查了腾讯服务的6 000名用户,从中随机抽取了60名,统计他们出门随身携带的现金(单位:元)如茎叶图所示,规定:随身携带的现金在100元以下的为“淡定族”,其他为“非淡定族”.
(1)根据上述样本数据,列出2×2列联表,判断是否有75%的把握认为“淡定族”与“性别”有关?
(2)用样本估计总体,若从腾讯服务的用户中随机抽取3人,设这3人中“淡定族”的人数为随机变量ξ,求随机变量ξ的概率分布列及数学期望.
参考公式:K2=,其中n=a+b+c+d.
参考数据:
P(K2≥k0)
0.25
0.15
0.10
0.05
k0
1.323
2.072
2.706
3.841
解:(1)依题意可得2×2列联表如下:
淡定族
非淡定族
总计
男
10
30
40
女
8
12
20
总计
18
42
60
K2=≈1.429>1.323,
故有75%的把握认为“淡定族”与“性别”有关.
(2)用样本估计总体,用户中为“淡定族”的概率为=,
ξ的可能取值为0,1,2,3,由题意,得到ξ~B,
P(ξ=k)=Ck3-k,k=0,1,2,3,
随机变量ξ的分布列为
ξ
0
1
2
3
P
故随机变量ξ的数学期望E(ξ)=0×+1×+2×+3×==.
相关资料
更多