所属成套资源:(人教版)2020高考理科数学一轮复习讲义
2020版高考理科数学(人教版)一轮复习讲义:第十章第八节离散型随机变量的均值与方差、正态分布
展开
第八节离散型随机变量的均值与方差、正态分布
1.均值
一般地,若离散型随机变量X的分布列为:
X
x1
x2
…
xi
…
xn
P
p1
p2
…
pi
…
pn
则称E(X)=x1p1+x2p2+…+xipi+…+xnpn为随机变量X的均值或数学期望.它反映了离散型随机变量取值的平均水平.
(1)期望是算术平均值概念的推广,是概率意义下的平均.,(2)E(X)是一个实数,由X的分布列唯一确定,即作为随机变量,X是可变的,可取不同值,而E(X)是不变的,它描述X取值的平均状态.,(3)E(X)=x1p1+x2p2+…+xnpn直接给出了E(X)的求法,即随机变量取值与相应概率分别相乘后相加.
2.方差
设离散型随机变量X的分布列为:
X
x1
x2
…
xi
…
xn
P
p1
p2
…
pi
…
pn
则(xi-E(X))2描述了xi(i=1,2,…,n)相对于均值E(X)的偏离程度.而D(X)=(xi-E(X))2pi为这些偏离程度的加权平均,刻画了随机变量X与其均值E(X)的平均偏离程度.称D(X)为随机变量X的方差,并称其算术平方根为随机变量X的标准差.
(1)随机变量的方差与标准差都反映了随机变量取值的稳定与波动、集中与离散的程度.D(X)越大,表明平均偏离程度越大,X的取值越分散.反之,D(X)越小,X的取值越集中在E(X)附近.,(2)方差也是一个常数,它不具有随机性,方差的值一定是非负.
3.两个特殊分布的期望与方差
分布
期望
方差
两点分布
E(X)=p
D(X)=p(1-p)
二项分布
E(X)=np
D(X)=np(1-p)
4.正态分布
(1)正态曲线的特点
①曲线位于x轴上方,与x轴不相交;
②曲线是单峰的,它关于直线x=μ对称;
③曲线在x=μ处达到峰值;
④曲线与x轴之间的面积为1;
⑤当σ一定时,曲线的位置由μ确定,曲线随着μ的变化而沿x轴平移;
⑥当μ一定时,曲线的形状由σ确定,σ越小,曲线越“瘦高”,表示总体的分布越集中;σ越大,曲线越“矮胖”,表示总体的分布越分散.
(2)正态分布的三个常用数据
①P(μ-σ<X≤μ+σ)≈0.682 6;
②P(μ-2σ<X≤μ+2σ)≈0.954 4;
③P(μ-3σ<X≤μ+3σ)≈0.997 4.
[熟记常用结论]
若Y=aX+b,其中a,b是常数,X是随机变量,则
(1)E(k)=k,D(k)=0,其中k为常数;
(2)E(aX+b)=aE(X)+b,D(aX+b)=a2D(X);
(3)E(X1+X2)=E(X1)+E(X2);
(4)D(X)=E(X2)-(E(X))2;
(5)若X1,X2相互独立,则E(X1·X2)=E(X1)·E(X2).
(6)若X~N(μ,σ2),则X的均值与方差分别为:E(X)=μ,D(X)=σ2.
[小题查验基础]
一、判断题(对的打“√”,错的打“×”)
(1)随机变量的均值是常数,样本的均值是随机变量.( )
(2)随机变量的方差和标准差都反映了随机变量取值偏离均值的平均程度,方差或标准差越小,则偏离均值的平均程度越小.( )
(3)均值与方差都是从整体上刻画离散型随机变量的情况,因此它们是一回事.( )
答案:(1)√ (2)√ (3)×
二、选填题
1.已知X的分布列为:
X
-1
0
1
P
设Y=2X+3,则E(Y)的值为( )
A. B.4
C.-1 D.1
解析:选A ∵E(X)=-+=-,
∴E(Y)=E(2X+3)=2E(X)+3=-+3=.
2.已知ξ~B,并且η=2ξ+3,则方差D(η)=( )
A. B.
C. D.
解析:选A 由题意知,D(ξ)=4××=,
∵η=2ξ+3,∴D(η)=4·D(ξ)=4×=.
3.设随机变量X服从正态分布N(0,1),若P(X>1)=p,则P(-1<X<0)=( )
A.+p B.1-p
C.1-2p D.-p
解析:选D 因为随机变量X服从正态分布N(0,1),所以正态分布曲线关于直线x=0对称,
所以P(X>0)=P(X<0)=,P(X>1)=P(X<-1)=p,
所以P(-1<X<0)=P(X<0)-P(X<-1)=-p.
4.有一批产品,其中有12件正品和4件次品,从中有放回地任取3件,若X表示取到次品的次数,则D(X)=________.
解析:∵X~B,∴D(X)=3××=.
答案:
5.一个正四面体ABCD的四个顶点上分别标有1分,2分,3分和4分,往地面抛掷一次记不在地面上的顶点的分数为X,则X的均值为________.
解析:X的分布列为:
X
1
2
3
4
P
∴E(X)=1×+2×+3×+4×=.
答案:
[典例精析]
为迎接2022年北京冬奥会,推广滑雪运动,某滑雪场开展滑雪促销活动.该滑雪场的收费标准是:滑雪时间不超过1小时免费,超过1小时的部分每小时收费标准为40元(不足1小时的部分按1小时计算).有甲、乙两人相互独立地来该滑雪场运动,设甲、乙不超过1小时离开的概率分别为,;1小时以上且不超过2小时离开的概率分别为,;两人滑雪时间都不会超过3小时.
(1)求甲、乙两人所付滑雪费用相同的概率;
(2)设甲、乙两人所付的滑雪费用之和为随机变量ξ(单位:元),求ξ的分布列与数学期望E(ξ),方差D(ξ).
[解] (1)两人所付费用相同,相同的费用可能为0,40,80元,
两人都付0元的概率为P1=×=,
两人都付40元的概率为P2=×=,
两人都付80元的概率为
P3=×=×=,
故两人所付费用相同的概率为P=P1+P2+P3=++=.
(2)由题设甲、乙所付费用之和为ξ,ξ可能取值为0,40,80,120,160,则:
P(ξ=0)=×=,
P(ξ=40)=×+×=,
P(ξ=80)=×+×+×=,
P(ξ=120)=×+×=,
P(ξ=160)=×=.
ξ的分布列为:
ξ
0
40
80
120
160
P
E(ξ)=0×+40×+80×+120×+160×=80.
D(ξ)=(0-80)2×+(40-80)2×+(80-80)2×+(120-80)2×+(160-80)2×=.
[解题技法]
求离散型随机变量ξ的均值与方差的步骤
(1)理解ξ的意义,写出ξ可能的全部值.
(2)求ξ取每个值的概率.
(3)写出ξ的分布列.
(4)由均值的定义求E(ξ).
(5)由方差的定义求D(ξ).
[过关训练]
1.随机变量X的可能取值为0,1,2,若P(X=0)=,E(X)=1,则D(X)=( )
A. B.
C. D.
解析:选B 设P(X=1)=p,P(X=2)=q,
由题意得解得p=,q=,
∴D(X)=(0-1)2+(1-1)2+(2-1)2=.
2.随着网络营销和电子商务的兴起,人们的购物方式更具多样化.某调查机构随机抽取10名购物者进行采访,5名男性购物者中有3名倾向于选择网购,2名倾向于选择实体店,5名女性购物者中有2名倾向于选择网购,3名倾向于选择实体店.
(1)若从10名购物者中随机抽取2名,其中男、女各一名,求至少1名倾向于选择实体店的概率;
(2)若从这10名购物者中随机抽取3名,设X表示抽到倾向于选择网购的男性购物者的人数,求X的分布列和数学期望.
解:(1)设“随机抽取2名,其中男、女各一名,至少1名倾向于选择实体店”为事件A,则表示事件“随机抽取2名,其中男、女各一名,都倾向于选择网购”,
则P(A)=1-P()=1-=.
(2)X所有可能的取值为0,1,2,3,
且P(X=k)=,
则P(X=0)=,P(X=1)=,P(X=2)=,
P(X=3)=.
所以X的分布列为:
X
0
1
2
3
P
E(X)=0×+1×+2×+3×=.
[典例精析]
(2019·成都检测)某部门为了解一企业在生产过程中的用水量情况,对其每天的用水量做了记录,得到了大量该企业的日用水量的统计数据,从这些统计数据中随机抽取12天的数据作为样本,得到如图所示的茎叶图(单位:吨).若用水量不低于95吨,则称这一天的用水量超标.
(1)从这12天的数据中随机抽取3个,求至多有1天的用水量超标的概率;
(2)以这12天的样本数据中用水量超标的频率作为概率,估计该企业未来3天中用水量超标的天数,记随机变量X为未来这3天中用水量超标的天数,求X的分布列、数学期望和方差.
[解] (1)记“从这12天的数据中随机抽取3个,至多有1天的用水量超标”为事件A,
则P(A)=+==.
(2)以这12天的样本数据中用水量超标的频率作为概率,易知用水量超标的概率为.
X的所有可能取值为0,1,2,3,
易知X~B,P(X=k)=Ck3-k,k=0,1,2,3,
则P(X=0)=,P(X=1)=,P(X=2)=,P(X=3)=.
∴随机变量X的分布列为:
X
0
1
2
3
P
数学期望E(X)=3×=1,
方差D(X)=3××=.
[解题技法]
二项分布的期望与方差
(1)如果ξ ~B(n,p),则用公式E(ξ)=np,D(ξ)=np(1-p)求解,可大大减少计算量.
(2)有些随机变量虽不服从二项分布,但与之具有线性关系的另一随机变量服从二项分布,这时,可以综合应用E(aξ+b)=aE(ξ)+b以及E(ξ)=np求出E(aξ+b),同样还可求出D(aξ+b).
[过关训练]
1.设X为随机变量,且X~B(n,p),若随机变量X的数学期望E(X)=4,D(X)=,则P(X=2)=________.(结果用分数表示)
解析:∵X为随机变量,且X~B(n,p),∴E(X)=np=4,D(X)=np(1-p)=,解得n=6,p=,∴P(X=2)=C×2×4=.
答案:
2.(2019·西安模拟)一个盒子中装有大量形状、大小一样但重量不尽相同的小球,从中随机抽取50个作为样本,称出它们的重量(单位:克),重量分组区间为[5,15],(15,25],(25,35],(35,45],由此得到样本的重量频率分布直方图(如图).
(1)求a的值,并根据样本数据,试估计盒子中小球重量的众数与平均值;
(2)从盒子中随机抽取3个小球,其中重量在[5,15]内的小球个数为X,求X的分布列和数学期望(以直方图中的频率作为概率).
解:(1)由题意,得(0.02+0.032+a+0.018)×10=1,
解得a=0.03.
由频率分布直方图可估计盒子中小球重量的众数为20克,
而50个样本中小球重量的平均值=0.2×10+0.32×20+0.3×30+0.18×40=24.6(克).
故由样本估计总体,可估计盒子中小球重量的平均值为24.6克.
(2)该盒子中小球重量在[5,15]内的概率为,
则X~B.X的可能取值为0,1,2,3,
则P(X=0)=C0×3=,
P(X=1)=C×2=,
P(X=2)=C2×=,
P(X=3)=C3×0=.
∴X的分布列为:
X
0
1
2
3
P
∴E(X)=0×+1×+2×+3×=
[典例精析]
(2018·全国卷Ⅰ)某工厂的某种产品成箱包装,每箱200件,每一箱产品在交付用户之前要对产品作检验,如检验出不合格品,则更换为合格品.检验时,先从这箱产品中任取20件作检验,再根据检验结果决定是否对余下的所有产品作检验.设每件产品为不合格品的概率都为p(0<p<1),且各件产品是否为不合格品相互独立.
(1)记20件产品中恰有2件不合格品的概率为f(p),求f(p)的最大值点p0.
(2)现对一箱产品检验了20件,结果恰有2件不合格品,以(1)中确定的p0作为p的值.已知每件产品的检验费用为2元,若有不合格品进入用户手中,则工厂要对每件不合格品支付25元的赔偿费用.
①若不对该箱余下的产品作检验,这一箱产品的检验费用与赔偿费用的和记为X,求EX;
②以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验?
[解] (1)因为20件产品中恰有2件不合格品的概率为
f(p)=Cp2·(1-p)18,
所以f′(p)=C[2p(1-p)18-18p2(1-p)17]
=2Cp(1-p)17(1-10p).
令f′(p)=0,得p=0.1.
当p∈(0,0.1)时,f′(p)>0;
当p∈(0.1,1)时,f′(p)<0.
所以f(p)的最大值点为p0=0.1.
(2)由(1)知,p=0.1.
①令Y表示余下的180件产品中的不合格品件数,依题意知Y~B(180,0.1),X=20×2+25Y,即X=40+25Y.所以EX=E(40+25Y)=40+25EY=490.
②若对余下的产品作检验,则这一箱产品所需要的检验费用为400元.由于EX>400,故应该对余下的产品作检验.
[解题技法]
离散型随机变量的期望和方差应用问题的解题策略
(1)求离散型随机变量的期望与方差关键是确定随机变量的所有可能值,写出随机变量的分布列,正确运用期望、方差公式进行计算.
(2)要注意观察随机变量的概率分布特征,若属于二项分布,可用二项分布的期望与方差公式计算,则更为简单.
(3)在实际问题中,若两个随机变量ξ1,ξ2,有E(ξ1)=E(ξ2)或E(ξ1)与E(ξ2)较为接近时,就需要用D(ξ1)与D(ξ2)来比较两个随机变量的稳定程度.即一般地将期望最大(或最小)的方案作为最优方案,若各方案的期望相同,则选择方差最小(或最大)的方案作为最优方案.
[过关训练]
某投资公司在2019年年初准备将1 000万元投资到“低碳”项目上,现有两个项目供选择:
项目一:新能源汽车.据市场调研,投资到该项目上,到年底可能获利30%,也可能亏损15%,且这两种情况发生的概率分别为和;
项目二:通信设备.据市场调研,投资到该项目上,到年底可能获利50%,可能损失30%,也可能不赔不赚,且这三种情况发生的概率分别为,和.
针对以上两个投资项目,请你为投资公司选择一个合理的项目,并说明理由.
解:若按“项目一”投资,设获利为X1万元,则X1的分布列为:
X1
300
-150
P
∴E(X1)=300×+(-150)×=200,
D(X1)=(300-200)2×+(-150-200)2×=35 000.
若按“项目二”投资,设获利为X2万元,则X2的分布列为:
X2
500
0
-300
P
∴E(X2)=500×+0×+(-300)×=200,
D(X2)=(500-200)2×+(-300-200)2×+(0-200)2×=140 000.
∴E(X1)=E(X2),D(X1)<D(X2),
这说明虽然项目一、项目二获利相等,但项目一更稳妥.
综上所述,建议该投资公司选择项目一投资.
[典例精析]
(1)设X~N(μ1,σ),Y~N(μ2,σ),这两个正态分布密度曲线如图所示.下列结论中正确的是( )
A.P(Y≥μ2)≥P(Y≥μ1)
B.P(X≤σ2)≤P(X≤σ1)
C.对任意正数t,P(X≤t)≥P(Y≤t)
D.对任意正数t,P(X≥t)≥P(Y≥t)
(2)(2019·太原模拟)已知随机变量X服从正态分布N(3,1),且P(X≥4)=0.158 7,则P(2<X<4)=( )
A.0.682 6 B.0.341 3
C.0.460 3 D.0.920 7
(3)某校在一次月考中有900人参加考试,数学考试的成绩服从正态分布X~N(90,a2)(a>0,试卷满分150分),统计结果显示数学考试成绩在70分到110分之间的人数约为总人数的,则此次月考中数学考试成绩不低于110分的学生约有________人.
[解析] (1)由正态曲线的性质及题图知,μ1<μ2,0<σ1<σ2.故对任意正数t,P(X≤t)≥P(Y≤t)正确.
(2)因为随机变量X服从正态分布N(3,1),且P(X≥4)=0.158 7,所以P(X≤2)=0.158 7,所以P(2<X<4)=1-P(X≤2)-P(X≥4)=0.682 6,故选A.
(3)因为数学成绩服从正态分布X~N(90,a2),
所以其正态分布曲线关于直线x=90对称,
又因为成绩在70分到110分之间的人数约为总人数的,
由对称性知成绩在110分以上的人数约为总人数的×=,所以此次数学考试成绩不低于110分的学生约有×900=180(人).
[答案] (1)C (2)A (3)180
[解题技法]
正态分布下2类常见的概率计算
(1)利用正态分布密度曲线的对称性研究相关概率问题,涉及的知识主要是正态曲线关于直线x=μ对称,曲线与x轴之间的面积为1.
(2)利用3σ原则求概率问题时,要注意把给出的区间或范围与正态变量的μ,σ进行对比联系,确定它们属于(μ-σ,μ+σ),(μ-2σ,μ+2σ),(μ-3σ,μ+3σ)中的哪一个.
[过关训练]
1.(2019·武汉模拟)已知随机变量ξ服从正态分布N(μ,σ2),若P(ξ<2)=P(ξ>6)=0.15,则P(2≤ξ<4)等于( )
A.0.3 B.0.35
C.0.5 D.0.7
解析:选B ∵P(ξ<2)=P(ξ>6)=0.15,∴μ==4.又P(2≤ξ≤6)=1-P(ξ<2)-P(ξ>6)=0.7,∴P(2≤ξ<4)==0.35,故选B.
2.(2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布N(μ,σ2).
(1)假设生产状态正常,记X表示一天内抽取的16个零件中其尺寸在(μ-3σ,μ+3σ)之外的零件数,求P(X≥1)及X的数学期望;
(2)一天内抽检零件中,如果出现了尺寸在(μ-3σ,μ+3σ)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①试说明上述监控生产过程方法的合理性;
②下面是检验员在一天内抽取的16个零件的尺寸:
9.95 10.12 9.96 9.96 10.01 9.92 9.98 10.04
10.26 9.91 10.13 10.02 9.22 10.04 10.05 9.95
经计算得=i=9.97,s==≈0.212,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
用样本平均数作为μ的估计值,用样本标准差s作为σ的估计值,利用估计值判断是否需对当天的生产过程进行检查?剔除(-3,+3)之外的数据,用剩下的数据估计μ和σ(精确到0.01).
附:若随机变量Z服从正态分布N(μ,σ2),则P(μ-3σ<Z<μ+3σ)=0.997 4.0.997 416
≈0.959 2,≈0.09.
解:(1)抽取的一个零件的尺寸在(μ-3σ,μ+3σ)之内的概率为0.997 4,从而零件的尺寸在(μ-3σ,μ+3σ)之外的概率为0.002 6,故X~B(16,0.002 6).
因此P(X≥1)=1-P(X=0)=1-0.997 416≈0.040 8.
X的数学期望为E(X)=16×0.002 6=0.041 6.
(2)①如果生产状态正常,一个零件尺寸在(μ-3σ,μ+3σ)之外的概率只有0.002 6,一天内抽取的16个零件中,出现尺寸在(μ-3σ,μ+3σ)之外的零件的概率只有0.040 8,发生的概率很小.因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.
②由=9.97,s≈0.212,得μ的估计值为=9.97,σ的估计值为=0.212,由样本数据可以看出有一个零件的尺寸在(-3,+3)之外,因此需对当天的生产过程进行检查.
剔除(-3,+3)之外的数据9.22,剩下数据的平均数为(16×9.97-9.22)=10.02,
因此μ的估计值为10.02.
=16×0.2122+16×9.972≈1 591.134,
剔除(-3,+3)之外的数据9.22,剩下数据的样本方差为(1 591.134-9.222-15×10.022)≈0.008,
因此σ的估计值为≈0.09.