还剩21页未读,
继续阅读
所属成套资源:2019版数学(文)二轮复习通用版精品讲义
成套系列资料,整套一键下载
2019版数学(文)二轮复习通用版讲义:专题四第二讲大题考法——概率与统计
展开
第二讲 大题考法——概率与统计
题型(一)
概率与用样本估计总体的交汇问题
主要考查随机事件的概率、古典概型、频率分布直方图、茎叶图等的应用.
[典例感悟]
[典例1] (2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
使用了节水龙头50天的日用水量频数分布表
(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
[审题定向]
(一)定知识
主要考查频数分布表、频率分布直方图、用频率估计概率、根据频数分布表求平均数.
(二)定能力
1.考查数据分析:由频数分布表中的数据作出频率分布直方图,由频数分布表、频率分布直方图中的数据得平均数、频率估算求解.
2.考查数学运算:频率的计算,平均数的计算.
(三)定思路
第(1)问计算各组频率作图:
根据使用节水龙头后的频数分布表,计算各组的频率,结合每组的组距,计算频率与组距的比值作为频率分布直方图的纵坐标,画出频率分布直方图;
第(2)问用频率估计概率:
利用样本中日用水量小于0.35 m3的频率估计日用水量小于0.35 m3的概率,其中[0.3,0.35)的频率为[0.3,0.4)的频率的;
第(3)问求平均数:
先求出1天的节水量的平均数,再乘365,1天的平均节水量是指未使用节水龙头的50天的日用水量平均数减去使用节水龙头后50天的日用水量平均数.
[解] (1)频率分布直方图如图所示.
(2)根据频率分布直方图知,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后,日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
1=×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为
2=×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
[典例2] (2017·全国卷Ⅲ)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:
最高气温
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
天数
2
16
36
25
7
4
以最高气温位于各区间的频率估计最高气温位于该区间的概率.
(1)估计六月份这种酸奶一天的需求量不超过300瓶的概率;
(2)设六月份一天销售这种酸奶的利润为Y(单位:元).当六月份这种酸奶一天的进货量为450瓶时,写出Y的所有可能值,并估计Y大于零的概率.
[审题定向]
(一)定知识
主要考查频数分布表、用样本频率估计概率.
(二)定能力
1.考查数据分析:通过频数分布表中的数据,分析每个气温区间频率求概率.
2.考查数学运算:频率的计算.
(三)定思路
第(1)问用频率估计概率:
理解不超过300瓶的含义,最高气温在25以下的三个区间均满足,选对区间,用频率估计概率即可;
第(2)问分段计算,用频率估计概率:
由于最高气温影响需求量,超过需求量的部分降价处理,从而影响利润,分段计算即可.
[解] (1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表格数据知,最高气温低于25的频率为=0.6,
所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6.
(2)当这种酸奶一天的进货量为450瓶时,若最高气温不低于25,则Y=6×450-4×450=900;
若最高气温位于区间[20,25),
则Y=6×300+2(450-300)-4×450=300;
若最高气温低于20,
则Y=6×200+2(450-200)-4×450=-100.
所以Y的所有可能值为900,300,-100.
Y大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为=0.8,因此Y大于零的概率的估计值为0.8.
[类题通法]
解决概率与用样本估计总体交汇问题的方法
[对点训练]
(2019届高三·广州五校联考)某市为庆祝北京夺得2022年冬奥会举办权,围绕“全民健身促健康、同心共筑中国梦”主题开展全民健身活动.组织方从参加活动的群众中随机抽取120名群众,按他们的年龄分组:第1组[20,30),第2组[30,40),第3组[40,50),第4组[50,60),第5组[60,70],得到的频率分布直方图如图所示.
(1)若电视台记者要从抽取的群众中选一人进行采访,估计被采访人恰好在第1组或第4组的概率;
(2)已知第1组群众中男性有3名,组织方要从第1组中随机抽取2名群众组成志愿者服务队,求至少有1名女性群众的概率.
解:(1)设第1组[20,30)的频率为f1,则由题意可知,
f1=1-(0.035+0.030+0.020+0.010)×10=0.05.
被采访人恰好在第1组或第4组的频率为0.05+0.020×10=0.25.
∴估计被采访人恰好在第1组或第4组的概率为0.25.
(2)第1组[20,30)的人数为0.05×120=6.
∴第1组中共有6名群众,其中女性群众共3名.
记第1组中的3名男性群众分别为A,B,C,3名女性群众分别为x,y,z,
从第1组中随机抽取2名群众组成志愿者服务队包含(A,B),(A,C),(A,x),(A,y),(A,z),(B,C),(B,x),(B,y),(B,z),(C,x),(C,y),(C,z),(x,y),(x,z),(y,z),共15个基本事件.
至少有一名女性群众包含(A,x),(A,y),(A,z),(B,x),(B,y),(B,z),(C,x),(C,y),(C,z),(x,y),(x,z),(y,z),共12个基本事件.
∴从第1组中随机抽取2名群众组成志愿者服务队,至少有1名女性群众的概率P==.
题型(二) 回归分析与概率、统计的交汇问题
主要考查统计图表的数据分析、线性回归方程的求解与应用.
[典例感悟]
[典例1] (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[审题定向]
(一)定知识
主要考查折线图、线性回归分析及其应用.
(二)定能力
1.考查数据分析:折线图中数据分布情况的影响.
2.考查数学运算:预测值的求解.
(三)定思路
第(1)问代入求值:
将变量的值分别代入求解即可;
第(2)问利用给出模型进行分析:
可以根据回归直线情况进行分析,也可以根据估计值进行分析.
[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,答出其中任意一种或其他合理理由均可得分)
[典例2] (2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=- .
[审题定向]
(一)定知识
主要考查折线图、回归模型的拟合关系的判定与回归方程求法及其应用.
(二)定能力
1.考查数据分析:对折线图中的数据、参考数据作出分析.
2.考查数学运算:相关系数的求解、回归方程的求解.
(三)定思路
第(1)问利用相关系数计算分析:
利用折线图中的数据和参考数据计算相关系数r后进行判断;
第(2)问利用最小二乘法求解:
利用公式求、得出回归方程,然后利用方程进行估计.
[解] (1)由折线图中的数据和附注中的参考数据得
=4,(ti-)2=28, =0.55,
(ti-)(yi-)=iyi-i
=40.17-4×9.32=2.89,
∴r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103.
=- ≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
[类题通法]
破解回归分析问题的关键
(1)会依据表格及公式=,=-求线性回归方程中的参数的值,注意不要代错公式;
(2)已知变量的某个值去预测相应预报变量时,只需把该值代入回归方程=x+中.
[对点训练]
(2018·成都模拟)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:
指标
1号
小白鼠
2号
小白鼠
3号
小白鼠
4号
小白鼠
5号
小白鼠
A
5
7
6
9
8
B
2
2
3
4
4
(1)若通过数据分析,得知A项指标数据与B项指标数据具有线性相关关系.试根据上表,求B项指标数据y关于A项指标数据x的线性回归方程=x+;
(2)现要从这5只小白鼠中随机抽取3只,求其中至少有一只的B项指标数据高于3的概率.
参考公式:=,=-.
解:(1)由题意,可得=7,=3,iyi=110,=255,==.∵=-,∴=-.∴所求线性回归方程为=x-.
(2) 设1号至5号小白鼠依次为a1,a2,a3,a4,a5,则在这5只小白鼠中随机抽取3只的抽取情况有a1a2a3,a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共10种.随机抽取的3只小白鼠中至少有一只的B项指标数据高于3的情况有a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共9种.∴从这5只小白鼠中随机抽取3只,其中至少有一只的B项指标数据高于3的概率为.
题型(三)
独立性检验与概率、统计的交汇问题
主要考查抽样方法、随机事件、古典概型、频率分布直方图或茎叶图的应用以及K2的计算与应用.
[典例感悟]
[典例1] (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
[审题定向]
(一)定知识
主要考查茎叶图及应用、中位数、2×2列联表、K2的值.
(二)定能力
1.考查数据分析:由茎叶图中的数据提取后进行分析;由K2的值进行分析.
2.考查数学运算:K2的求解.
(三)定思路
第(1)问观察、比较、判断:
观察茎叶图,通过比较中位数、平均数等统计数据作出结论;
第(2)问利用中位数定义,2×2列联表定义求解:
根据中位数的定义求中位数,并完成2×2列联表;
第(3)问计算K2的值:
计算出K2的值并与临界值表比较,进而得出结论.
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可得分)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)因为K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
[典例2] (2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
,
K2=.
[审题定向]
(一)定知识
主要考查用频率估计概率、独立性检验的应用、用样本估计总体.
(二)定能力
1.考查数据分析:由频率分布直方图中的数据、K2的值进行分析.
2.考查数学运算:频率的计算、K2的计算、中位数估计值.
(三)定思路
第(1)问利用频率估计概率:
根据频率估计概率;
第(2)问计算K2的值:
根据独立性检验的步骤求解;
第(3)问利用平均值(中位数)比较:
观察频率分布直方图得出平均值(或中位数)的取值区间,再进行比较.
[解] (1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
根据表中数据及K2的计算公式得,
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
[类题通法]
解决独立性检验与概率综合问题的3步骤
(1)分析数据:根据条件中提供的数据准确分析数据.
(2)准确计算:对频率的计算或K2的计算确保计算准确.
(3)作出结论:用频率估计概率或根据K2的观测值与临界值进行对比时,注意问题的结论回答准确.
[对点训练]
(2018·西安八校联考)某工厂有25周岁以上(含25周岁)的工人300名,25周岁以下的工人200名.为了研究工人的日平均生产件数是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],分别加以统计,得到如图所示的频率分布直方图.
(1)根据“25周岁以上(含25周岁)组”的频率分布直方图,求25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值(四舍五入保留整数);
(2)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(3)规定日平均生产件数不少于80的工人为生产能手,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
生产能手
非生产能手
合计
25周岁以上
(含25周岁)组
25周岁以下组
合计
附:K2=,
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
解:采用分层抽样,“25周岁以上(含25周岁)组”应抽取工人100×=60(名),“25周岁以下组”应抽取工人100×=40(名).
(1)由“25周岁以上(含25周岁)组”的频率分布直方图可知,其中位数为70+10×=70+≈73(件).综上,25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值为73.
(2)由频率分布直方图可知,样本中日平均生产件数不足60件的工人中,25周岁以上(含25周岁)的工人共有60×0.005×10=3(名),设其分别为m1,m2,m3;25周岁以下的工人共有40×0.005×10=2(名),设其分别为n1,n2,则所有基本事件为(m1,m2),(m1,m3),(m1,n1),(m1,n2),(m2,m3),(m2,n1),(m2,n2),(m3,n1),(m3,n2),(n1,n2),共10个.记“至少抽到一名‘25周岁以下组’的工人”为事件A,事件A包含的基本事件共7个.
故P(A)=.
(3)由频率分布直方图可知,25周岁以上(含25周岁)的生产能手共有60×[(0.02+0.005)×10]=15(名),25周岁以下的生产能手共有40×[(0.032 5+0.005)×10]=15(名),则2×2列联表如下.
生产能手
非生产能手
合计
25周岁以上
(含25周岁)组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
K2==≈1.786<2.706.
综上,没有90%的把握认为“生产能手与工人所在的年龄组有关”.
[循流程思维——入题快]
概率问题的求解关键是辨别它的概率模型,只要找到模型,问题便迎刃而解.而概率模型的提取往往需要经过观察、分析、归纳、判断等复杂的辨析思维过程,常常因题设条件理解不准,某个概念认识不清而误入歧途.另外,还需弄清楚概率模型中等可能事件、互斥事件、对立事件等事件间的关系,注意放回和不放回试验的区别,合理划分复合事件.
[按流程解题——快又准]
[典例] (2016·全国卷Ⅱ)某险种的基本保费为a(单位:元),继续购买该险种的投保人称为续保人,续保人本年度的保费与其上年度出险次数的关联如下:
上年度出险次数
0
1
2
3
4
≥5
保费
0.85a
a
1.25a
1.5a
1.75a
2a
随机调查了该险种的200名续保人在一年内的出险情况,得到如下统计表:
出险次数
0
1
2
3
4
≥5
频数
60
50
30
30
20
10
(1)记A为事件:“一续保人本年度的保费不高于基本保费”,求P(A)的估计值;
(2)记B为事件:“一续保人本年度的保费高于基本保费但不高于基本保费的160%”,求P(B)的估计值;
(3)求续保人本年度平均保费的估计值.
[解题示范]
(1)事件A发生当且仅当一年内出险次数小于2.❶
由所给数据知,一年内出险次数小于2的频率为=0.55,
故P(A)的估计值为0.55.❷
(2)事件B发生当且仅当一年内出险次数大于1且小于4.❸
由所给数据知,一年内出险次数大于1且小于4的频率为=0.3,故P(B)的估计值为0.3.❹
❶辨析:判断事件A包括试验发生的情况为:一年内出险次数小于2,即出险次数为0和1两种情况
❷辨型:该问题为求随机事件的概率,利用互斥事件的关系求解
❸辨析:判断事件B所包含的基本事件
❹辨型:随机事件的概率,并代入公式求解
(3)由所给数据得
保费
0.85a
a
1.25a
1.5a
1.75a
2a
频率
0.30
0.25
0.15
0.15
0.10
0.05
调查的200名续保人的平均保费为0.85a×0.30+a×0.25+1.25a×0.15+1.5a×0.15+1.75a×0.10+2a×0.05=1.192 5a.
因此,续保人本年度平均保费的估计值为1.192 5a.
[思维升华] 往往与实际问题相结合,要注意理解实际问题的意义,使之和相应的概率计算对应起来,只有这样才能有效地解决问题.
[应用体验]
(2019届高三·湖北七市(州)联考)某校举行运动会,其中三级跳远的成绩在8.0米(四舍五入,精确到0.1米)以上的进入决赛,把所得数据进行整理后,分成6组,画出频率分布直方图的一部分(如图),已知从左到右前5个小组的频率分别为0.04,0.10,0.14,0.28,0.30,第6小组的频数是7.
(1)求进入决赛的人数;
(2)经过多次测试发现,甲的成绩均匀分布在8~10米之间,乙的成绩均匀分布在9.5~10.5米之间,现甲、乙各跳一次,求甲比乙跳得远的概率.
解:(1)第6小组的频率为1-(0.04+0.10+0.14+0.28+0.30)=0.14,则总人数为=50.易知第4,5,6组的学生均进入决赛,人数为(0.28+0.30+0.14)×50=36,即进入决赛的人数为36.
(2)设甲、乙各跳一次的成绩分别为x,y米,则
作出不等式组表示的平面区域如图中长方形ABCD所示,
设事件A表示“甲比乙跳得远”,则x>y,满足的区域如图中阴影部分所示.
由几何概型得P(A)==,
即甲比乙跳得远的概率为.
A卷——大题保分练
1.(2018·石家庄模拟)某学校为了解高三学生数学学科的复习效果,现从高三学生第一学期期中考试的成绩中随机抽取50名学生的数学成绩(单位:分),按[90,100),[100,110),…,[140,150]分成6组,制成如图所示的频率分布直方图.
(1)求m的值及这50名学生数学成绩的平均数;
(2)该学校为制订下阶段的复习计划,现需从成绩在[130,140)内的学生中任选3名作为代表进行座谈,若已知成绩在[130,140)内的学生中男女比例为2∶1,求至少有1名女生参加座谈的概率.
解:(1)由题知,(0.004+0.012+0.024+0.04+0.012+m)×10=1,解得m=0.008.=95×0.004×10+105×0.012×10+115×0.024×10+125×0.04×10+135×0.012×10+145×0.008×10=121.8(分).
(2)由频率分布直方图可知,成绩在[130,140)内的学生有0.012×10×50=6(名),由题可知这6名学生中男生有4名,女生有2名,记男生分别为A,B,C,D,女生分别为a,b,则从6名学生中选出3名的所有可能情况为ABC,ABD,ABa,ABb,ACD,ACa,ACb,ADa,ADb,BCD,BCa,BCb,BDa,BDb,CDa,CDb,Aab,Bab,Cab,Dab,共20种,其中不含女生的情况为ABC,ABD,ACD,BCD,共4种.记“至少有1名女生参加座谈”为事件A,则P(A)=1-=.
2.(2018·广东韶关期末)某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x为该商品的进货量,y为销售天数):
x/吨
2
3
4
5
6
8
9
11
y/天
1
2
3
3
4
5
6
8
(1)根据上表数据在如图所示的网格中绘制散点图:
(2)根据上表提供的数据,求出y关于x的线性回归方程=x+;
(3)根据(2)中的计算结果,若该商店准备一次性进货24吨,预测需要销售的天数.
参考公式和数据:=,=-;
=356,iyi=241.
解:(1)散点图如图所示.
(2)依题意,得=×(2+3+4+5+6+8+9+11)=6,=×(1+2+3+3+4+5+6+8)=4,
又=356,iyi=241,
所以=
==,
=4-×6=-,
故线性回归方程为=x-.
(3)由(2)知,当x=24时,=×24-≈17,
故若该商店一次性进货24吨,则预计需要销售17天.
3.(2018·长春质检)为了打好脱贫攻坚战,某贫困县农科院针对玉米种植情况进行调研,力争有效地改良玉米品种,为农民提供技术支援.现对已选出的一组玉米的茎高进行统计,获得茎叶图如图(单位:厘米),设茎高大于或等于180厘米的玉米为高茎玉米,否则为矮茎玉米.
(1)列出2×2列联表,并判断是否可以在犯错误的概率不超过1%的前提下,认为抗倒伏与玉米矮茎有关?
(2)为了改良玉米品种,现采用分层抽样的方法从抗倒伏的玉米中抽出5株,再从这5株玉米中选取2株进行杂交试验,求选取的植株均为矮茎的概率是多少?
附:
P(K2≥k0)
0.10
0.05
0.010
0.001
k0
2.706
3.841
6.635
10.828
解:(1)根据统计数据得2×2列联表如下:
抗倒伏
易倒伏
总计
矮茎
15
4
19
高茎
10
16
26
总计
25
20
45
由于K2的观测值k=≈7.287>6.635,因此可以在犯错误的概率不超过1%的前提下,认为抗倒伏与玉米矮茎有关.
(2)按照分层抽样的方法抽到的高茎玉米有2株,设为A,B,抽到的矮茎玉米有3株,设为a,b,c,从这5株玉米中取出2株的取法有AB,Aa,Ab,Ac,Ba,Bb,Bc,ab,ac,bc,共10种,其中均为矮茎的选取方法有ab,ac,bc,共3种,因此选取的植株均为矮茎的概率是.
4.在某大学的自主招生考试中,所有选报某类志愿的考生全部参加了“数学与逻辑”和“阅读与表达”两个科目的考试,成绩分为A,B,C,D,E五个等级.某考场考生的两科考试成绩的数据统计如图所示,其中“数学与逻辑”科目的成绩等级为B的考生有10人.
(1)若等级A,B,C,D,E分别对应5分,4分,3分,2分,1分,求该考场考生的“数学与逻辑”科目的平均分;
(2)求该考场考生的“阅读与表达”科目成绩等级为A的考生人数;
(3)如果参加本次考试的考生中,恰有2人的两科成绩等级均为A,在至少有一科成绩等级为A的考生中,随机抽取2人进行访谈,求所抽取的2人的两科成绩等级均为A的概率.
解:(1)因为“数学与逻辑”科目中成绩等级为B的考生有10人,所以该考场有考生10÷0.25=40(人).“数学与逻辑”科目中成绩等级为D的频率为1-0.075-0.2-0.25-0.375=0.1.该考场考生的“数学与逻辑”科目的平均分为[1×(40×0.2)+2×(40×0.1)+3×(40×0.375)+4×(40×0.25)+5×(40×0.075)]÷40=2.9(分).
(2)依题意知该考场考生的“阅读与表达”科目成绩等级为A的人数为40×(1-0.375-0.375-0.15-0.025)=40×0.075=3.
(3)因为两科考试中,共有6人的成绩等级为A,又恰有2人的两科成绩等级均为A,所以还有2人只有一个科目的成绩为A.设这4人为甲,乙,丙,丁,其中甲,乙是两科成绩等级都是A的学生,在至少一科成绩等级为A的4位考生中,随机抽取2人进行访谈包含的基本事件有{甲,乙},{甲,丙}、{甲,丁},{乙,丙},{乙,丁},{丙,丁},共6个,其中所抽取的2人的两科成绩等级均为A的事件为{甲,乙},所以所抽取的2人的两科成绩等级均为A的概率为.
B卷——深化提能练
1.为了研究现代学生心理喜好,某班主任对全班50人除夕夜收看央视春节联欢晚会时间进行问卷调查,得到了如下数据:
收看时间(小时)
[0,1)
[1,2)
[2,3)
[3,4]
总人数
8
12
16
14
将收看时间在[2,4](单位:小时)内的学生评价为“喜欢看”,收看时间在[0,2)(单位:小时)内的学生评价为“不喜欢看”.
(1)请将下面的列联表补充完整;
喜欢看
不喜欢看
总计
男生
女生
15
25
总计
(2)是否有99.9%的把握认为喜欢看该节目与性别有关?说明你的理由;
(3)对50人按是否喜欢看该节目利用分层抽样的方法抽取5人,再从5人中随机抽取2人,求恰好2人都喜欢看该节目的概率.
附:
P(K2≥k0)
0.05
0.01
0.001
k0
3.841
6.635
10.828
K2=,其中n=a+b+c+d.
解:(1)填表如下:
喜欢看
不喜欢看
总计
男生
20
5
25
女生
10
15
25
总计
30
20
50
(2)K2=≈8.333<10.828,
故没有99.9%的把握认为喜欢看该节目与性别有关.
(3)分层抽样比例为,故抽取的5人中喜欢看该节目的有3人,记为a,b,c;不喜欢看该节目的有2人,记为m,n.从5人中随机抽取2人,基本事件有ab,ac,bc,am,an,bm,bn,cm,cn,mn,共10种,2人都喜欢看该节目的事件有ab,ac,bc,共3种,所以恰好2人都喜欢看该节目的概率为P=.
2.为了调查某大学大一学生的公共课《思想道德修养与法律基础》的成绩情况,随机抽查n个大一学生该科的成绩,由于特殊原因,制成的茎叶图(图①)和频率分布直方图(图②)都受到不同程度的破坏,可见部分如图所示,据此解答如下问题.
(1)求n的值;
(2)计算频率分布直方图中[80,90)所对应的矩形的高;
(3)若要从成绩在[80,100]之间的试卷中任取两份分析大一学生的答题情况,求在抽取的试卷中至少有一份试卷成绩在[90,100]之间的概率.
解:(1)由题意知=0.008×10,解得n=25.
(2)因为成绩在[80,90)之间的频数为25-21=4,所对应的矩形的高为=0.016.
(3)成绩在[80,90)之间的有4人,分别记为A,B,C,D;成绩在[90,100]之间的有2人,分别记为e,f.从6人中抽取2人的基本事件为:{A,B},{A,C},{A,D},{A,e},{A,f},{B,C},{B,D},{B,e},{B,f},{C,D},{C,e},{C,f},{D,e},{D,f},{e,f},共15个;
其中至少有1人成绩在[90,100]之间的基本事件为:{A,e},{A,f},{B,e},{B,f},{C,e},{C,f},{D,e},{D,f},{e,f},共9个,
所以在抽取的试卷中至少有一份试卷成绩在[90,100]之间的概率为P==.
3.(2018·四川遂宁三诊)某公司为了解广告投入对销售收益的影响,在若干地区共投入4万元广告费用,并将各地的销售收益绘制成频率分布直方图,如图所示.由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.
(1)根据频率分布直方图计算图中各小矩形的宽度;
(2)试估计该公司投入4万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);
(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:
广告投入x/万元
1
2
3
4
5
销售收益平均值y/万元
2
3
2
7
由表中的数据显示,x与y之间存在着线性相关关系,请将(2)的结果填入空白栏,并求出y关于x的回归直线方程.
附参考公式:=,=-.
解:(1)设各小矩形的宽度为m,由频率分布直方图中各小矩形的面积和为1,
可知(0.08+0.10+0.14+0.12+0.04+0.02)·m=1,
解得m=2,故图中各小矩形的宽度为2.
(2)由(1)知各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],它们的中点的横坐标分别为1,3,5,7,9,11,
各组对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,
故可估计销售收益的平均值为1×0.16+3×0.20+5×0.28+7×0.24+9×0.08+11×0.04=5.
(3)由(2)可知空白栏中填5.
由题意可知, ==3,==3.8,
iyi=1×2+2×3+3×2+4×5+5×7=69,
=12+22+32+42+52=55,
所以==1.2,=3.8-1.2×3=0.2,
故所求的回归直线方程为=1.2x+0.2.
4.在贯彻实施精准扶贫政策的过程中,某单位定点帮扶甲、乙两个村各50户贫困户.为了做到精准帮扶,工作组对这100户村民的年收入情况、劳动能力情况、子女受教育情况、危旧房情况、患病情况等进行调查,并把调查结果转化为各户的贫困指标x和y,如图,其中“”表示甲村贫困户,“+”表示乙村贫困户.
若0
(1)从乙村的50户中随机选出一户,求该户为“绝对贫困户”的概率;
(2)从甲村所有“今年不能脱贫的非绝对贫困户”中任选2户,求选出的2户均为“低收入户”的概率;
(3)试比较这100户中,甲、乙两村指标y的方差的大小(只需写出结论).
解:(1)由图知,在乙村的50户中,指标0
所以从乙村的50户中随机选出一户,该户为“绝对贫困户”的概率P==.
(2)甲村“今年不能脱贫的非绝对贫困户”共有6户,其中“相对贫困户”有3户,分别记为A1,A2,A3,
“低收入户”有3户,分别记为B1,B2,B3,所有可能的结果组成的基本事件有:(A1,A2),(A1,A3),(A1,B1),(A1,B2),(A1,B3),(A2,A3),(A2,B1),(A2,B2),(A2,B3),(A3,B1),(A3,B2),(A3,B3),(B1,B2),(B1,B3),(B2,B3),共15个,其中2户均为“低收入户”的共有3个,所以所选2户均为“低收入户”的概率P==.
(3)由图可知,这100户中甲村指标y的方差大于乙村指标y的方差.
题型(一)
概率与用样本估计总体的交汇问题
主要考查随机事件的概率、古典概型、频率分布直方图、茎叶图等的应用.
[典例感悟]
[典例1] (2018·全国卷Ⅰ)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
使用了节水龙头50天的日用水量频数分布表
(1)在下图中作出使用了节水龙头50天的日用水量数据的频率分布直方图;
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率;
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表)
[审题定向]
(一)定知识
主要考查频数分布表、频率分布直方图、用频率估计概率、根据频数分布表求平均数.
(二)定能力
1.考查数据分析:由频数分布表中的数据作出频率分布直方图,由频数分布表、频率分布直方图中的数据得平均数、频率估算求解.
2.考查数学运算:频率的计算,平均数的计算.
(三)定思路
第(1)问计算各组频率作图:
根据使用节水龙头后的频数分布表,计算各组的频率,结合每组的组距,计算频率与组距的比值作为频率分布直方图的纵坐标,画出频率分布直方图;
第(2)问用频率估计概率:
利用样本中日用水量小于0.35 m3的频率估计日用水量小于0.35 m3的概率,其中[0.3,0.35)的频率为[0.3,0.4)的频率的;
第(3)问求平均数:
先求出1天的节水量的平均数,再乘365,1天的平均节水量是指未使用节水龙头的50天的日用水量平均数减去使用节水龙头后50天的日用水量平均数.
[解] (1)频率分布直方图如图所示.
(2)根据频率分布直方图知,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,因此该家庭使用节水龙头后,日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天日用水量的平均数为
1=×(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天日用水量的平均数为
2=×(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
[典例2] (2017·全国卷Ⅲ)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:
最高气温
[10,15)
[15,20)
[20,25)
[25,30)
[30,35)
[35,40)
天数
2
16
36
25
7
4
以最高气温位于各区间的频率估计最高气温位于该区间的概率.
(1)估计六月份这种酸奶一天的需求量不超过300瓶的概率;
(2)设六月份一天销售这种酸奶的利润为Y(单位:元).当六月份这种酸奶一天的进货量为450瓶时,写出Y的所有可能值,并估计Y大于零的概率.
[审题定向]
(一)定知识
主要考查频数分布表、用样本频率估计概率.
(二)定能力
1.考查数据分析:通过频数分布表中的数据,分析每个气温区间频率求概率.
2.考查数学运算:频率的计算.
(三)定思路
第(1)问用频率估计概率:
理解不超过300瓶的含义,最高气温在25以下的三个区间均满足,选对区间,用频率估计概率即可;
第(2)问分段计算,用频率估计概率:
由于最高气温影响需求量,超过需求量的部分降价处理,从而影响利润,分段计算即可.
[解] (1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表格数据知,最高气温低于25的频率为=0.6,
所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6.
(2)当这种酸奶一天的进货量为450瓶时,若最高气温不低于25,则Y=6×450-4×450=900;
若最高气温位于区间[20,25),
则Y=6×300+2(450-300)-4×450=300;
若最高气温低于20,
则Y=6×200+2(450-200)-4×450=-100.
所以Y的所有可能值为900,300,-100.
Y大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为=0.8,因此Y大于零的概率的估计值为0.8.
[类题通法]
解决概率与用样本估计总体交汇问题的方法
[对点训练]
(2019届高三·广州五校联考)某市为庆祝北京夺得2022年冬奥会举办权,围绕“全民健身促健康、同心共筑中国梦”主题开展全民健身活动.组织方从参加活动的群众中随机抽取120名群众,按他们的年龄分组:第1组[20,30),第2组[30,40),第3组[40,50),第4组[50,60),第5组[60,70],得到的频率分布直方图如图所示.
(1)若电视台记者要从抽取的群众中选一人进行采访,估计被采访人恰好在第1组或第4组的概率;
(2)已知第1组群众中男性有3名,组织方要从第1组中随机抽取2名群众组成志愿者服务队,求至少有1名女性群众的概率.
解:(1)设第1组[20,30)的频率为f1,则由题意可知,
f1=1-(0.035+0.030+0.020+0.010)×10=0.05.
被采访人恰好在第1组或第4组的频率为0.05+0.020×10=0.25.
∴估计被采访人恰好在第1组或第4组的概率为0.25.
(2)第1组[20,30)的人数为0.05×120=6.
∴第1组中共有6名群众,其中女性群众共3名.
记第1组中的3名男性群众分别为A,B,C,3名女性群众分别为x,y,z,
从第1组中随机抽取2名群众组成志愿者服务队包含(A,B),(A,C),(A,x),(A,y),(A,z),(B,C),(B,x),(B,y),(B,z),(C,x),(C,y),(C,z),(x,y),(x,z),(y,z),共15个基本事件.
至少有一名女性群众包含(A,x),(A,y),(A,z),(B,x),(B,y),(B,z),(C,x),(C,y),(C,z),(x,y),(x,z),(y,z),共12个基本事件.
∴从第1组中随机抽取2名群众组成志愿者服务队,至少有1名女性群众的概率P==.
题型(二) 回归分析与概率、统计的交汇问题
主要考查统计图表的数据分析、线性回归方程的求解与应用.
[典例感悟]
[典例1] (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[审题定向]
(一)定知识
主要考查折线图、线性回归分析及其应用.
(二)定能力
1.考查数据分析:折线图中数据分布情况的影响.
2.考查数学运算:预测值的求解.
(三)定思路
第(1)问代入求值:
将变量的值分别代入求解即可;
第(2)问利用给出模型进行分析:
可以根据回归直线情况进行分析,也可以根据估计值进行分析.
[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,答出其中任意一种或其他合理理由均可得分)
[典例2] (2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:i=9.32,iyi=40.17, =0.55,≈2.646.
参考公式:相关系数r=,回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=- .
[审题定向]
(一)定知识
主要考查折线图、回归模型的拟合关系的判定与回归方程求法及其应用.
(二)定能力
1.考查数据分析:对折线图中的数据、参考数据作出分析.
2.考查数学运算:相关系数的求解、回归方程的求解.
(三)定思路
第(1)问利用相关系数计算分析:
利用折线图中的数据和参考数据计算相关系数r后进行判断;
第(2)问利用最小二乘法求解:
利用公式求、得出回归方程,然后利用方程进行估计.
[解] (1)由折线图中的数据和附注中的参考数据得
=4,(ti-)2=28, =0.55,
(ti-)(yi-)=iyi-i
=40.17-4×9.32=2.89,
∴r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103.
=- ≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
[类题通法]
破解回归分析问题的关键
(1)会依据表格及公式=,=-求线性回归方程中的参数的值,注意不要代错公式;
(2)已知变量的某个值去预测相应预报变量时,只需把该值代入回归方程=x+中.
[对点训练]
(2018·成都模拟)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:
指标
1号
小白鼠
2号
小白鼠
3号
小白鼠
4号
小白鼠
5号
小白鼠
A
5
7
6
9
8
B
2
2
3
4
4
(1)若通过数据分析,得知A项指标数据与B项指标数据具有线性相关关系.试根据上表,求B项指标数据y关于A项指标数据x的线性回归方程=x+;
(2)现要从这5只小白鼠中随机抽取3只,求其中至少有一只的B项指标数据高于3的概率.
参考公式:=,=-.
解:(1)由题意,可得=7,=3,iyi=110,=255,==.∵=-,∴=-.∴所求线性回归方程为=x-.
(2) 设1号至5号小白鼠依次为a1,a2,a3,a4,a5,则在这5只小白鼠中随机抽取3只的抽取情况有a1a2a3,a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共10种.随机抽取的3只小白鼠中至少有一只的B项指标数据高于3的情况有a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共9种.∴从这5只小白鼠中随机抽取3只,其中至少有一只的B项指标数据高于3的概率为.
题型(三)
独立性检验与概率、统计的交汇问题
主要考查抽样方法、随机事件、古典概型、频率分布直方图或茎叶图的应用以及K2的计算与应用.
[典例感悟]
[典例1] (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
[审题定向]
(一)定知识
主要考查茎叶图及应用、中位数、2×2列联表、K2的值.
(二)定能力
1.考查数据分析:由茎叶图中的数据提取后进行分析;由K2的值进行分析.
2.考查数学运算:K2的求解.
(三)定思路
第(1)问观察、比较、判断:
观察茎叶图,通过比较中位数、平均数等统计数据作出结论;
第(2)问利用中位数定义,2×2列联表定义求解:
根据中位数的定义求中位数,并完成2×2列联表;
第(3)问计算K2的值:
计算出K2的值并与临界值表比较,进而得出结论.
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,答出其中任意一种或其他合理理由均可得分)
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)因为K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
[典例2] (2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
,
K2=.
[审题定向]
(一)定知识
主要考查用频率估计概率、独立性检验的应用、用样本估计总体.
(二)定能力
1.考查数据分析:由频率分布直方图中的数据、K2的值进行分析.
2.考查数学运算:频率的计算、K2的计算、中位数估计值.
(三)定思路
第(1)问利用频率估计概率:
根据频率估计概率;
第(2)问计算K2的值:
根据独立性检验的步骤求解;
第(3)问利用平均值(中位数)比较:
观察频率分布直方图得出平均值(或中位数)的取值区间,再进行比较.
[解] (1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
根据表中数据及K2的计算公式得,
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
[类题通法]
解决独立性检验与概率综合问题的3步骤
(1)分析数据:根据条件中提供的数据准确分析数据.
(2)准确计算:对频率的计算或K2的计算确保计算准确.
(3)作出结论:用频率估计概率或根据K2的观测值与临界值进行对比时,注意问题的结论回答准确.
[对点训练]
(2018·西安八校联考)某工厂有25周岁以上(含25周岁)的工人300名,25周岁以下的工人200名.为了研究工人的日平均生产件数是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],分别加以统计,得到如图所示的频率分布直方图.
(1)根据“25周岁以上(含25周岁)组”的频率分布直方图,求25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值(四舍五入保留整数);
(2)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(3)规定日平均生产件数不少于80的工人为生产能手,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
生产能手
非生产能手
合计
25周岁以上
(含25周岁)组
25周岁以下组
合计
附:K2=,
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
解:采用分层抽样,“25周岁以上(含25周岁)组”应抽取工人100×=60(名),“25周岁以下组”应抽取工人100×=40(名).
(1)由“25周岁以上(含25周岁)组”的频率分布直方图可知,其中位数为70+10×=70+≈73(件).综上,25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值为73.
(2)由频率分布直方图可知,样本中日平均生产件数不足60件的工人中,25周岁以上(含25周岁)的工人共有60×0.005×10=3(名),设其分别为m1,m2,m3;25周岁以下的工人共有40×0.005×10=2(名),设其分别为n1,n2,则所有基本事件为(m1,m2),(m1,m3),(m1,n1),(m1,n2),(m2,m3),(m2,n1),(m2,n2),(m3,n1),(m3,n2),(n1,n2),共10个.记“至少抽到一名‘25周岁以下组’的工人”为事件A,事件A包含的基本事件共7个.
故P(A)=.
(3)由频率分布直方图可知,25周岁以上(含25周岁)的生产能手共有60×[(0.02+0.005)×10]=15(名),25周岁以下的生产能手共有40×[(0.032 5+0.005)×10]=15(名),则2×2列联表如下.
生产能手
非生产能手
合计
25周岁以上
(含25周岁)组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
K2==≈1.786<2.706.
综上,没有90%的把握认为“生产能手与工人所在的年龄组有关”.
[循流程思维——入题快]
概率问题的求解关键是辨别它的概率模型,只要找到模型,问题便迎刃而解.而概率模型的提取往往需要经过观察、分析、归纳、判断等复杂的辨析思维过程,常常因题设条件理解不准,某个概念认识不清而误入歧途.另外,还需弄清楚概率模型中等可能事件、互斥事件、对立事件等事件间的关系,注意放回和不放回试验的区别,合理划分复合事件.
[按流程解题——快又准]
[典例] (2016·全国卷Ⅱ)某险种的基本保费为a(单位:元),继续购买该险种的投保人称为续保人,续保人本年度的保费与其上年度出险次数的关联如下:
上年度出险次数
0
1
2
3
4
≥5
保费
0.85a
a
1.25a
1.5a
1.75a
2a
随机调查了该险种的200名续保人在一年内的出险情况,得到如下统计表:
出险次数
0
1
2
3
4
≥5
频数
60
50
30
30
20
10
(1)记A为事件:“一续保人本年度的保费不高于基本保费”,求P(A)的估计值;
(2)记B为事件:“一续保人本年度的保费高于基本保费但不高于基本保费的160%”,求P(B)的估计值;
(3)求续保人本年度平均保费的估计值.
[解题示范]
(1)事件A发生当且仅当一年内出险次数小于2.❶
由所给数据知,一年内出险次数小于2的频率为=0.55,
故P(A)的估计值为0.55.❷
(2)事件B发生当且仅当一年内出险次数大于1且小于4.❸
由所给数据知,一年内出险次数大于1且小于4的频率为=0.3,故P(B)的估计值为0.3.❹
❶辨析:判断事件A包括试验发生的情况为:一年内出险次数小于2,即出险次数为0和1两种情况
❷辨型:该问题为求随机事件的概率,利用互斥事件的关系求解
❸辨析:判断事件B所包含的基本事件
❹辨型:随机事件的概率,并代入公式求解
(3)由所给数据得
保费
0.85a
a
1.25a
1.5a
1.75a
2a
频率
0.30
0.25
0.15
0.15
0.10
0.05
调查的200名续保人的平均保费为0.85a×0.30+a×0.25+1.25a×0.15+1.5a×0.15+1.75a×0.10+2a×0.05=1.192 5a.
因此,续保人本年度平均保费的估计值为1.192 5a.
[思维升华] 往往与实际问题相结合,要注意理解实际问题的意义,使之和相应的概率计算对应起来,只有这样才能有效地解决问题.
[应用体验]
(2019届高三·湖北七市(州)联考)某校举行运动会,其中三级跳远的成绩在8.0米(四舍五入,精确到0.1米)以上的进入决赛,把所得数据进行整理后,分成6组,画出频率分布直方图的一部分(如图),已知从左到右前5个小组的频率分别为0.04,0.10,0.14,0.28,0.30,第6小组的频数是7.
(1)求进入决赛的人数;
(2)经过多次测试发现,甲的成绩均匀分布在8~10米之间,乙的成绩均匀分布在9.5~10.5米之间,现甲、乙各跳一次,求甲比乙跳得远的概率.
解:(1)第6小组的频率为1-(0.04+0.10+0.14+0.28+0.30)=0.14,则总人数为=50.易知第4,5,6组的学生均进入决赛,人数为(0.28+0.30+0.14)×50=36,即进入决赛的人数为36.
(2)设甲、乙各跳一次的成绩分别为x,y米,则
作出不等式组表示的平面区域如图中长方形ABCD所示,
设事件A表示“甲比乙跳得远”,则x>y,满足的区域如图中阴影部分所示.
由几何概型得P(A)==,
即甲比乙跳得远的概率为.
A卷——大题保分练
1.(2018·石家庄模拟)某学校为了解高三学生数学学科的复习效果,现从高三学生第一学期期中考试的成绩中随机抽取50名学生的数学成绩(单位:分),按[90,100),[100,110),…,[140,150]分成6组,制成如图所示的频率分布直方图.
(1)求m的值及这50名学生数学成绩的平均数;
(2)该学校为制订下阶段的复习计划,现需从成绩在[130,140)内的学生中任选3名作为代表进行座谈,若已知成绩在[130,140)内的学生中男女比例为2∶1,求至少有1名女生参加座谈的概率.
解:(1)由题知,(0.004+0.012+0.024+0.04+0.012+m)×10=1,解得m=0.008.=95×0.004×10+105×0.012×10+115×0.024×10+125×0.04×10+135×0.012×10+145×0.008×10=121.8(分).
(2)由频率分布直方图可知,成绩在[130,140)内的学生有0.012×10×50=6(名),由题可知这6名学生中男生有4名,女生有2名,记男生分别为A,B,C,D,女生分别为a,b,则从6名学生中选出3名的所有可能情况为ABC,ABD,ABa,ABb,ACD,ACa,ACb,ADa,ADb,BCD,BCa,BCb,BDa,BDb,CDa,CDb,Aab,Bab,Cab,Dab,共20种,其中不含女生的情况为ABC,ABD,ACD,BCD,共4种.记“至少有1名女生参加座谈”为事件A,则P(A)=1-=.
2.(2018·广东韶关期末)某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x为该商品的进货量,y为销售天数):
x/吨
2
3
4
5
6
8
9
11
y/天
1
2
3
3
4
5
6
8
(1)根据上表数据在如图所示的网格中绘制散点图:
(2)根据上表提供的数据,求出y关于x的线性回归方程=x+;
(3)根据(2)中的计算结果,若该商店准备一次性进货24吨,预测需要销售的天数.
参考公式和数据:=,=-;
=356,iyi=241.
解:(1)散点图如图所示.
(2)依题意,得=×(2+3+4+5+6+8+9+11)=6,=×(1+2+3+3+4+5+6+8)=4,
又=356,iyi=241,
所以=
==,
=4-×6=-,
故线性回归方程为=x-.
(3)由(2)知,当x=24时,=×24-≈17,
故若该商店一次性进货24吨,则预计需要销售17天.
3.(2018·长春质检)为了打好脱贫攻坚战,某贫困县农科院针对玉米种植情况进行调研,力争有效地改良玉米品种,为农民提供技术支援.现对已选出的一组玉米的茎高进行统计,获得茎叶图如图(单位:厘米),设茎高大于或等于180厘米的玉米为高茎玉米,否则为矮茎玉米.
(1)列出2×2列联表,并判断是否可以在犯错误的概率不超过1%的前提下,认为抗倒伏与玉米矮茎有关?
(2)为了改良玉米品种,现采用分层抽样的方法从抗倒伏的玉米中抽出5株,再从这5株玉米中选取2株进行杂交试验,求选取的植株均为矮茎的概率是多少?
附:
P(K2≥k0)
0.10
0.05
0.010
0.001
k0
2.706
3.841
6.635
10.828
解:(1)根据统计数据得2×2列联表如下:
抗倒伏
易倒伏
总计
矮茎
15
4
19
高茎
10
16
26
总计
25
20
45
由于K2的观测值k=≈7.287>6.635,因此可以在犯错误的概率不超过1%的前提下,认为抗倒伏与玉米矮茎有关.
(2)按照分层抽样的方法抽到的高茎玉米有2株,设为A,B,抽到的矮茎玉米有3株,设为a,b,c,从这5株玉米中取出2株的取法有AB,Aa,Ab,Ac,Ba,Bb,Bc,ab,ac,bc,共10种,其中均为矮茎的选取方法有ab,ac,bc,共3种,因此选取的植株均为矮茎的概率是.
4.在某大学的自主招生考试中,所有选报某类志愿的考生全部参加了“数学与逻辑”和“阅读与表达”两个科目的考试,成绩分为A,B,C,D,E五个等级.某考场考生的两科考试成绩的数据统计如图所示,其中“数学与逻辑”科目的成绩等级为B的考生有10人.
(1)若等级A,B,C,D,E分别对应5分,4分,3分,2分,1分,求该考场考生的“数学与逻辑”科目的平均分;
(2)求该考场考生的“阅读与表达”科目成绩等级为A的考生人数;
(3)如果参加本次考试的考生中,恰有2人的两科成绩等级均为A,在至少有一科成绩等级为A的考生中,随机抽取2人进行访谈,求所抽取的2人的两科成绩等级均为A的概率.
解:(1)因为“数学与逻辑”科目中成绩等级为B的考生有10人,所以该考场有考生10÷0.25=40(人).“数学与逻辑”科目中成绩等级为D的频率为1-0.075-0.2-0.25-0.375=0.1.该考场考生的“数学与逻辑”科目的平均分为[1×(40×0.2)+2×(40×0.1)+3×(40×0.375)+4×(40×0.25)+5×(40×0.075)]÷40=2.9(分).
(2)依题意知该考场考生的“阅读与表达”科目成绩等级为A的人数为40×(1-0.375-0.375-0.15-0.025)=40×0.075=3.
(3)因为两科考试中,共有6人的成绩等级为A,又恰有2人的两科成绩等级均为A,所以还有2人只有一个科目的成绩为A.设这4人为甲,乙,丙,丁,其中甲,乙是两科成绩等级都是A的学生,在至少一科成绩等级为A的4位考生中,随机抽取2人进行访谈包含的基本事件有{甲,乙},{甲,丙}、{甲,丁},{乙,丙},{乙,丁},{丙,丁},共6个,其中所抽取的2人的两科成绩等级均为A的事件为{甲,乙},所以所抽取的2人的两科成绩等级均为A的概率为.
B卷——深化提能练
1.为了研究现代学生心理喜好,某班主任对全班50人除夕夜收看央视春节联欢晚会时间进行问卷调查,得到了如下数据:
收看时间(小时)
[0,1)
[1,2)
[2,3)
[3,4]
总人数
8
12
16
14
将收看时间在[2,4](单位:小时)内的学生评价为“喜欢看”,收看时间在[0,2)(单位:小时)内的学生评价为“不喜欢看”.
(1)请将下面的列联表补充完整;
喜欢看
不喜欢看
总计
男生
女生
15
25
总计
(2)是否有99.9%的把握认为喜欢看该节目与性别有关?说明你的理由;
(3)对50人按是否喜欢看该节目利用分层抽样的方法抽取5人,再从5人中随机抽取2人,求恰好2人都喜欢看该节目的概率.
附:
P(K2≥k0)
0.05
0.01
0.001
k0
3.841
6.635
10.828
K2=,其中n=a+b+c+d.
解:(1)填表如下:
喜欢看
不喜欢看
总计
男生
20
5
25
女生
10
15
25
总计
30
20
50
(2)K2=≈8.333<10.828,
故没有99.9%的把握认为喜欢看该节目与性别有关.
(3)分层抽样比例为,故抽取的5人中喜欢看该节目的有3人,记为a,b,c;不喜欢看该节目的有2人,记为m,n.从5人中随机抽取2人,基本事件有ab,ac,bc,am,an,bm,bn,cm,cn,mn,共10种,2人都喜欢看该节目的事件有ab,ac,bc,共3种,所以恰好2人都喜欢看该节目的概率为P=.
2.为了调查某大学大一学生的公共课《思想道德修养与法律基础》的成绩情况,随机抽查n个大一学生该科的成绩,由于特殊原因,制成的茎叶图(图①)和频率分布直方图(图②)都受到不同程度的破坏,可见部分如图所示,据此解答如下问题.
(1)求n的值;
(2)计算频率分布直方图中[80,90)所对应的矩形的高;
(3)若要从成绩在[80,100]之间的试卷中任取两份分析大一学生的答题情况,求在抽取的试卷中至少有一份试卷成绩在[90,100]之间的概率.
解:(1)由题意知=0.008×10,解得n=25.
(2)因为成绩在[80,90)之间的频数为25-21=4,所对应的矩形的高为=0.016.
(3)成绩在[80,90)之间的有4人,分别记为A,B,C,D;成绩在[90,100]之间的有2人,分别记为e,f.从6人中抽取2人的基本事件为:{A,B},{A,C},{A,D},{A,e},{A,f},{B,C},{B,D},{B,e},{B,f},{C,D},{C,e},{C,f},{D,e},{D,f},{e,f},共15个;
其中至少有1人成绩在[90,100]之间的基本事件为:{A,e},{A,f},{B,e},{B,f},{C,e},{C,f},{D,e},{D,f},{e,f},共9个,
所以在抽取的试卷中至少有一份试卷成绩在[90,100]之间的概率为P==.
3.(2018·四川遂宁三诊)某公司为了解广告投入对销售收益的影响,在若干地区共投入4万元广告费用,并将各地的销售收益绘制成频率分布直方图,如图所示.由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.
(1)根据频率分布直方图计算图中各小矩形的宽度;
(2)试估计该公司投入4万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);
(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:
广告投入x/万元
1
2
3
4
5
销售收益平均值y/万元
2
3
2
7
由表中的数据显示,x与y之间存在着线性相关关系,请将(2)的结果填入空白栏,并求出y关于x的回归直线方程.
附参考公式:=,=-.
解:(1)设各小矩形的宽度为m,由频率分布直方图中各小矩形的面积和为1,
可知(0.08+0.10+0.14+0.12+0.04+0.02)·m=1,
解得m=2,故图中各小矩形的宽度为2.
(2)由(1)知各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],它们的中点的横坐标分别为1,3,5,7,9,11,
各组对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,
故可估计销售收益的平均值为1×0.16+3×0.20+5×0.28+7×0.24+9×0.08+11×0.04=5.
(3)由(2)可知空白栏中填5.
由题意可知, ==3,==3.8,
iyi=1×2+2×3+3×2+4×5+5×7=69,
=12+22+32+42+52=55,
所以==1.2,=3.8-1.2×3=0.2,
故所求的回归直线方程为=1.2x+0.2.
4.在贯彻实施精准扶贫政策的过程中,某单位定点帮扶甲、乙两个村各50户贫困户.为了做到精准帮扶,工作组对这100户村民的年收入情况、劳动能力情况、子女受教育情况、危旧房情况、患病情况等进行调查,并把调查结果转化为各户的贫困指标x和y,如图,其中“”表示甲村贫困户,“+”表示乙村贫困户.
若0
(2)从甲村所有“今年不能脱贫的非绝对贫困户”中任选2户,求选出的2户均为“低收入户”的概率;
(3)试比较这100户中,甲、乙两村指标y的方差的大小(只需写出结论).
解:(1)由图知,在乙村的50户中,指标0
(2)甲村“今年不能脱贫的非绝对贫困户”共有6户,其中“相对贫困户”有3户,分别记为A1,A2,A3,
“低收入户”有3户,分别记为B1,B2,B3,所有可能的结果组成的基本事件有:(A1,A2),(A1,A3),(A1,B1),(A1,B2),(A1,B3),(A2,A3),(A2,B1),(A2,B2),(A2,B3),(A3,B1),(A3,B2),(A3,B3),(B1,B2),(B1,B3),(B2,B3),共15个,其中2户均为“低收入户”的共有3个,所以所选2户均为“低收入户”的概率P==.
(3)由图可知,这100户中甲村指标y的方差大于乙村指标y的方差.
相关资料
更多