2019届高三理科数学二轮复习配套教案:第一篇专题七第2讲 统计案例
展开第2讲 统计案例
(对应学生用书第56~57页)
1.(2018·全国Ⅱ卷,理18)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
①从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
②从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
2.(2016·全国Ⅲ卷,理18)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:yi=9.32,tiyi=40.17,
=0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为=,=-.
解:(1)由已知条件知,
=4,(ti-)2=28,=0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,
r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103.
=-≈1.331-0.103×4≈0.92.
所以,y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得
=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
3.(2017·全国Ⅰ卷,理19)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取16个零件,并测量其尺寸(单位:cm).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布N(μ,σ2).
(1)假设生产状态正常,记X表示一天内抽取的16个零件中其尺寸在(μ-3σ,μ+3σ)之外的零件数,求P(X≥1)及X的数学期望;
(2)一天内抽检零件中,如果出现了尺寸在(μ-3σ,μ+3σ)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
①试说明上述监控生产过程方法的合理性;
②下面是检验员在一天内抽取的16个零件的尺寸:
9.95 | 10.12 | 9.96 | 9.96 | 10.01 | 9.92 | 9.98 | 10.04 |
10.26 | 9.91 | 10.13 | 10.02 | 9.22 | 10.04 | 10.05 | 9.95 |
经计算得=xi=9.97,s==≈0.212,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
用样本平均数作为μ的估计值,用样本标准差s作为σ的估计值,利用估计值判断是否需对当天的生产过程进行检查?剔除(-3,+3)之外的数据,用剩下的数据估计μ和σ(精确到0.01).
附:若随机变量Z服从正态分布N(μ,σ2),则P(μ-3σ<Z<μ+3σ)=0.997 4,0.997 416≈0.959 2,≈0.09.
解:(1)抽取的一个零件的尺寸在(μ-3σ,μ+3σ)之内的概率为0.997 4,从而零件的尺寸在(μ-3σ,μ+3σ)之外的概率为0.002 6,故X~B(16,0.002 6).
因此P(X≥1)=1-P(X=0)=1-0.997 416≈0.040 8.
X的数学期望为E(X)=16×0.002 6=0.041 6.
(2)①如果生产状态正常,一个零件尺寸在(μ-3σ,μ+3σ)之外的概率只有0.002 6,一天内抽取的16个零件中,出现尺寸在(μ-3σ,μ+3σ)之外的零件的概率只有0.040 8,发生的概率很小,因此一旦发生这种情况,就有理由认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查,可见上述监控生产过程的方法是合理的.
②由=9.97,s≈0.212,得μ的估计值为=9.97,σ的估计值为=0.212,由样本数据可以看出有一个零件的尺寸在(-3,+3)之外,因此需对当天的生产过程进行检查,
剔除(-3,+3)之外的数据9.22,剩下数据的平均数为
(16×9.97-9.22)=10.02,
因此μ的估计值为10.02.
=16×0.2122+16×9.972≈1 591.134.
剔除(-3,+3)之外的数据9.22,剩下数据的样本方差为
(1 591.134-9.222-15×10.022)≈0.008,
因此σ的估计值为≈0.09.
1.考查角度
常以贴近考生、贴近生活的实际问题为背景,以统计图、表为依据,考查独立性检验、线性回归方程并由回归方程估计
预测,有时还需将非线性回归模型转化为线性回归模型解决.
2.题型及难易度
解答题,难度中低档.
(对应学生用书第57~60页)
线性回归分析
考向1 线性回归方程
【例1】 (2018·湖南省湘东五校联考)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据:
日期 | 1月 10日 | 2月 10日 | 3月 10日 | 4月 10日 | 5月 10日 | 6月 10日 |
昼夜温差x/℃ | 10 | 11 | 13 | 12 | 8 | 6 |
就诊人数y/个 | 22 | 25 | 29 | 26 | 16 | 12 |
该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月的概率;
(2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据,求出y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
参考公式:=,=-.
参考数据:11×25+13×29+12×26+8×16=1 092,112+132+122+82=498.
解:(1)设选到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有5种,所以P(A)==.
(2)由表中2月份至5月份的数据可得=11,=24,xiyi=1 092,=498,所以==,则=-=-,
所以y关于x的线性回归方程为=x-.
(3)当x=10时,=,-22<2;
当x=6时,=,-12<2.
所以,该小组所得线性回归方程是理想的.
考向2 相关系数
【例2】
(2018·广州市调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该基地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(单位:千克)与使用某种液体肥料的质量x(单位:千克)之间的对应数据如图所示.
(1)依据图中数据计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:
周光照量X/小时 | 30<X<50 | 50≤X≤70 | X>70 |
光照控制仪运行台数 | 3 | 2 | 1 |
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.
相关系数公式:r=,
参考数据:≈0.55,≈0.95.
解:(1)由已知数据可得==5,==4.
因为(xi-)(yi-)=(-3)×(-1)+0+0+0+3×1=6,
==2,
==,
所以相关系数r===≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
(2)由条件可得在过去50周里,
当X>70时,共有10周,此时只有1台光照控制仪运行,
每周的周总利润为1×3 000-2×1 000=1 000(元).
当50≤X≤70时,共有35周,此时有2台光照控制仪运行,
每周的周总利润为2×3 000-1×1 000=5 000(元).
当30<X<50时,共有5周,此时3台光照控制仪都运行,
每周的周总利润为3×3 000=9 000(元).
所以过去50周的周总利润的平均值为
=4 600(元),
所以商家在过去50周的周总利润的平均值为4 600元.
(1)求线性回归方程的步骤
①计算,;
②计算xiyi,;
③计算=
=,
=-[回归直线必过样本点的中心(,)].
④写出回归方程=x+.
(2)利用回归直线方程进行预测估计时,代入相应的数值后求得的结果是估计值,并非准确值.
(3)相关系数
r=
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强,r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.
热点训练1:(2018·聊城一模)为促进农业发展,加快农村建设,某地政府扶持兴建了一批“超级蔬菜大棚”.为了解大棚的面积与年利润之间的关系,随机抽取了其中的7个大棚,并对当年的利润进行统计整理后得到了如下数据对比表:
大棚面积 (亩)x | 4.5 | 5.0 | 5.5 | 6.0 | 6.5 | 7.0 | 7.5 |
年利润 (万元)y | 6 | 7 | 7.4 | 8.1 | 8.9 | 9.6 | 11.1 |
由所给数据的散点图可以看出,各样本点都分布在一条直线附近,并且y与x有很强的线性相关关系.
(1)求y关于x的线性回归方程;
(2)小明家的“超级蔬菜大棚”面积为8.0亩,估计小明家的大棚当年的利润为多少;
(3)另外调查了近5年的不同蔬菜亩平均利润(单位:万元),其中无丝豆为1.5,1.7,2.1,2.2,2.5;彩椒为1.8,1.9,1.9,2.2,2.2,请分析种植哪种蔬菜比较好?
参考数据:xiyi=359.6,(xi-)2=7,
参考公式:=,=-.
解:(1)根据题意,=6,=8.3,
则7 =348.6,
===≈1.571,
=-≈8.3-1.571×6=-1.126,
那么回归方程为=1.571x-1.126.
(2)将x=8.0代入方程得
=1.571×8.0-1.126=11.442,
即小明家的“超级大棚”当年的利润大约为11.442万元.
(3)近5年来,无丝豆亩平均利润的平均数为
m==2,
方差=[(1.5-2)2+(1.7-2)2+(2.1-2)2+(2.2-2)2+(2.5-2)2]=0.128,
彩椒亩平均利润的平均数为
n==2,
方差为=[(1.8-2)2+(1.9-2)2+(1.9-2)2+(2.2-2)2+(2.2-2)2]=0.028,
因为m=n,>,
所以种植彩椒比较好.
独立性检验
【例3】 (2018·江西九校联考)进入高三,同学们的学习越来越紧张,学生休息和锻炼的时间也减少了.学校为了提高学生的学习效率,鼓励学生加强体育锻炼.某中学高三(3)班有学生50人.现调查该班学生每周平均体育锻炼时间的情况,得到如下频率分布直方图.其中数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].
(1)求学生周平均体育锻炼时间的中位数(保留3位有效数字);
(2)从每周平均体育锻炼时间在[0,4]的学生中,随机抽取2人进行调查,求此2人的每周平均体育锻炼时间都超过2小时的概率;
(3)现全班学生中有40%是女生,其中3个女生的每周平均体育锻炼时间不超过4小时.若每周平均体育锻炼时间超过4小时称为经常锻炼,问:有没有90%的把握说明,是否经常锻炼与性别有关?
附:K2=
P(K2≥k0) | 0.100 | 0.050 | 0.010 | 0.001 |
k0 | 2.706 | 3.841 | 6.635 | 10.828 |
解:(1)设中位数为a,
因为前三组的频率和为(0.02+0.03+0.11)×2=0.32<0.5,
第四组的频率为0.14×2=0.28,
所以(a-6)×0.14=0.5-0.32,所以a=≈7.29.
所以学生周平均体育锻炼时间的中位数是7.29.
(2)由已知,锻炼时间在[0,2]和(2,4]中的人数分别是50×0.02×2=2人,50×0.03×2=3人,分别记在[0,2]的2人为a1,a2,(2,4]的3人为b1,b2,b3,则随机抽取2人调查的所有基本事件列举为(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),(b1,b2),(b1,b3),(b2,b3)共10个基本事件,
其中体育锻炼时间都超过2小时包含3个基本事件,
所以p=.
(3)由已知可知,不超过4小时的人数为50×0.05×2=5人,其中女生有3人,所以男生有2人,因此经常锻炼的女生有50×40%-3=17人,男生有30-2=28人,
所以2×2列联表为
| 男生 | 女生 | 小计 |
经常锻炼 | 28 | 17 | 45 |
不经常锻炼 | 2 | 3 | 5 |
小计 | 30 | 20 | 50 |
所以K2==<2.706.
所以没有90%的把握说明,是否经常锻炼与性别有关.
解独立性检验问题的步骤:
(1)根据样本数据列2×2列联表;
(2)根据公式K2=计算K2的值.
(3)比较K2与临界值的大小关系作出判断.
热点训练2:(2018·梅州二模)某学校共有1 500名学生,为调查该校学生每周使用手机上网时间的情况,采用分层抽样的方法,收集100名学生每周上网时间的样本数据(单位:小时).根据这100个样本数据,得到学生每周上网时间的频率分布直方图(如图所示),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].
(1)估计该校学生每周平均使用手机上网时间(每组数据以组中值为代表);
(2)估计该校学生每周使用手机上网时间超过4个小时的概率;
(3)将每周使用手机上网时间在(4,12]内的定义为“长时间使用手机上网”;每周使用手机上网时间在(0,4]内的定义为“不长时间使用手机上网”.在样本数据中,有25名学生不近视.请完成每周使用手机上网的时间与近视程度的2×2列联表,并判断是否有95%的把握认为“该校学生的每周使用手机上网时间与近视程度有关”.
| 近视 | 不近视 | 合计 |
长时间使用手机 |
|
|
|
不长时间使用手机 |
| 15 |
|
合计 |
| 25 |
|
附:K2=.
P(K2≥k0) | 0.1 | 0.05 | 0.010 | 0.005 |
k0 | 2.706 | 3.841 | 6.635 | 7.879 |
解:(1)根据频率分布直方图,计算
=1×0.025×2+3×0.100×2+5×0.150×2+7×0.125×2+9×0.075×2+11×0.025×2=5.8;
估计该校学生每周平均使用手机上网时间为5.8小时.
(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,
估计该校学生每周使用手机上网时间超过4个小时的概率为0.75.
(3)根据题意填写2×2列联表如下:
| 近视 | 不近视 | 合计 |
长时间使用手机 | 65 | 10 | 75 |
不长时间使用手机 | 10 | 15 | 25 |
合计 | 75 | 25 | 100 |
由表中数据,计算K2==≈21.78>3.841.
所以有95%的把握认为“该校学生的每周使用手机上网时间与近视程度有关”.
可线性化的非线性回归分析
【例4】 某品牌汽车旗下的4S店以“四位一体”(整车销售、零配件销售、售后服务、信息反馈)为核心的模式经营,4S店为了了解该品牌的A,B,C三种车型的质量问题,从出售时间5年以上的该三种车型的汽车中各随机抽取100辆进行跟踪调查,发现各车型在一年内需要维修的车辆如表(1)所示.
(1)该4S店从所有的跟踪服务的A,B,C三种车型的汽车中用分层抽样的方法抽取10个样本做进一步调查,求分别抽取的A,B,C三种车型的汽车辆数;
(2)该品牌汽车研发中心针对A,B,C三种车型在维修中反映的主要问题研发了一种辅助产品,4S店需要对研发中心研发的辅助产品进行合理定价,该产品在试营时的数据如散点图和表(2)所示.根据散点图判断,y与x和z与x哪一对具有的线性相关性较强(给出判断即可,不必说明理由)?并根据你的判断结果及数据,求y关于x的回归方程(方程中的系数均保留两位小数).
表(1)
车型 | A | B | C |
维修频数 | 20 | 40 | 40 |
表(2)
定价x/(百元/件) | 10 | 20 | 30 | 40 | 50 | 60 |
年销量y/件 | 1 150 | 643 | 424 | 262 | 165 | 86 |
z=2ln y | 14.1 | 12.9 | 12.1 | 11.1 | 10.2 | 8.9 |
参考数据:(xi-)(yi-)=-34 580,(xi-)(zi-)=-175.5,(yi-)2=776 840,(yi-)(zi-)=3 465.2.
参考公式:对于一组数据(x1,y1),(x2,y2),(x3,y3),…,(xn,yn),其回归方程=x+的斜率和截距的最小二乘估计分别为
==,=-.
解:(1)抽取的A车型的汽车辆数为×10=2,
抽取的B车型的汽车辆数为×10=4,
抽取的C车型的汽车辆数为×10=4,
故抽取的A,B,C三种车型的汽车辆数分别为2,4,4.
(2)由散点图可知,z与x具有的线性相关性较强.
由题设知==35,
==11.55,
==-≈-0.10,
所以=-≈15.05,
所以=x+=15.05-0.10x.
又z=2ln y,
所以y关于x的回归方程为=.
解非线性回归分析问题,首先观察散点图,挑出与散点图拟合得最好的函数,然后采用适当的变量置换把问题转化为线性回归分析问题.
热点训练3:(2018广州综合测试)某地1~10岁男童年龄xi(单位:岁)与身高的中位数yi(单位:cm)(i=1,2,…,10)如表:
x/岁 | 1 | 2 | 3 | 4 | 5 |
y/cm | 76.5 | 88.5 | 96.8 | 104.1 | 111.3 |
x/岁 | 6 | 7 | 8 | 9 | 10 |
y/cm | 117.7 | 124.0 | 130.0 | 135.4 | 140.2 |
对上表的数据作初步处理,得到下面的散点图及一些统计量的值.
(xi-)2 | (yi-)2 | (xi-)(yi-) | ||
5.5 | 112.45 | 82.50 | 3 947.71 | 566.85 |
(1)求y关于x的线性回归方程(回归方程系数精确到0.01);
(2)某同学认为,y=px2+qx+r更适宜作为y关于x的回归方程模型,他求得的回归方程是=-0.30x2+10.17x+68.07.经调查,该地11岁男童身高的中位数为145.3 cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?
附:回归方程=+x中的斜率和截距的最小二乘估计分别为=,=-.
解:(1)==≈6.87,
=-=112.45-6.87×5.5≈74.67,
所以y关于x的线性回归方程为=6.87x+74.67,
(2)若回归方程为=6.87x+74.67,
则当x=11时,=150.24.
若回归方程为=-0.30x2+10.17x+68.07,则当x=11时,=143.64.
|143.64-145.3|=1.66<|150.24-145.3|=4.94,
所以回归方程=-0.30x2+10.17x+68.07的拟合效果更好.
【例1】 (2018·山西八校联考)某网店与某生产企业联合研发了一种新产品,该产品在该网店试销一个阶段后得到销售单价x(单位:元)和销售量y(单位:万件)之间的一组数据,如表所示:
销售单价x/元 | 9 | 9.5 | 10 | 10.5 | 11 |
销售量y/万件 | 11 | 10 | 8 | 6 | 5 |
(1)根据表中数据,建立y关于x的回归方程;
(2)从反馈的信息看,消费者对该产品的心理价(单位:元/件)在[7,9]内,已知该产品的成本是a元/件(a>2),那么在消费者对该产品的心理价的范围内,销售单价定为多少时,网店才能获得最大利润?(注:利润=销售收入-成本)
参考数据:xiyi=392,=502.5.
参考公式:回归方程=x+,其中=,
=-.
解:(1)因为=×(9+9.5+10+10.5+11)=10,
=×(11+10+8+6+5)=8,
所以==-3.2,
则=8-(-3.2)×10=40.
所以y关于x的回归方程为=-3.2x+40.
(2)由已知得利润L=(x-a)(-3.2x+40)=-3.2x2+(40+3.2a)x-40a,x∈[7,9],
该二次函数图象的对称轴方程为x==.
因为a>2,所以>.
当>9,即a>时,函数在区间[7,9]上单调递增,所以当x=9时,L取得最大值;
当<≤9,即2<a≤时,函数在7,上单调递增,在,9上单调递减,所以当x=时,L取得最大值.综上,当a>时,该产品的销售单价为9元时,网店能获得最大利润;当2<a≤时,该产品的销售单价定为元时,网店能获得最大利润.
【例2】 (2018济南市模拟)2018年2月22日上午,山东省委、省政府在济南召开山东省全面展开新旧动能转换重大工程动员大会,会议动员各方力量,迅速全面展开新旧动能转换重大工程.某企业响应号召,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在[20,40)内的产品视为合格品,否则为不合格品.设备改造前的样本的频率分布直方图和设备改造后的样本的频率分布表如下所示.
设备改造后样本的频率分布表
质量指标值 | [15,20) | [20,25) | [25,30) |
频数 | 4 | 36 | 96 |
质量指标值 | [30,35) | [35,40) | [40,45] |
频数 | 28 | 32 | 4 |
(1)完成下面的2×2列联表,并判断是否有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关;
| 设备改造前 | 设备改造后 | 合计 |
合格品 |
|
|
|
不合格品 |
|
|
|
合计 |
|
|
|
(2)根据上述数据,试从产品合格率的角度对改造前后设备的优劣进行比较;
(3)根据市场调查,设备改造后,每生产一件合格品企业可获利180元,一件不合格品亏损100元,用频率估计概率,则生产1 000件产品企业大约能获利多少元?
附:
P(K2≥k0) | 0.150 | 0.100 | 0.050 | 0.025 | 0.010 |
k0 | 2.072 | 2.706 | 3.841 | 5.024 | 6.635 |
K2=.
解:(1)根据题中图和表得到2×2列联表:
| 设备改造前 | 设备改造后 | 合计 |
合格品 | 172 | 192 | 364 |
不合格品 | 28 | 8 | 36 |
合计 | 200 | 200 | 400 |
将2×2列联表中的数据代入公式计算得
K2=≈12.21.
因为12.21>6.635,
所以有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.
(2)根据题中图和表可知,设备改造后产品的合格率约为=,设备改造前产品的合格率约为=,即设备改造后产品的合格率更高,因此,设备改造后性能更好.
(3)用频率估计概率,1 000件产品中大约有960件合格品,40件不合格品,则180×960-100×40=168 800,
所以该企业大约获利168 800元.
【例3】 (2018·新余二模)“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称,某市为了了解人们对“一带一路”的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分100分(90分及以上为认知程度高),现从参赛者中抽取了x人,按年龄分成5组(第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45]),得到如图所示的频率分布直方图,已知第一组有6人.
(1)求x;
(2)求抽取的x人的年龄的中位数(结果保留整数);
(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层抽样的方法依次抽取6人,42人,36人,24人,12人,分别记1~5组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加知识竞赛代表相应的成绩,年龄组中1~5组的成绩分别为93,96,97,94,90,职业组中1~5组的成绩分别为93,98,94,95,90.
①分别求5个年龄组和5个职业组成绩的平均数和方差;
②以上述数据为依据,评价5个年龄组和5个职业组对“一带一路”的认知程度,并谈谈你的感想.
解:(1)根据频率分布直方图得第一组频率为
0.01×5=0.05,
所以=0.05,
所以x=120.
(2)设中位数为a,则
0.01×5+0.07×5+(a-30)×0.06=0.5,
解得a=≈32,
所以中位数为32.
(3)①5个年龄组的平均数为
=(93+96+97+94+90)=94,
方差为=[(-1)2+22+32+02+(-4)2]=6,
5个职业组的平均数为
=(93+98+94+95+90)=94,
方差为=[(-1)2+42+02+12+(-4)2]=6.8.
②评价:从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更好.
感想:“一带一路”是指“丝绸之路经济带”和“21世纪海上丝绸之路”的简称.它将充分依靠中国与有关国家既有的双多边机制,借助既有的、行之有效的区域合作平台,“一带一路”战略目标是要建立一个政治互信、经济融合、文化包容的利益共同体、命运共同体和责任共同体,是包括欧亚大陆在内的世界各国,构建一个互惠互利的利益、命运和责任共同体.
(对应学生用书第61页)
【典例】 (2018·全国Ⅲ卷,理18)(12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图,
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
| 超过m | 不超过m |
第一种生产方式 |
|
|
第二种生产方式 |
|
|
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k) | 0.050 | 0.010 | 0.001 |
k | 3.841 | 6.635 | 10.828 |
.
评分细则:
解:(1)第二种生产方式的效率更高.1分
理由如下(写出一种,合理即可):
①由茎叶图可知,用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
②由茎叶图可知,用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
③由茎叶图可知,用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.4分
(由上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)
(2)由茎叶图知m==80.6分
2×2列联表如下:
| 超过m | 不超过m |
第一种生产方式 | 15 | 5 |
第二种生产方式 | 5 | 15 |
8分
(3)由于K2==10>6.635,11分
所以有99%的把握认为两种生产方式的效率有差异.12分
注:第(1)问得分说明:
①判断出效率更高的生产方式,得1分;
②根据茎叶图中的数据分布,分析出效率更高,生产方式的任意一种合理理由均得3分.
第(2)问得分说明:
①由茎叶图中的数据及中位数定义求出中位数,得2分;
②列出2×2列联表,得2分,
第(3)问得分说明:
①用独立性检验公式求出K2的值,并与6.635比较,得3分;
②得出结论,得1分.
【答题启示】
(1)统计中涉及的图形较多,常见的有条形图、扇形图、折线图、茎叶图、频率分布直方图等,要熟练掌握这些图的特点,并能根据图直观进行一些判断或计算.本题常不能根据茎叶图的数据分布特点进行判断、计算而失分.
(2)常因概念(中位数)不清而失分.
(3)常因计算马虎而失分.