还剩18页未读,
继续阅读
所属成套资源:2019届高三文科数学二轮复习配套精品教案
成套系列资料,整套一键下载
2019届高三文科数学二轮复习配套教案:第一篇专题七第2讲 统计案例
展开
第2讲 统计案例
(对应学生用书第50~51页)
1.(2018·全国Ⅱ卷,文18)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为
=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下(写出一种,合理即可):
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
2.(2017·全国Ⅱ卷,文19)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=
解:(1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
3.(2016·全国Ⅲ卷,文18)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为
=,=-.
解:(1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28,=0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103,
=-≈1.331-0.103×4≈0.92.
所以,y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得
=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量为1.82亿吨.
4.(2015·全国Ⅰ卷,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
46.6
563
6.8
289.8
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
1.6
1 469
108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=-.
解:(1)由题目散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68.
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值
=100.6+68=576.6,
年利润z的预报值
=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,
即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
1.考查角度
常以贴近考生、贴近生活的实际问题为背景,以统计图、表为依据,考查独立性检验、线性回归方程并由回归方程估计预测,有时还需将非线性回归模型转化为线性回归模型解决.
2.题型及难易度
解答题,难度中低档.
(对应学生用书第52~55页)
线性回归分析
考向1 线性回归方程
【例1】 (2018·湖南省湘东五校联考)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据:
日期
1月
10日
2月
10日
3月
10日
4月
10日
5月
10日
6月
10日
昼夜温差x/℃
10
11
13
12
8
6
就诊人数y/个
22
25
29
26
16
12
该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月的概率;
(2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据,求出y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
参考公式:=,=-.
参考数据:11×25+13×29+12×26+8×16=1 092,112+132+122+82=498.
解:(1)设选到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有5种,所以P(A)==.
(2)由表中2月份至5月份的数据可得=11,=24,xiyi=1 092,=498,所以==,则=-=-,
所以y关于x的线性回归方程为=x-.
(3)当x=10时,=,-22<2;
当x=6时,=,-12<2.
所以,该小组所得线性回归方程是理想的.
考向2 相关系数
【例2】
(2018·广州市调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该基地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(单位:千克)与使用某种液体肥料的质量x(单位:千克)之间的对应数据如图所示.
(1)依据图中数据计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:
周光照量X/小时
30
50≤X≤70
X>70
光照控制仪运行台数
3
2
1
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.
相关系数公式:r=,
参考数据:≈0.55,≈0.95.
解:(1)由已知数据可得==5,==4.
因为(xi-)(yi-)=(-3)×(-1)+0+0+0+3×1=6,
==2,
==,
所以相关系数r===≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
(2)由条件可得在过去50周里,
当X>70时,共有10周,此时只有1台光照控制仪运行,
每周的周总利润为1×3 000-2×1 000=1 000(元).
当50≤X≤70时,共有35周,此时有2台光照控制仪运行,
每周的周总利润为2×3 000-1×1 000=5 000(元).
当30
每周的周总利润为3×3 000=9 000(元).
所以过去50周的周总利润的平均值为
=4 600(元),
所以商家在过去50周的周总利润的平均值为4 600元.
(1)求线性回归方程的步骤
①计算,;
②计算xiyi,;
③计算=
=,
=-[回归直线必过样本点的中心(,)].
④写出回归方程=x+.
(2)利用回归直线方程进行预测估计时,代入相应的数值后求得的结果是估计值,并非准确值.
(3)相关系数
r=
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强,r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.
热点训练1:(2018·广西三市第二次调研)某地区积极发展电商,通过近些年工作的开展在新农村建设和扶贫过程中起到了非常重要的作用,促进了农民生活富裕.为了更好地了解本地区某一特色产品的宣传费x(千元)对销量y(千件)的影响,统计了近六年的数据如下:
年份代号
1
2
3
4
5
6
宣传费(千元)
2
4
5
6
8
10
销量(千件)
30
40
60
50
70
y
利润(千元)
40
70
110
90
160
205
(1)若近6年的宣传费x与销量y呈线性分布,由前5年数据求线性回归直线方程,并写出y的预测值;
(2)若利润与宣传费的比值不低于20的年份称为“吉祥年”,在这6个年份中任意选2个年份,求这2个年份均为“吉祥年”的概率.
附:回归方程=x+的斜率与截距的最小二乘法估计分别为=,
=-,其中,为xi,yi的平均数.
解:(1)由前5年数据可得
==5,
==50,
xiyi=2×30+4×40+5×60+6×50+8×70=1 380,
=4+16+25+36+64=145,
5 =1 250,5=125,
所以===6.5,
=-=50-6.5×5=17.5,
所以回归直线方程为=6.5x+17.5,
把x=10代入得=65+17.5=82.5,
所以y的预测值为82.5.
(2)从6个年份中任取2个年份的情况为
{(2,40),(4,70)},{(2,40),(5,110)},{(2,40),(6,90)},{(2,40),(8,160)},{(2,40),(10,205)},{(4,70),(5,110)},{(4,70),(6,90)},{(4,70),(8,160)},{(4,70),(10,205)},{(5,110),(6,90)},{(5,110),(8,160)},{(5,110),(10,205)},{(6,90),(8,160)},{(6,90),(10,205)},{(8,160),(10,205)},共15种.
2个年份均为“吉祥年”的情况有{(2,40),(5,110)},{(2,40),(8,160)},{(2,40),(10,205)},{(5,110),(8,160)},{(5,110),(10,205)},{(8,160),(10,205)},共6种.
所以6个年份中任意选2个年份均为“吉祥年”的概率为=.
独立性检验
【例3】 (2018·江西九校联考)进入高三,同学们的学习越来越紧张,学生休息和锻炼的时间也减少了.学校为了提高学生的学习效率,鼓励学生加强体育锻炼.某中学高三(3)班有学生50人.现调查该班学生每周平均体育锻炼时间的情况,得到如下频率分布直方图.其中数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].
(1)求学生周平均体育锻炼时间的中位数(保留3位有效数字);
(2)从每周平均体育锻炼时间在[0,4]的学生中,随机抽取2人进行调查,求此2人的每周平均体育锻炼时间都超过2小时的概率;
(3)现全班学生中有40%是女生,其中3个女生的每周平均体育锻炼时间不超过4小时.若每周平均体育锻炼时间超过4小时称为经常锻炼,问:有没有90%的把握说明,是否经常锻炼与性别有关?
附:K2=
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
解:(1)设中位数为a,
因为前三组的频率和为(0.02+0.03+0.11)×2=0.32<0.5,
第四组的频率为0.14×2=0.28,
所以(a-6)×0.14=0.5-0.32,所以a=≈7.29.
所以学生周平均体育锻炼时间的中位数是7.29.
(2)由已知,锻炼时间在[0,2]和(2,4]中的人数分别是50×0.02×2=2人,50×0.03×2=3人,分别记在[0,2]的2人为a1,a2,(2,4]的3人为b1,b2,b3,则随机抽取2人调查的所有基本事件列举为(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),(b1,b2),(b1,b3),(b2,b3)共10个基本事件,
其中体育锻炼时间都超过2小时包含3个基本事件,
所以p=.
(3)由已知可知,不超过4小时的人数为50×0.05×2=5人,其中女生有3人,所以男生有2人,因此经常锻炼的女生有50×40%-3=17人,男生有30-2=28人,
所以2×2列联表为
男生
女生
小计
经常锻炼
28
17
45
不经常锻炼
2
3
5
小计
30
20
50
所以K2==<2.706.
所以没有90%的把握说明,是否经常锻炼与性别有关.
解独立性检验问题的步骤:
(1)根据样本数据列2×2列联表;
(2)根据公式K2=计算K2的值.
(3)比较K2与临界值的大小关系作出判断.
热点训练2:(2018·南昌市摸底)微信已成为人们常用的社交软件,“微信运动”是微信里由腾讯开发的一个类似计步数据库的公众号.手机用户可以通过关注“微信运动”公众号查看自己每天行走的步数,同时也可以和好友进行运动量的PK或点赞.现从小明的微信好友中随机选取了40人(男、女各20人),记录了他们某一天行走的步数,并将数据整理如表:
步数
性别
0~
2 000
2 001~
5 000
5 001~
8 000
8 001~
10 000
>10 000
男
1
2
4
7
6
女
0
3
9
6
2
若某人一天行走的步数超过8 000,则其被评定为“积极型”,否则被评定为“懈怠型”.
(1)利用样本估计总体的思想,试估计小明的微信好友每日行走的步数超过10 000的概率;
(2)根据题意完成下面的2×2列联表,并据此判断能否有90%的把握认为“评定类型”与“性别”有关.
积极型
懈怠型
总计
男
女
总计
附:K2=,n=a+b+c+d.
P(K2≥k0)
0.10
0.05
0.010
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
解:(1)根据表中数据可知,40位好友中每日行走的步数超过10 000的有8人,所以利用样本估计总体的思想,估计小明的微信好友每日行走的步数超过10 000的概率P==0.2.
(2)2×2列联表如下:
积极型
懈怠型
总计
男
13
7
20
女
8
12
20
总计
21
19
40
所以K2=≈2.506<2.706,
所以没有90%的把握认为“评定类型”与“性别”有关.
可线性化的非线性回归分析
【例4】 某品牌汽车旗下的4S店以“四位一体”(整车销售、零配件销售、售后服务、信息反馈)为核心的模式经营,4S店为了了解该品牌的A,B,C三种车型的质量问题,从出售时间5年以上的该三种车型的汽车中各随机抽取100辆进行跟踪调查,发现各车型在一年内需要维修的车辆如表(1)所示.
(1)该4S店从所有的跟踪服务的A,B,C三种车型的汽车中用分层抽样的方法抽取10个样本做进一步调查,求分别抽取的A,B,C三种车型的汽车辆数;
(2)该品牌汽车研发中心针对A,B,C三种车型在维修中反映的主要问题研发了一种辅助产品,4S店需要对研发中心研发的辅助产品进行合理定价,该产品在试营时的数据如散点图和表(2)所示.根据散点图判断,y与x和z与x哪一对具有的线性相关性较强(给出判断即可,不必说明理由)?并根据你的判断结果及数据,求y关于x的回归方程(方程中的系数均保留两位小数).
表(1)
车型
A
B
C
维修频数
20
40
40
表(2)
定价x/(百元/件)
10
20
30
40
50
60
年销量y/件
1 150
643
424
262
165
86
z=2ln y
14.1
12.9
12.1
11.1
10.2
8.9
参考数据:(xi-)(yi-)=-34 580,(xi-)(zi-)=-175.5,(yi-)2=776 840,(yi-)(zi-)=3 465.2.
参考公式:对于一组数据(x1,y1),(x2,y2),(x3,y3),…,(xn,yn),其回归方程=x+的斜率和截距的最小二乘估计分别为
==,=-.
解:(1)抽取的A车型的汽车辆数为×10=2,
抽取的B车型的汽车辆数为×10=4,
抽取的C车型的汽车辆数为×10=4,
故抽取的A,B,C三种车型的汽车辆数分别为2,4,4.
(2)由散点图可知,z与x具有的线性相关性较强.
由题设知==35,
==11.55,
==-≈-0.10,
所以=-≈15.05,所以=x+=15.05-0.10x.
又z=2ln y,所以y关于x的回归方程为=.
解非线性回归分析问题,首先观察散点图,挑出与散点图拟合得最好的函数,然后采用适当的变量置换把问题转化为线性回归分析问题.
热点训练3:(2018广州综合测试)某地1~10岁男童年龄xi(单位:岁)与身高的中位数yi(单位:cm)(i=1,2,…,10)如表:
x/岁
1
2
3
4
5
y/cm
76.5
88.5
96.8
104.1
111.3
x/岁
6
7
8
9
10
y/cm
117.7
124.0
130.0
135.4
140.2
对上表的数据作初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(yi-)2
(xi-)(yi-)
5.5
112.45
82.50
3 947.71
566.85
(1)求y关于x的线性回归方程(回归方程系数精确到0.01);
(2)某同学认为,y=px2+qx+r更适宜作为y关于x的回归方程模型,他求得的回归方程是=-0.30x2+10.17x+68.07.经调查,该地11岁男童身高的中位数为145.3 cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?
附:回归方程=+x中的斜率和截距的最小二乘估计分别为=,=-.
解:(1)==≈6.87,
=-=112.45-6.87×5.5≈74.67,
所以y关于x的线性回归方程为=6.87x+74.67,
(2)若回归方程为=6.87x+74.67,
则当x=11时,=150.24.
若回归方程为=-0.30x2+10.17x+68.07,则当x=11时,=143.64.
|143.64-145.3|=1.66<|150.24-145.3|=4.94,
所以回归方程=-0.30x2+10.17x+68.07的拟合效果更好.
【例1】 (2018·山西八校联考)某网店与某生产企业联合研发了一种新产品,该产品在该网店试销一个阶段后得到销售单价x(单位:元)和销售量y(单位:万件)之间的一组数据,如表所示:
销售单价x/元
9
9.5
10
10.5
11
销售量y/万件
11
10
8
6
5
(1)根据表中数据,建立y关于x的回归方程;
(2)从反馈的信息看,消费者对该产品的心理价(单位:元/件)在[7,9]内,已知该产品的成本是a元/件(a>2),那么在消费者对该产品的心理价的范围内,销售单价定为多少时,网店才能获得最大利润?(注:利润=销售收入-成本)
参考数据:xiyi=392,=502.5.
参考公式:回归方程=x+,其中=,
=-.
解:(1)因为=×(9+9.5+10+10.5+11)=10,
=×(11+10+8+6+5)=8,
所以==-3.2,
则=8-(-3.2)×10=40.
所以y关于x的回归方程为=-3.2x+40.
(2)由已知得利润L=(x-a)(-3.2x+40)=-3.2x2+(40+3.2a)x-40a,x∈[7,9],
该二次函数图象的对称轴方程为x==.
因为a>2,所以>.
当>9,即a>时,函数在区间[7,9]上单调递增,所以当x=9时,L取得最大值;
当<≤9,即2时,该产品的销售单价为9元时,网店能获得最大利润;当2 【例2】 (2018济南市模拟)2018年2月22日上午,山东省委、省政府在济南召开山东省全面展开新旧动能转换重大工程动员大会,会议动员各方力量,迅速全面展开新旧动能转换重大工程.某企业响应号召,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在[20,40)内的产品视为合格品,否则为不合格品.设备改造前的样本的频率分布直方图和设备改造后的样本的频率分布表如下所示.
设备改造后样本的频率分布表
质量指标值
[15,20)
[20,25)
[25,30)
频数
4
36
96
质量指标值
[30,35)
[35,40)
[40,45]
频数
28
32
4
(1)完成下面的2×2列联表,并判断是否有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关;
设备改造前
设备改造后
合计
合格品
不合格品
合计
(2)根据上述数据,试从产品合格率的角度对改造前后设备的优劣进行比较;
(3)根据市场调查,设备改造后,每生产一件合格品企业可获利180元,一件不合格品亏损100元,用频率估计概率,则生产1 000件产品企业大约能获利多少元?
附:
P(K2≥k0)
0.150
0.100
0.050
0.025
0.010
k0
2.072
2.706
3.841
5.024
6.635
K2=.
解:(1)根据题中图和表得到2×2列联表:
设备改造前
设备改造后
合计
合格品
172
192
364
不合格品
28
8
36
合计
200
200
400
将2×2列联表中的数据代入公式计算得
K2=≈12.21.
因为12.21>6.635,
所以有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.
(2)根据题中图和表可知,设备改造后产品的合格率约为=,设备改造前产品的合格率约为=,即设备改造后产品的合格率更高,因此,设备改造后性能更好.
(3)用频率估计概率,1 000件产品中大约有960件合格品,40件不合格品,则180×960-100×40=168 800,
所以该企业大约获利168 800元.
【例3】 (2017·黑龙江齐齐哈尔二模)2015年7月9日21时15分,台风“莲花”在我国广东省陆丰市甲东镇沿海登陆,造成165.17万人受灾,5.6万人紧急转移安置,288间房屋倒塌,46.5千公顷农田受灾,直接经济损失 12.99 亿元,距离陆丰市222千米的梅州也受到了台风的影响,适逢暑假,小明调查了梅州某小区的50户居民由于台风造成的经济损失,将收集的数据制成如下频率分布直方图:
(1)试根据频率分布直方图估计小区平均每户居民的平均损失;
(同一组中的数据用该组区间的中点值作代表);
(2)小明向班级同学发出倡议,为该小区居民捐款,现从损失超过6 000元的居民中随机抽出2户进行捐款援助,求抽出的2户居民损失均超过8 000元的概率;
(3)台风后区委会号召该小区居民为台风重灾区捐款,小明调查的50户居民捐款情况如下2×2列联表,在表格空白处填写正确数字,并说明是否有95%以上的把握认为捐款数额超过或不超过500元和自身经济损失是否超过4 000 元有关?
经济损失不
超过4 000元
经济损失
超过4 000元
合计
捐款超过500元
30
捐款不超过500元
6
合计
附:临界值参考公式:K2=,n=a+b+c+d.
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解:(1)记每户居民的平均损失为元,
则=(1 000×0.000 15+3 000×0.000 20+5 000×0.000 09+7 000×0.000 03+9 000×0.000 03)×2 000=3 360;
所以估计小区平均每户居民的平均损失3 360元.
(2)损失超过6 000元的居民共有50×0.000 03×2×2 000=6(户),
其中损失超过8 000元的居民有3户,
现从这6户中随机抽出2户,
则抽出的2户居民损失均超过8 000元的概率为
P==.
(3)根据题意填写列联表,如图所示:
经济损失
不超过4 000元
经济损失
超过4 000元
合计
捐款超过500元
30
9
39
捐款不超过500元
5
6
11
合计
35
15
50
计算K2==4.046>3.841,
所以有95%以上的把握认为捐款数额超过或不超过 500元和自身经济损失是否超过4 000元有关.
(对应学生用书第55~56页)
【典例】 (2018·全国Ⅲ卷,文18)(12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图,
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
评分细则:
解:(1)第二种生产方式的效率更高.1分
理由如下(写出一种,合理即可):
①由茎叶图可知,用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
②由茎叶图可知,用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
③由茎叶图可知,用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.4分
(由上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)
(2)由茎叶图知m==80.6分
2×2列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
8分
(3)由于K2==10>6.635,11分
所以有99%的把握认为两种生产方式的效率有差异.12分
注:第(1)问得分说明:
①判断出效率更高的生产方式,得1分;
②根据茎叶图中的数据分布,分析出效率更高,生产方式的任意一种合理理由均得3分.
第(2)问得分说明:
①由茎叶图中的数据及中位数定义求出中位数,得2分;
②列出2×2列联表,得2分,
第(3)问得分说明:
①用独立性检验公式求出K2的值,并与6.635比较,得3分;
②得出结论,得1分.
【答题启示】
(1)统计中涉及的图形较多,常见的有条形图、扇形图、折线图、茎叶图、频率分布直方图等,要熟练掌握这些图的特点,并能根据图直观进行一些判断或计算.本题常不能根据茎叶图的数据分布特点进行判断、计算而失分.
(2)常因概念(中位数)不清而失分.
(3)常因计算马虎而失分.
(对应学生用书第50~51页)
1.(2018·全国Ⅱ卷,文18)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为
=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下(写出一种,合理即可):
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
2.(2017·全国Ⅱ卷,文19)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=
解:(1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
3.(2016·全国Ⅲ卷,文18)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1~7分别对应年份2008~2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:
参考数据:yi=9.32,tiyi=40.17,=0.55,≈2.646.
参考公式:相关系数r=,
回归方程=+t中斜率和截距的最小二乘估计公式分别为
=,=-.
解:(1)由折线图中数据和附注中参考数据得
=4,(ti-)2=28,=0.55,
(ti-)(yi-)=tiyi-yi=40.17-4×9.32=2.89,r≈≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=≈1.331及(1)得
==≈0.103,
=-≈1.331-0.103×4≈0.92.
所以,y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得
=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量为1.82亿吨.
4.(2015·全国Ⅰ卷,文19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
46.6
563
6.8
289.8
(wi-)2
(xi-)(yi-)
(wi-)(yi-)
1.6
1 469
108.8
表中wi=,=wi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为=,=-.
解:(1)由题目散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.
由于===68.
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为=100.6+68w,
因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值
=100.6+68=576.6,
年利润z的预报值
=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,
即x=46.24时,取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
1.考查角度
常以贴近考生、贴近生活的实际问题为背景,以统计图、表为依据,考查独立性检验、线性回归方程并由回归方程估计预测,有时还需将非线性回归模型转化为线性回归模型解决.
2.题型及难易度
解答题,难度中低档.
(对应学生用书第52~55页)
线性回归分析
考向1 线性回归方程
【例1】 (2018·湖南省湘东五校联考)某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1月份至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下数据:
日期
1月
10日
2月
10日
3月
10日
4月
10日
5月
10日
6月
10日
昼夜温差x/℃
10
11
13
12
8
6
就诊人数y/个
22
25
29
26
16
12
该兴趣小组确定的研究方案是:先从这6组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(1)求选取的2组数据恰好是相邻两个月的概率;
(2)若选取的是1月份与6月份的两组数据,请根据2月份至5月份的数据,求出y关于x的线性回归方程=x+;
(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
参考公式:=,=-.
参考数据:11×25+13×29+12×26+8×16=1 092,112+132+122+82=498.
解:(1)设选到相邻两个月的数据为事件A.因为从6组数据中选取2组数据共有15种情况,且每种情况都是等可能的,其中,选到相邻两个月的数据的情况有5种,所以P(A)==.
(2)由表中2月份至5月份的数据可得=11,=24,xiyi=1 092,=498,所以==,则=-=-,
所以y关于x的线性回归方程为=x-.
(3)当x=10时,=,-22<2;
当x=6时,=,-12<2.
所以,该小组所得线性回归方程是理想的.
考向2 相关系数
【例2】
(2018·广州市调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该基地周光照量X(单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(单位:千克)与使用某种液体肥料的质量x(单位:千克)之间的对应数据如图所示.
(1)依据图中数据计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)
(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:
周光照量X/小时
30
X>70
光照控制仪运行台数
3
2
1
对商家来说,若某台光照控制仪运行,则该台光照控制仪产生的周利润为3 000元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.
相关系数公式:r=,
参考数据:≈0.55,≈0.95.
解:(1)由已知数据可得==5,==4.
因为(xi-)(yi-)=(-3)×(-1)+0+0+0+3×1=6,
==2,
==,
所以相关系数r===≈0.95.
因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.
(2)由条件可得在过去50周里,
当X>70时,共有10周,此时只有1台光照控制仪运行,
每周的周总利润为1×3 000-2×1 000=1 000(元).
当50≤X≤70时,共有35周,此时有2台光照控制仪运行,
每周的周总利润为2×3 000-1×1 000=5 000(元).
当30
所以过去50周的周总利润的平均值为
=4 600(元),
所以商家在过去50周的周总利润的平均值为4 600元.
(1)求线性回归方程的步骤
①计算,;
②计算xiyi,;
③计算=
=,
=-[回归直线必过样本点的中心(,)].
④写出回归方程=x+.
(2)利用回归直线方程进行预测估计时,代入相应的数值后求得的结果是估计值,并非准确值.
(3)相关系数
r=
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强,r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.
热点训练1:(2018·广西三市第二次调研)某地区积极发展电商,通过近些年工作的开展在新农村建设和扶贫过程中起到了非常重要的作用,促进了农民生活富裕.为了更好地了解本地区某一特色产品的宣传费x(千元)对销量y(千件)的影响,统计了近六年的数据如下:
年份代号
1
2
3
4
5
6
宣传费(千元)
2
4
5
6
8
10
销量(千件)
30
40
60
50
70
y
利润(千元)
40
70
110
90
160
205
(1)若近6年的宣传费x与销量y呈线性分布,由前5年数据求线性回归直线方程,并写出y的预测值;
(2)若利润与宣传费的比值不低于20的年份称为“吉祥年”,在这6个年份中任意选2个年份,求这2个年份均为“吉祥年”的概率.
附:回归方程=x+的斜率与截距的最小二乘法估计分别为=,
=-,其中,为xi,yi的平均数.
解:(1)由前5年数据可得
==5,
==50,
xiyi=2×30+4×40+5×60+6×50+8×70=1 380,
=4+16+25+36+64=145,
5 =1 250,5=125,
所以===6.5,
=-=50-6.5×5=17.5,
所以回归直线方程为=6.5x+17.5,
把x=10代入得=65+17.5=82.5,
所以y的预测值为82.5.
(2)从6个年份中任取2个年份的情况为
{(2,40),(4,70)},{(2,40),(5,110)},{(2,40),(6,90)},{(2,40),(8,160)},{(2,40),(10,205)},{(4,70),(5,110)},{(4,70),(6,90)},{(4,70),(8,160)},{(4,70),(10,205)},{(5,110),(6,90)},{(5,110),(8,160)},{(5,110),(10,205)},{(6,90),(8,160)},{(6,90),(10,205)},{(8,160),(10,205)},共15种.
2个年份均为“吉祥年”的情况有{(2,40),(5,110)},{(2,40),(8,160)},{(2,40),(10,205)},{(5,110),(8,160)},{(5,110),(10,205)},{(8,160),(10,205)},共6种.
所以6个年份中任意选2个年份均为“吉祥年”的概率为=.
独立性检验
【例3】 (2018·江西九校联考)进入高三,同学们的学习越来越紧张,学生休息和锻炼的时间也减少了.学校为了提高学生的学习效率,鼓励学生加强体育锻炼.某中学高三(3)班有学生50人.现调查该班学生每周平均体育锻炼时间的情况,得到如下频率分布直方图.其中数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].
(1)求学生周平均体育锻炼时间的中位数(保留3位有效数字);
(2)从每周平均体育锻炼时间在[0,4]的学生中,随机抽取2人进行调查,求此2人的每周平均体育锻炼时间都超过2小时的概率;
(3)现全班学生中有40%是女生,其中3个女生的每周平均体育锻炼时间不超过4小时.若每周平均体育锻炼时间超过4小时称为经常锻炼,问:有没有90%的把握说明,是否经常锻炼与性别有关?
附:K2=
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
解:(1)设中位数为a,
因为前三组的频率和为(0.02+0.03+0.11)×2=0.32<0.5,
第四组的频率为0.14×2=0.28,
所以(a-6)×0.14=0.5-0.32,所以a=≈7.29.
所以学生周平均体育锻炼时间的中位数是7.29.
(2)由已知,锻炼时间在[0,2]和(2,4]中的人数分别是50×0.02×2=2人,50×0.03×2=3人,分别记在[0,2]的2人为a1,a2,(2,4]的3人为b1,b2,b3,则随机抽取2人调查的所有基本事件列举为(a1,a2),(a1,b1),(a1,b2),(a1,b3),(a2,b1),(a2,b2),(a2,b3),(b1,b2),(b1,b3),(b2,b3)共10个基本事件,
其中体育锻炼时间都超过2小时包含3个基本事件,
所以p=.
(3)由已知可知,不超过4小时的人数为50×0.05×2=5人,其中女生有3人,所以男生有2人,因此经常锻炼的女生有50×40%-3=17人,男生有30-2=28人,
所以2×2列联表为
男生
女生
小计
经常锻炼
28
17
45
不经常锻炼
2
3
5
小计
30
20
50
所以K2==<2.706.
所以没有90%的把握说明,是否经常锻炼与性别有关.
解独立性检验问题的步骤:
(1)根据样本数据列2×2列联表;
(2)根据公式K2=计算K2的值.
(3)比较K2与临界值的大小关系作出判断.
热点训练2:(2018·南昌市摸底)微信已成为人们常用的社交软件,“微信运动”是微信里由腾讯开发的一个类似计步数据库的公众号.手机用户可以通过关注“微信运动”公众号查看自己每天行走的步数,同时也可以和好友进行运动量的PK或点赞.现从小明的微信好友中随机选取了40人(男、女各20人),记录了他们某一天行走的步数,并将数据整理如表:
步数
性别
0~
2 000
2 001~
5 000
5 001~
8 000
8 001~
10 000
>10 000
男
1
2
4
7
6
女
0
3
9
6
2
若某人一天行走的步数超过8 000,则其被评定为“积极型”,否则被评定为“懈怠型”.
(1)利用样本估计总体的思想,试估计小明的微信好友每日行走的步数超过10 000的概率;
(2)根据题意完成下面的2×2列联表,并据此判断能否有90%的把握认为“评定类型”与“性别”有关.
积极型
懈怠型
总计
男
女
总计
附:K2=,n=a+b+c+d.
P(K2≥k0)
0.10
0.05
0.010
0.005
0.001
k0
2.706
3.841
6.635
7.879
10.828
解:(1)根据表中数据可知,40位好友中每日行走的步数超过10 000的有8人,所以利用样本估计总体的思想,估计小明的微信好友每日行走的步数超过10 000的概率P==0.2.
(2)2×2列联表如下:
积极型
懈怠型
总计
男
13
7
20
女
8
12
20
总计
21
19
40
所以K2=≈2.506<2.706,
所以没有90%的把握认为“评定类型”与“性别”有关.
可线性化的非线性回归分析
【例4】 某品牌汽车旗下的4S店以“四位一体”(整车销售、零配件销售、售后服务、信息反馈)为核心的模式经营,4S店为了了解该品牌的A,B,C三种车型的质量问题,从出售时间5年以上的该三种车型的汽车中各随机抽取100辆进行跟踪调查,发现各车型在一年内需要维修的车辆如表(1)所示.
(1)该4S店从所有的跟踪服务的A,B,C三种车型的汽车中用分层抽样的方法抽取10个样本做进一步调查,求分别抽取的A,B,C三种车型的汽车辆数;
(2)该品牌汽车研发中心针对A,B,C三种车型在维修中反映的主要问题研发了一种辅助产品,4S店需要对研发中心研发的辅助产品进行合理定价,该产品在试营时的数据如散点图和表(2)所示.根据散点图判断,y与x和z与x哪一对具有的线性相关性较强(给出判断即可,不必说明理由)?并根据你的判断结果及数据,求y关于x的回归方程(方程中的系数均保留两位小数).
表(1)
车型
A
B
C
维修频数
20
40
40
表(2)
定价x/(百元/件)
10
20
30
40
50
60
年销量y/件
1 150
643
424
262
165
86
z=2ln y
14.1
12.9
12.1
11.1
10.2
8.9
参考数据:(xi-)(yi-)=-34 580,(xi-)(zi-)=-175.5,(yi-)2=776 840,(yi-)(zi-)=3 465.2.
参考公式:对于一组数据(x1,y1),(x2,y2),(x3,y3),…,(xn,yn),其回归方程=x+的斜率和截距的最小二乘估计分别为
==,=-.
解:(1)抽取的A车型的汽车辆数为×10=2,
抽取的B车型的汽车辆数为×10=4,
抽取的C车型的汽车辆数为×10=4,
故抽取的A,B,C三种车型的汽车辆数分别为2,4,4.
(2)由散点图可知,z与x具有的线性相关性较强.
由题设知==35,
==11.55,
==-≈-0.10,
所以=-≈15.05,所以=x+=15.05-0.10x.
又z=2ln y,所以y关于x的回归方程为=.
解非线性回归分析问题,首先观察散点图,挑出与散点图拟合得最好的函数,然后采用适当的变量置换把问题转化为线性回归分析问题.
热点训练3:(2018广州综合测试)某地1~10岁男童年龄xi(单位:岁)与身高的中位数yi(单位:cm)(i=1,2,…,10)如表:
x/岁
1
2
3
4
5
y/cm
76.5
88.5
96.8
104.1
111.3
x/岁
6
7
8
9
10
y/cm
117.7
124.0
130.0
135.4
140.2
对上表的数据作初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(yi-)2
(xi-)(yi-)
5.5
112.45
82.50
3 947.71
566.85
(1)求y关于x的线性回归方程(回归方程系数精确到0.01);
(2)某同学认为,y=px2+qx+r更适宜作为y关于x的回归方程模型,他求得的回归方程是=-0.30x2+10.17x+68.07.经调查,该地11岁男童身高的中位数为145.3 cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?
附:回归方程=+x中的斜率和截距的最小二乘估计分别为=,=-.
解:(1)==≈6.87,
=-=112.45-6.87×5.5≈74.67,
所以y关于x的线性回归方程为=6.87x+74.67,
(2)若回归方程为=6.87x+74.67,
则当x=11时,=150.24.
若回归方程为=-0.30x2+10.17x+68.07,则当x=11时,=143.64.
|143.64-145.3|=1.66<|150.24-145.3|=4.94,
所以回归方程=-0.30x2+10.17x+68.07的拟合效果更好.
【例1】 (2018·山西八校联考)某网店与某生产企业联合研发了一种新产品,该产品在该网店试销一个阶段后得到销售单价x(单位:元)和销售量y(单位:万件)之间的一组数据,如表所示:
销售单价x/元
9
9.5
10
10.5
11
销售量y/万件
11
10
8
6
5
(1)根据表中数据,建立y关于x的回归方程;
(2)从反馈的信息看,消费者对该产品的心理价(单位:元/件)在[7,9]内,已知该产品的成本是a元/件(a>2),那么在消费者对该产品的心理价的范围内,销售单价定为多少时,网店才能获得最大利润?(注:利润=销售收入-成本)
参考数据:xiyi=392,=502.5.
参考公式:回归方程=x+,其中=,
=-.
解:(1)因为=×(9+9.5+10+10.5+11)=10,
=×(11+10+8+6+5)=8,
所以==-3.2,
则=8-(-3.2)×10=40.
所以y关于x的回归方程为=-3.2x+40.
(2)由已知得利润L=(x-a)(-3.2x+40)=-3.2x2+(40+3.2a)x-40a,x∈[7,9],
该二次函数图象的对称轴方程为x==.
因为a>2,所以>.
当>9,即a>时,函数在区间[7,9]上单调递增,所以当x=9时,L取得最大值;
当<≤9,即2时,该产品的销售单价为9元时,网店能获得最大利润;当2 【例2】 (2018济南市模拟)2018年2月22日上午,山东省委、省政府在济南召开山东省全面展开新旧动能转换重大工程动员大会,会议动员各方力量,迅速全面展开新旧动能转换重大工程.某企业响应号召,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在[20,40)内的产品视为合格品,否则为不合格品.设备改造前的样本的频率分布直方图和设备改造后的样本的频率分布表如下所示.
设备改造后样本的频率分布表
质量指标值
[15,20)
[20,25)
[25,30)
频数
4
36
96
质量指标值
[30,35)
[35,40)
[40,45]
频数
28
32
4
(1)完成下面的2×2列联表,并判断是否有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关;
设备改造前
设备改造后
合计
合格品
不合格品
合计
(2)根据上述数据,试从产品合格率的角度对改造前后设备的优劣进行比较;
(3)根据市场调查,设备改造后,每生产一件合格品企业可获利180元,一件不合格品亏损100元,用频率估计概率,则生产1 000件产品企业大约能获利多少元?
附:
P(K2≥k0)
0.150
0.100
0.050
0.025
0.010
k0
2.072
2.706
3.841
5.024
6.635
K2=.
解:(1)根据题中图和表得到2×2列联表:
设备改造前
设备改造后
合计
合格品
172
192
364
不合格品
28
8
36
合计
200
200
400
将2×2列联表中的数据代入公式计算得
K2=≈12.21.
因为12.21>6.635,
所以有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.
(2)根据题中图和表可知,设备改造后产品的合格率约为=,设备改造前产品的合格率约为=,即设备改造后产品的合格率更高,因此,设备改造后性能更好.
(3)用频率估计概率,1 000件产品中大约有960件合格品,40件不合格品,则180×960-100×40=168 800,
所以该企业大约获利168 800元.
【例3】 (2017·黑龙江齐齐哈尔二模)2015年7月9日21时15分,台风“莲花”在我国广东省陆丰市甲东镇沿海登陆,造成165.17万人受灾,5.6万人紧急转移安置,288间房屋倒塌,46.5千公顷农田受灾,直接经济损失 12.99 亿元,距离陆丰市222千米的梅州也受到了台风的影响,适逢暑假,小明调查了梅州某小区的50户居民由于台风造成的经济损失,将收集的数据制成如下频率分布直方图:
(1)试根据频率分布直方图估计小区平均每户居民的平均损失;
(同一组中的数据用该组区间的中点值作代表);
(2)小明向班级同学发出倡议,为该小区居民捐款,现从损失超过6 000元的居民中随机抽出2户进行捐款援助,求抽出的2户居民损失均超过8 000元的概率;
(3)台风后区委会号召该小区居民为台风重灾区捐款,小明调查的50户居民捐款情况如下2×2列联表,在表格空白处填写正确数字,并说明是否有95%以上的把握认为捐款数额超过或不超过500元和自身经济损失是否超过4 000 元有关?
经济损失不
超过4 000元
经济损失
超过4 000元
合计
捐款超过500元
30
捐款不超过500元
6
合计
附:临界值参考公式:K2=,n=a+b+c+d.
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解:(1)记每户居民的平均损失为元,
则=(1 000×0.000 15+3 000×0.000 20+5 000×0.000 09+7 000×0.000 03+9 000×0.000 03)×2 000=3 360;
所以估计小区平均每户居民的平均损失3 360元.
(2)损失超过6 000元的居民共有50×0.000 03×2×2 000=6(户),
其中损失超过8 000元的居民有3户,
现从这6户中随机抽出2户,
则抽出的2户居民损失均超过8 000元的概率为
P==.
(3)根据题意填写列联表,如图所示:
经济损失
不超过4 000元
经济损失
超过4 000元
合计
捐款超过500元
30
9
39
捐款不超过500元
5
6
11
合计
35
15
50
计算K2==4.046>3.841,
所以有95%以上的把握认为捐款数额超过或不超过 500元和自身经济损失是否超过4 000元有关.
(对应学生用书第55~56页)
【典例】 (2018·全国Ⅲ卷,文18)(12分)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图,
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
.
评分细则:
解:(1)第二种生产方式的效率更高.1分
理由如下(写出一种,合理即可):
①由茎叶图可知,用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
②由茎叶图可知,用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
③由茎叶图可知,用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
④由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.4分
(由上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)
(2)由茎叶图知m==80.6分
2×2列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
8分
(3)由于K2==10>6.635,11分
所以有99%的把握认为两种生产方式的效率有差异.12分
注:第(1)问得分说明:
①判断出效率更高的生产方式,得1分;
②根据茎叶图中的数据分布,分析出效率更高,生产方式的任意一种合理理由均得3分.
第(2)问得分说明:
①由茎叶图中的数据及中位数定义求出中位数,得2分;
②列出2×2列联表,得2分,
第(3)问得分说明:
①用独立性检验公式求出K2的值,并与6.635比较,得3分;
②得出结论,得1分.
【答题启示】
(1)统计中涉及的图形较多,常见的有条形图、扇形图、折线图、茎叶图、频率分布直方图等,要熟练掌握这些图的特点,并能根据图直观进行一些判断或计算.本题常不能根据茎叶图的数据分布特点进行判断、计算而失分.
(2)常因概念(中位数)不清而失分.
(3)常因计算马虎而失分.
相关资料
更多