2019版二轮复习数学(文)通用版讲义:第一部分第二层级重点增分专题十一 统计、统计案例
展开重点增分专题十一 统计、统计案例
[全国卷3年考情分析]
年份 | 全国卷Ⅰ | 全国卷Ⅱ | 全国卷Ⅲ |
2018 | 统计图的识别与分析·T3 | 折线图、线性回归模型问题·T18 | 抽样方法·T14 |
茎叶图的应用及独立性检验·T18 | |||
2017 | 用样本的数字特征估计总体的数字特征·T2 |
| 折线图的识别与分析·T3 |
2016 |
|
| 统计图表的识别与分析·T4 |
(1)统计与统计案例在选择题或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在2~4题的位置.
(2)统计与统计案例在解答题中多出现在第18或19题位置,考查茎叶图、直方图、数字特征及统计案例,多以计算为主.
保分考点·练后讲评
1.福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为( )
81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 85 |
06 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49 |
A.12 B.33
C.06 D.16
解析:选C 被选中的红色球号码依次为17,12,33,06,32,22.所以第四个被选中的红色球号码为06,故选C.
2.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:
最喜爱 | 喜爱 | 一般 | 不喜欢 |
4 800 | 7 200 | 6 400 | 1 600 |
电视台为了了解观众的具体想法和意见,打算从中抽选100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选的人数分别为( )
A.25,25,25,25 B.48,72,64,16
C.20,40,30,10 D.24,36,32,8
解析:选D 因为抽样比为=,
所以每类人中应抽选的人数分别为4 800×=24,7 200×=36,6 400×=32, 1 600×=8.故选D.
3.某班共有学生56人,学号依次为1,2,3,…,56,现用系统抽样的方法抽取一个容量为4的样本,已知学号为2,30,44的同学在样本中,则样本中还有一位同学的学号为________.
解析:由题意得,将56人按学号从小到大分成4组,则分段间隔为14,所以抽取的学号依次为2,16,30,44,故还有一位同学的学号为16.
答案:16
[解题方略] 系统抽样和分层抽样中的计算
(1)系统抽样
①总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).
②若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…, k+(n-1).
(2)分层抽样
按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.
保分考点·练后讲评
[大稳定]
1.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量,如下表所示:
用电量/度 | 120 | 140 | 160 | 180 | 200 |
户数 | 2 | 3 | 5 | 8 | 2 |
则这20户家庭该月用电量的众数和中位数分别是( )
A.180,170 B.160,180
C.160,170 D.180,160
解析:选A 用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.
2.甲、乙两名同学在7次数学测试中的成绩如茎叶图所示,其中甲同学成绩的众数是85,乙同学成绩的中位数是83,则成绩较稳定的是________.
解析:根据众数及中位数的概念易得x=5,y=3,故甲同学成绩的平均数为=85,乙同学成绩的平均数为=85,故甲同学成绩的方差为×(49+36+25+49+121)=40,乙同学成绩的方差为×(169+16+16+4+36+36+121)=>40,故成绩较稳定的是甲.
答案:甲
3.为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量的数据(单位:克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示.
(1)求图中a的值;
(2)估计这种植物果实重量的平均数和方差s2(同一组中的数据用该组区间的中点值作代表).
解:(1)由5×(0.020+0.040+0.075+a+0.015)=1,得a=0.050.
(2)各组中点值和相应的频率依次为
中点值 | 30 | 35 | 40 | 45 | 50 |
频率 | 0.1 | 0.2 | 0.375 | 0.25 | 0.075 |
=30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40,
s2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75.
[解题方略]
1.方差的计算与含义
(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.
(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.
2.从频率分布直方图中得出有关数据的方法
频率 | 频率分布直方图中横轴表示组数,纵轴表示,频率=组距× |
频率比 | 频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比 |
众数 | 最高小长方形底边中点的横坐标 |
中位数 | 平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标 |
平均数 | 频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和 |
[小创新]
1.空气质量指数AQI是检测空气质量的重要参数,其数值越大说明空气污染状况越严重,空气质量越差.某地环保部门统计了该地区12月1日至12月24日连续24天的空气质量指数AQI,根据得到的数据绘制出如图所示的折线图.则下列说法错误的是( )
A.该地区在12月2日空气质量最好
B.该地区在12月24日空气质量最差
C.该地区从12月7日到12月12日AQI持续增大
D.该地区的空气质量指数AQI与这段日期成负相关
解析:选D 12月2日空气质量指数最低,所以空气质量最好,A正确;12月24日空气质量指数最高,所以空气质量最差,B正确;12月7日到12月12日AQI在持续增大,所以C正确;在该地区统计这段时间内,空气质量指数AQI整体呈上升趋势,所以空气质量指数与这段日期成正相关,D错误.
2.为保障食品安全,某市质量监督局对某超市进行食品安全检查,如图所示是某品牌食品中某元素含量数据的茎叶图,已知该组数据的平均数为11.75,则+的最小值为( )
A.9 B.
C.3 D.
解析:选C 根据茎叶图中的数据得,该组数据的平均数=(a+11+13+20+b)=11.75,∴a+b=3,∴+=(a+b)=≥=(5+4)=3.当且仅当a=2b,即a=2,b=1时取“=”.∴+的最小值为3.故选C.
3.《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问:各几何?”其意为:今有甲带了560钱,乙带了350钱,丙带了180钱,三人一起出关,共需要交关税100钱,依照钱的多少按比例出钱,则丙应出________钱(所得结果四舍五入,保留整数).
解析:甲持560钱,乙持350钱,丙持180钱,甲、乙、丙三人一起出关,关税共100钱,要按照各人带钱多少的比例进行交税,丙应出100×=16≈17(钱).
答案:17
增分考点·广度拓展
[分点研究]
题型一 回归分析在实际问题中的应用
[例1] 某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x为该商品的进货量,y为销售天数):
x/吨 | 2 | 3 | 4 | 5 | 6 | 8 | 9 | 11 |
y/天 | 1 | 2 | 3 | 3 | 4 | 5 | 6 | 8 |
(1)根据上表数据在如图所示的网格中绘制散点图;
(2)根据上表提供的数据,求出y关于x的线性回归方程=x+;
(3)根据(2)中的计算结果,若该商店准备一次性进货该商品24吨,预测需要销售的天数.
参考公式和数据:=,=-.
=356,iyi=241.
[解] (1)散点图如图所示:
(2)依题意,得=×(2+3+4+5+6+8+9+11)=6,
=×(1+2+3+3+4+5+6+8)=4,
又=356,iyi=241,
所以===,
=4-×6=-,故线性回归方程为=x-.
(3)由(2)知,当x=24时,=×24-≈17,
故若该商店一次性进货24吨,则预计需要销售17天.
[解题方略] 求回归直线方程的方法
(1)若所求的回归直线方程是在选择题中,常利用回归直线=x+必经过样本点的中心(,)快速选择.
(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:
题型二 独立性检验在实际问题中的应用
[例2] (2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
| 超过m | 不超过m |
第一种生产方式 |
|
|
第二种生产方式 |
|
|
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
[解] (1)第二种生产方式的效率更高.
理由如下:
(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多 79 min.因此第二种生产方式的效率更高.
(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.
(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.
(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.
(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分)
(2)由茎叶图知m==80.
列联表如下:
| 超过m | 不超过m |
第一种生产方式 | 15 | 5 |
第二种生产方式 | 5 | 15 |
(3)因为K2==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
[解题方略] 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=(其中n=a+b+c+d)计算出K2的观测值;
(3)比较K2的观测值与临界值的大小,作出统计推断.
[多练强化]
1.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:= -30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解:(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
(以上给出了2种理由,答出其中任意一种或其他合理理由均可得分)
2.(2019届高三·湖北五校联考)通过随机询问100名性别不同的大学生是否爱好某项运动,得到如下2×2列联表:
| 男 | 女 | 总计 |
爱好 | 40 |
|
|
不爱好 |
| 25 |
|
总计 |
| 45 | 100 |
(1)将题中的2×2列联表补充完整;
(2)能否有99%的把握认为是否爱好该项运动与性别有关?请说明理由.
附:
P(K2≥k0) | 0.050 | 0.010 | 0.001 |
k0 | 3.841 | 6.635 | 10.828 |
K2=.
解:(1)题中的2×2列联表补充如下:
| 男 | 女 | 总计 |
爱好 | 40 | 20 | 60 |
不爱好 | 15 | 25 | 40 |
总计 | 55 | 45 | 100 |
(2)由(1)表中数据得K2=≈8.25>6.635,所以有99%的把握认为是否爱好该项运动与性别有关.
数学建模——回归分析问题的求解
[典例] (2018·汕头模拟)二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:
使用年数x | 2 | 3 | 4 | 5 | 6 | 7 |
售价y | 20 | 12 | 8 | 6.4 | 4.4 | 3 |
z=ln y | 3.00 | 2.48 | 2.08 | 1.86 | 1.48 | 1.10 |
下面是z关于x的折线图:
(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明.
(2)求y关于x的回归方程并预测某辆A型号二手车当使用年数为9年时售价约为多少?(,小数点后保留两位有效数字).
(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年?
参考公式:回归方程=x+中斜率和截距的最小二乘估计公式分别为:
==,=- .
r=.
参考数据:iyi=187.4,izi=47.64,=139, ≈4.18, ≈13.96, ≈1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34.
[解] (1)因为=×(2+3+4+5+6+7)=4.5,
=×(3+2.48+2.08+1.86+1.48+1.10)=2,
且 izi=47.64, ≈4.18, ≈1.53,
所以r=≈≈-0.99,
所以z与x的相关系数大约为0.99,说明z与x的线性相关程度很高.
(2)由已知,得==≈-0.36,
所以=-=2+0.36×4.5=3.62,
所以z与x的线性回归方程是=-0.36x+3.62.
又z=ln y,
所以y关于x的回归方程是=e-0.36x+3.62.
令x=9,得=e-0.36×9+3.62≈1.46,
即预测某辆A型号二手车当使用年数为9年时售价约1.46万元.
(3)当≥0.711 8时,e-0.36x+3.62≥0.711 8=eln 0.711 8=e-0.34,
所以-0.36x+3.62≥-0.34,解得x≤11,
因此预测在收购该型号二手车时车辆的使用年数不得超过11年.
[素养通路]
本题是典型的回归分析问题,在实际问题中收集数据,画散点图,可以用线性回归模型拟合变量关系,再用最小二乘法求出回归方程,进而用回归模型对实际问题进行预测,考查了数学建模这一核心素养.
A组——“6+3+3”考点落实练
一、选择题
1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )
A.73 B.78
C.77 D.76
解析:选B 样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.
2.(2019届高三·南宁摸底联考)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.100,20 B.200,20
C.200,10 D.100,10
解析:选B 由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以高中生的近视人数为40×50%=20,故选B.
3.从某地高中男生中随机抽取100名同学,将他们的体重(单位:kg)数据绘制成频率分布直方图(如图),由直方图可知( )
A.估计体重的众数为50或60
B.a=0.03
C.学生体重在[50,60)有35人
D.从这100名男生中随机抽取一人,体重在[60,80)的概率为
解析:选C 根据频率分布直方图知,最高的小矩形对应的底边中点为=55,所以估计众数为55,A错误;根据频率和为1,计算(a+0.035+0.030+0.020+0.010)×10=1,解得a=0.005,B错误;体重在[50,60)内的频率是0.35,估计体重在[50,60)内的学生有100×0.35=35人,C正确;体重在[60,80)内的频率为0.3+0.2=0.5,用频率估计概率,知这100名男生中随机抽取一人,体重在[60,80)的概率为,D错误.
4.如图是民航部门统计的2018年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )
A.深圳的变化幅度最小,北京的平均价格最高
B.深圳和厦门的春运期间往返机票价格同去年相比有所下降
C.平均价格从高到低居于前三位的城市为北京、深圳、广州
D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门
解析:选D 由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D错误,选D.
5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{an},若a3=8,且a1,a3,a7成等比数列,则此样本的平均数和中位数分别是( )
A.13,12 B.13,13
C.12,13 D.13,14
解析:选B 设等差数列{an}的公差为d(d≠0),a3=8,a1a7=a=64,(8-2d)(8+4d)=64,即2d-d2=0,又d≠0,故d=2,故样本数据为:4,6,8,10,12,14,16,18,20,22,平均数为=13,中位数为=13.
6.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为=x+,已知i=225,i=1 600,=4.该班某学生的脚长为24,据此估计其身高为( )
A.160 B.163
C.166 D.170
解析:选C 由题意可知=4x+,
又=22.5,=160,
因此160=22.5×4+,解得=70,
所以=4x+70.
当x=24时,=4×24+70=166.
二、填空题
7.如图是某学校一名篮球运动员在10场比赛中所得分数的茎叶图,则该运动员在这10场比赛中得分的中位数为________.
解析:把10场比赛的所得分数按顺序排列:5,8,9,12,14,16,16,19,21,24,中间两个为14与16,故中位数为=15.
答案:15
8.已知一组数据x1,x2,…,xn的方差为2,若数据ax1+b,ax2+b,…,axn+b(a>0)的方差为8,则a的值为________.
解析:根据方差的性质可知,a2×2=8,故a=2.
答案:2
9.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:
| 女 | 男 | 总计 |
喜爱 | 40 | 20 | 60 |
不喜爱 | 20 | 30 | 50 |
总计 | 60 | 50 | 110 |
试根据样本估计总体的思想,估计在犯错误的概率不超过________的前提下(约有________的把握)认为“喜爱该节目与否和性别有关”.
参考附表:
P(K2≥k0) | 0.050 | 0.010 | 0.001 |
k0 | 3.841 | 6.635 | 10.828 |
解析:分析列联表中数据,可得K2的观测值k=≈7.822>6.635,所以在犯错误的概率不超过0.01的前提下(有99%的把握)认为“喜爱该节目与否和性别有关”.
答案:0.01 99%
三、解答题
10.某市教育学院从参加市级高中数学竞赛的考生中随机抽取60名学生,将其竞赛成绩(均为整数)分成六段:[40,50),[50,60),[60,70),…,[90,100],得到如图所示的频率分布直方图.
(1)根据频率分布直方图,估计参加高中数学竞赛的考生的成绩的平均数、众数、中位数(小数点后保留一位有效数字);
(2)用分层抽样的方法在各分数段的考生中抽取一个容量为20的样本,则各分数段抽取的人数分别是多少?
解:(1)由频率分布直方图可知,
(0.010+0.015+0.015+a+0.025+0.005)×10=1,所以a=0.03.
所以参加高中数学竞赛的考生的成绩的平均数为
45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71,
成绩的众数为75.
设参加高中数学竞赛的考生的成绩的中位数为x,
则0.1+0.15+0.15+(x-70)×0.03=0.5,解得x≈73.3,
所以中位数为73.3.
(2)因为各层人数分别为6,9,9,18,15,3,各层抽取比例为=,
所以各分数段抽取人数依次为2,3,3,6,5,1.
11.(2018·长春质量检测)某种植园在芒果临近成熟时,随机从一些芒果树上摘下100个芒果,其质量分别在[100,150),[150,200),[200,250),[250,300),[300,350),[350,400](单位:克)中,经统计得频率分布直方图如图所示.
(1)经计算估计这组数据的中位数;
(2)某经销商来收购芒果,以各组数据的中间数代表这组数据的平均值,用样本估计总体,该种植园中还未摘下的芒果大约还有10 000个,经销商提出如下两种收购方案:
A方案是所有芒果以10元/千克收购;
B方案是对质量低于250克的芒果以2元/个收购,高于或等于250克的芒果以3元/个收购.
通过计算确定该种植园选择哪种方案获利更多.
解:(1)这组数据的中位数是250+=268.75.
(2)A方案可获利:
(125×0.002+175×0.002+225×0.003+275×0.008+325×0.004+375×0.001)× 50×10 000×10×0.001=25 750(元).
B方案可获利:
(0.002+0.002+0.003)×50×10 000×2+(0.008+0.004+0.001)×50×10 000×3
=26 500(元).
由于25 750<26 500,因此该种植园选择B方案获利更多.
12.(2018·广东七校联考)某淘宝店经过对“十一”七天假期的消费情况进行统计,发现在金额不超过1 000元的消费者中男女之比约为1∶4,该店按此比例抽取了100名消费者进行进一步分析,得到下表:
女性消费情况:
消费 金额/元 | (0,200) | [200,400) | [400,600) | [600,800) | [800,1 000] |
人数 | 5 | 10 | 15 | 47 | 3 |
男性消费情况:
消费 金额/元 | (0,200) | [200,400) | [400,600) | [600,800) | [800,1 000] |
人数 | 2 | 3 | 10 | 3 | 2 |
若消费金额不低于600元的消费者称为“网购达人”、低于600元的消费者称为“非网购达人”.
(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?
(2)根据以上统计数据填写如下2×2列联表,并回答能否在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.
| 女性 | 男性 | 总计 |
“网购达人” |
|
|
|
“非网购达人” |
|
|
|
总计 |
|
|
|
附:K2=,其中n=a+b+c+d.
P(K2≥k0) | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 |
k0 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 |
解:(1)女性消费的平均数为×(100×5+300×10+500×15+700×47+900×3)=582.5(元).
男性消费的平均数为×(100×2+300×3+500×10+700×3+900×2)=500(元).
虽然女性消费者的平均消费水平较高,但“女网购达人”的平均消费水平(为712元)低于“男网购达人”的平均消费水平(为780元),所以平均消费水平高的一方“网购达人”出手不一定更阔绰.
(2)2×2列联表如下表:
| 女性 | 男性 | 总计 |
“网购达人” | 50 | 5 | 55 |
“非网购达人” | 30 | 15 | 45 |
总计 | 80 | 20 | 100 |
K2=≈9.091,
因为9.091>7.879,
所以在犯错误的概率不超过0.005的前提下可以认为“是否为‘网购达人’与性别有关”.
B组——大题专攻补短练
1.2017年8月22日金乡县首届“诚信文艺奖”评选暨2017“百姓大舞台”第一季大型才艺大赛决赛在红星美凯龙举行.在比赛现场,12名专业人士和12名观众代表分别组成评判小组A,B,给参赛选手打分,如图是两个评判组对同一选手打分的茎叶图.
(1)求A组数据的众数和极差,B组数据的中位数;
(2)对每一组计算用于衡量相似性的数值,回答:小组A与小组B哪一个更像是由专业人士组成的?并说明理由.
解:(1)由茎叶图可得:A组数据的众数为47,极差为55-42=13;
B组数据的中位数为=56.5.
(2)小组A更像是由专业人士组成的.理由如下:
小组A,B数据的平均数分别为
A=×(42+42+44+45+46+47+47+47+49+50+50+55)=47,
B=×(36+42+46+47+49+55+58+62+66+68+70+73)=56,
所以小组A,B数据的方差分别为
s=×[(42-47)2+(42-47)2+…+(55-47)2]=×(25+25+9+4+1+4+9+9+64)=12.5,
s=×[(36-56)2+(42-56)2+…+(73-56)2]=×(400+196+100+81+49+1+4+36+100+144+196+289)=133.
因为s<s,所以小组A的成员的相似程度高.由于专业裁判给分更符合专业规则,相似程度应该更高,因此小组A更像是由专业人士组成的.
2.(2019届高三·武汉部分学校调研)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)估计旧养殖法的箱产量低于50 kg的概率并估计新养殖法的箱产量的平均值;
(2)填写下面的2×2列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.
| 箱产量<50 kg | 箱产量≥50 kg | 总计 |
旧养殖法 |
|
|
|
新养殖法 |
|
|
|
总计 |
|
|
|
附:K2=,其中n=a+b+c+d.
P(K2≥k0) | 0.050 | 0.010 | 0.001 |
k0 | 3.841 | 6.635 | 10.828 |
解:(1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,所以旧养殖法的箱产量低于50 kg的概率估计值为0.62;新养殖法的箱产量的平均值为37.5×0.004×5+42.5×0.020×5+47.5×0.044×5+52.5×0.068×5+57.5×0.046×5+62.5×0.010×5+67.5×0.008×5=52.35.
(2)根据箱产量的频率分布直方图得2×2列联表如下:
| 箱产量<50 kg | 箱产量≥50 kg | 总计 |
旧养殖法 | 62 | 38 | 100 |
新养殖法 | 34 | 66 | 100 |
总计 | 96 | 104 | 200 |
由表中数据得K2=≈15.705,
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
3.(2018·广州高中综合测试)某地1~10岁男童年龄xi(单位:岁)与身高的中位数yi(单位:cm)(i=1,2,…,10)如下表:
x/岁 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
y/cm | 76.5 | 88.5 | 96.8 | 104.1 | 111.3 | 117.7 | 124.0 | 130.0 | 135.4 | 140.2 |
对上表的数据作初步处理,得到下面的散点图及一些统计量的值.
(xi-)2 | (yi-)2 | (xi-)(yi-) | ||
5.5 | 112.45 | 82.50 | 3 947.71 | 566.85 |
(1)求y关于x的线性回归方程(回归方程系数精确到0.01);
(2)某同学认为y=px2+qx+r更适宜作为y关于x的回归方程模型,他求得的回归方程是=-0.30x2+10.17x+68.07.经调查,该地11岁男童身高的中位数为145.3 cm.与(1)中的线性回归方程比较,哪个回归方程的拟合效果更好?
附:回归方程=+x中的斜率和截距的最小二乘估计分别为
=,=-.
解:(1)由所给数据得==≈6.87,
=-=112.45-6.87×5.5≈74.67,
所以y关于x的线性回归方程为=6.87x+74.67.
(2)若回归方程为=6.87x+74.67,则当x=11时,=150.24.
若回归方程为=-0.30x2+10.17x+68.07,则当x=11时,=143.64.
|143.64-145.3|=1.66<|150.24-145.3|=4.94,
所以回归方程=-0.30x2+10.17x+68.07的拟合效果更好.
4.(2018·潍坊统一考试)某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.
(xi-)2 | (xi-)(yi-) | (ui-)2 | (ui-)(yi-) | |||
15.25 | 3.63 | 0.269 | 2 085.5 | -230.3 | 0.787 | 7.049 |
表中ui=,=i.
(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01).
(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)
附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,vn),其回归直线=+ω的斜率和截距的最小二乘估计分别为=,=-.
解:(1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程.
(2)令u=,先建立y关于u的线性回归方程,
由于==≈8.957≈8.96,
∴=-·=3.63-8.957×0.269≈1.22,
∴y关于u的线性回归方程为=1.22+8.96u,
∴y关于x的回归方程为=1.22+.
(3)假设印刷x千册,依题意得10x-x≥78.840,∴x≥10,
∴至少印刷10 000册才能使销售利润不低于78 840元.