还剩15页未读,
继续阅读
2019届二轮复习(理)专题六第二讲统计与统计案例学案
展开
第二讲 统计与统计案例
年份
卷别
考查角度及命题位置
命题分析及学科素养
2018
Ⅰ卷
统计图表的应用·T3
命题分析
统计部分在选择、填空题中的命题热点有随机抽样、用样本估计总体以及变量的相关性,难度较低.回归分析常在解答题中考查.
学科素养
统计与统计案例主要考查用样本估计总体与回归分析,着重考查学生数学抽象、数学运算及数据分析核心素养.
Ⅱ卷
回归分析及应用·T18
Ⅲ卷
茎叶图与独立性检验·T18
2017
Ⅱ卷
频率分布直方图与独立性检验·T18
2016
Ⅲ卷
统计图表的应用·T4
回归分析的应用·T18
样本估计总体
授课提示:对应学生用书第62页
[悟通——方法结论]
1.直方图的两个结论
(1)小长方形的面积=组距×=频率.
(2)各小长方形的面积之和等于1.
2.统计中的四个数字特征
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数:样本数据的算术平均数,即
=(x1+x2+…+xn).
(4)方差与标准差
方差:s2=[(x1-)2+(x2-)2+…+(xn-)2].
标准差:s=.
(1)(2018·长春模拟)已知某班级部分同学一次测验的成绩统计如图,则其中位数和众数分别为( )
A.95,94 B.92,86
C.99,86 D.95,91
解析:由茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,
96,98,99,101,103,114,共17个,故92为中位数,出现次数最多的为众数,故众数为86,故选B.
答案:B
(2)(2016·高考北京卷)(12分)某市居民用水拟实行阶梯水价.每人每月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:
①如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?
②当w=3时,估计该市居民该月的人均水费.
[学审题]
条件信息
想到方法
注意什么
信息❶中给出频率分布直方图
由图读出月用水量在各区间内的频率
直方图中纵轴数据表示为常误认为频率
信息❷已知超出3立方米
利用用水量的频率分布直方图得出用水费用的频率分布表
条件中水费的计算方法
[规范解答] ①由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.
(2分)
所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.
依题意,ω至少定为3. (6分)
②由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:
组号
1
2
3
4
5
6
7
8
分组
[2,4]
(4,6]
(6,8]
(8,10]
(10,12]
(12,17]
(17,22]
(22,27]
频率
0.1
0.15
0.2
0.25
0.15
0.05
0.05
0.05
(10分)
根据题意,该市居民该月的人均水费估计为:
4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元). (12分)
1.众数、中位数、平均数与直方图的关系
(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.
(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.
(3)平均数等于频率分布直方图中每个小矩形的面积乘小矩形底边中点的横坐标之和.
2.方差的计算与含义
计算方差首先要计算平均数,再按照方差的计算公式进行计算,方差和标准差是描述一个样本和总体的波动大小的特征数,方差、标准差越大说明波动越大.
[练通——即学即用]
1.(2017·高考全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:
kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数
B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值
D.x1,x2,…,xn的中位数
解析:标准差能反映一组数据的稳定程度.故选B.
答案:B
2.(2018·贵阳模拟)A市某校学生社团针对“A市的发展环境”对男、女各10名学生进行问卷调查,每名学生给出评分(满分100分),得到如图所示的茎叶图.
(1)计算女生打分的平均分,并根据茎叶图判断男生、女生打分谁更分散(不必说明理由);
(2)如图(2)是按该20名学生的评分绘制的频率分布直方图(每个分组包含左端点,不包含右端点),求a的值;
(3)从打分在70分以下(不含70分)的学生中抽取2人,求有女生被抽中的概率.
解析:(1)女生打分的平均数为×(68+69+76+75+70+78+79+82+87+96)=78;男生打分比较分散.
(2)由茎叶图可知,20名学生中评分在[70,80)内的有9人,则a=÷10=0.045.
(3)设“有女生被抽中”为事件A,由茎叶图可知,有4名男生,2名女生的打分在70分以下(不含70分),其中4名男生分别记为a,b,c,d,2名女生分别记为m,n,
从中抽取2人的基本事件有ab,ac,ad,am,an,bc,bd,bm,bn,cd,cm,cn,dm,dn,mn,共15种,其中有女生被抽中的事件有am,an,bm,bn,cm,cn,dm,dn,mn,共9种,所以P(A)==.
回归分析
授课提示:对应学生用书第64页
[悟通——方法结论]
1.方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,回归方程的截距和斜率分别为=,=-,(,)是样本中心点,回归直线过样本中心点.
2.(1)正相关与负相关就看回归直线的斜率,斜率为正则为正相关,斜率为负则为负相关.
(2)样本相关系数r具有以下性质:r>0表示两个变量正相关,r<0表示两个变量负相关;|r|≤1,且|r|越接近于1,线性相关程度越强,|r|越接近于0,线性相关程度越弱.
(2018·高考全国卷Ⅱ)(12分)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5 t
(1)分别利用这两个模型,求该地区2018年的环境基础设
(2) 并说明理由.
[学审题]
条件信息
想到方法
注意什么
信息❶已知线性回归模型,进行回归分析
对应2018年t的值分别代入模型①②,求预测值
(1)计算2018年对应的t值要准确
信息❷分析预测值哪个更可靠
(1)可从折线图分析2000年至2016年数据对应的点的分布情况作出结论
(2)可从(1)中计算结果进行判断
(2)预测分析时,不管从折线图还是预测值,进行分析时要注意表述准确
[规范解答] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元). (2分)
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元). (4分)
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠. (8分)
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①看到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠. (12分)
(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)
化归思想在回归分析的应用主要体现在以下两个方面
(1)如果两个变量呈非线性相关关系,则可通过恰当的变换,将其转化成线性关系,再求线性回归方程.(2)利用回归直线方程可以进行预测与估计,但要注意回归直线方程表明的是两组数据之间的相关关系,而不是函数关系,所以利用该方程求出的数值都是估计值,而不是一个确定的数值.
[练通——即学即用]
1.根据如下样本数据:
x
3
4
5
6
7
y
4.0
a-5.4
-0.5
0.5
b-0.6
得到的回归方程为=bx+a.若样本点的中心为(5,0.9),则当x每增加1个单位时,y就( )
A.增加1.4个单位 B.减少1.4个单位
C.增加7.9个单位 D.减少7.9个单位
解析:依题意得,=0.9,故a+b=6.5①;
又样本点的中心为(5,0.9),故0.9=5b+a②,
联立①②,解得b=-1.4,a=7.9,则=-1.4x+7.9,可知当x每增加1个单位时,y就减少1.4个单位.
答案:B
2.(2018·成都模拟)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:
指标
1号小白鼠
2号小白鼠
3号小白鼠
4号小白鼠
5号小白鼠
A
5
7
6
9
8
B
2
2
3
4
4
(1)若通过数据分析,得知A项指标数据与B项指标数据具有线性相关关系.试根据上表,求B项指标数据y关于A项指标数据x的线性回归方程=x+;
(2)现要从这5只小白鼠中随机抽取3只,求其中至少有一只的B项指标数据高于3的概率.
参考公式:==,=-.
解析:(1)由题意,可得=7,=3,
xiyi=110,x=255,==.
∵=-,∴=-.
∴所求线性回归方程为=x-.
(2)设1号至5号小白鼠依次为a1,a2,a3,a4,a5,则在这5只小白鼠中随机抽取3只的抽取情况有a1a2a3,a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共10种.
随机抽取的3只小白鼠中至少有一只的B项指标数据高于3的情况有a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共9种.
∴从这5只小白鼠中随机抽取3只,其中至少有一只的B项指标数据高于3的概率为.
独立性检验
授课提示:对应学生用书第65页
[悟通——方法结论]
求解独立性检验应用交汇问题的模型
(1)读懂列联表:明确列联表中的数据.
(2)计算K2:根据提供的公式计算K2值.
(3)作出判断:依据临界值与犯错误的概率得出结论.
(2017·高考全国卷Ⅱ)(12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的 (精确到0.01).
附:
K2=,其中n=a+b+c+d.
[学审题]
条件信息
想到方法
注意什么
信息❶:频率分布直方图
频率分布直方图所给信息:频率、中位数等
(1)频率分布直方图的纵坐标是频率与组距的比值,而不是频率
(2)不可混淆K2与k的关系,并不是k=,而k应是K2的观测值
信息❷:事件A表示两种养殖法的箱产量
事件A的含义及其频率的求法
信息❸:判断箱产量与养殖方法是否有关
列联表的数据、K2的求法及与临界值的比较
信息❹:新养殖法箱产量的中位数的估计值
中位数大致区域的判定方法及由频率分布直方图求中位数的方法
[规范解答] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”. (1分)
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
(3分)
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(6分)
(2)由(1)知可得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
由表中数据及K2的计算公式得,
K2的观测值k=≈15.705.
(8分)
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(10分)
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为
50+≈52.35(kg). (12分)
解决概率与统计综合问题的一般步骤
[练通——即学即用]
(2018·西安八校联考)某工厂有25周岁以上(含25周岁)的工人300名,25周岁以下的工人200名.为了研究工人的日平均生产件数是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],分别加以统计,得到如图所示的频率分布直方图.
(1)根据“25周岁以上(含25周岁)组”的频率分布直方图,求25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值(四舍五入保留整数);
(2)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(3)规定日平均生产件数不少于80的工人为生产能手,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
生产能手
非生产能手
合计
25周岁以上(含25周岁)组
25周岁以下组
合 计
附:K2=
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
解析:采用分层抽样,“25周岁以上(含25周岁)组”应抽取工人100×=60(名),“25周岁以下组”应抽取工人100×=40(名).
(1)由“25周岁以上(含25周岁)组”的频率分布直方图可知,其中位数为70+10×=70≈73(件).
综上,25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值为73件.
(2)由频率分布直方图可知,样本中日平均生产件数不足60件的工人中,25周岁以上(含25周岁)的工人共有60×0.005×10=3(名),设其分别为m1,m2,m3;25周岁以下的工人共有40×0.005×10=2(名),设其分别为n1,n2,则所有基本事件为(m1,m2),(m1,m3),(m1,n1),(m1,n2),(m2,m3),(m2,n1),(m2,n2),(m3,n1),(m3,n2),(n1,n2),共10个.
记“至少抽到一名‘25周岁以下组’的工人”为事件A,事件A包含的基本事件共7个.
故P(A)=.
(3)由频率分布直方图可知,25周岁以上(含25周岁)的生产能手共有60×[(0.02+0.005)×10]=15(名),25周岁以下的生产能手共有40×[(0.032 5+0.005)×10]=15(名),则2×2列联表如下:
生产能手
非生产能手
合计
25周岁以上(含25周岁)组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
K2==≈1.786<2.706.
综上,没有90%的把握认为“生产能手与工人所在的年龄组有关”.
授课提示:对应学生用书第150页
一、选择题
1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )
A.73 B.78
C.77 D.76
解析:样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.
答案:B
2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示:
用电量/度
120
140
160
180
200
户数
2
3
5
8
2
则这20户家庭该月用电量的众数和中位数分别是( )
A.180,170 B.160,180
C.160,170 D.180,160
解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.
答案:A
3.(2018·高考全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
解析:设新农村建设前,农村的经济收入为a,则新农村建设后,农村经济收入为2a.新农村建设前后,各项收入的对比如下表:
新农村建设前
新农村建设后
新农村建设
后变化情况
结论
种植收入
60%a
37%×2a=74%a
增加
A错
其他收入
4%a
5%×2a=10%a
增加一倍以上
B对
养殖收入
30%a
30%×2a=60%a
增加了一倍
C对
养殖收入+第三产业收入
(30%+6%)a
=36%a
(30%+28%)×2a
=116%a
超过经济收
入2a的一半
D对
故选A.
答案:A
4.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A错误.由图可知,B、C、D正确.
答案:A
5.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( )
A.5 B.7
C.10 D.50
解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50.
答案:D
6.(2018·兰州模拟)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
50
m
70
根据表中提供的全部数据,用最小二乘法得出y与x的线性回归方程为=6.5x+17.5,则表中m的值为( )
A.45 B.50
C.55 D.60
解析:∵==5,
==,
∴当=5时,=6.5×5+17.5=50,
∴=50,解得m=60.
答案:D
二、填空题
7.(2018·惠州模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表):
零件数x/个
10
20
30
40
50
加工时间y/分钟
62
68
75
81
89
由最小二乘法求得回归方程=0.67x+,则的值为________.
解析:因为==30,
==75,
所以回归直线一定过样本点的中心(30,75),
则由=0.67x+可得75=30×0.67+,
求得=54.9.
答案:54.9
8.(2018·高考全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.
答案:分层抽样
9.(2018·郑州二检)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值=________.
解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m=3.由此可以得出甲的平均数为33,所以乙的平均数也为33,所以有(20+n+32+34+38)=33,所以n=8,所以=.
答案:
10.如图是某青年歌手大奖赛上七位评委为甲、乙两名选手打出的分数的茎叶图(其中m为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a1,a2,则它们的大小关系是________(用“>”表示).
解析:由题意知去掉一个最高分和一个最低分后,可以求得甲和乙两名选手得分的平均数分别为a1=+80=84,a2=+80=85,所以a2>a1.
答案:a2>a1
三、解答题
11.某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x为该商品的进货量,y为销售天数):
x/吨
2
3
4
5
6
8
9
11
y/天
1
2
3
3
4
5
6
8
(1)根据上表数据在图中的网格中绘制散点图:
(2)根据上表提供的数据,求出y关于x的线性回归方程=x+;
(3)根据(2)中的计算结果,若该商店准备一次性进货24吨,预测需要销售的天数.
参考公式和数据:=,=-;
=356,iyi=241.
解析:(1)散点图如图所示.
(2)依题意,得=×(2+3+4+5+6+8+9+11)=6,
=×(1+2+3+3+4+5+6+8)=4,
又=356,iyi=241,
所以===,=4-×6=-,
故线性回归方程为=x-.
(3)由(2)知,当x=24时,=×24-≈17,
故若该商店一次性进货24吨,则预计需要销售17天.
12.(2018·郑州模拟)为了考察高中学生的身体素质情况,现抽取了某校1 000名(男生800名,女生200名)学生的测试成绩,根据性别按分层抽样的方法抽取100名学生的测试成绩进行分析,得到如下统计表:
男生测试情况:
抽样情况
病残免试
不合格
合格
良好
优秀
人数
5
10
15
47
x
女生测试情况:
抽样情况
病残免试
不合格
合格
良好
优秀
人数
2
3
10
y
2
(1)现从抽取的100名且测试等级为“优秀”的学生中随机选出2名学生,求选出的这2名学生恰好是一男一女的概率;
(2)若测试等级为“良好”或“优秀”的学生为“体育达人”,其他等级(含病残免试)的学生为“非体育达人”,根据以上统计数据填写下面列联表,并回答能否在犯错误的概率不超过0.010的前提下认为“是否为‘体育达人’与性别有关?”
男性
女性
总计
体育达人
非体育达人
总计
临界值表:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
k0
2.706
3.841
5.024
6.635
7.879
附:K2=,其中n=a+b+c+d.
解析:(1)按分层抽样的知识知男生应抽取80名,女生应抽取20名,
∴x=80-(5+10+15+47)=3,y=20-(2+3+10+2)=3.
抽取的100名且测试等级为“优秀”的3名男生分别记为A,B,C,2名女生分别记为a,b.
从5名学生中任选2名,总的基本事件有(A,B),(A,C),(A,a),(A,b),(B,C),(B,a),(B,b),(C,a),(C,b),(a,b),共10个.
设“选出的2名学生恰好是一男一女”为事件M,
则事件M包含的基本事件有(A,a),(A,b),(B,a),(B,b),(C,a),(C,b),共6个,
∴P(A)==.
(2)2×2列联表如下:
男生
女生
总计
体育达人
50
5
55
非体育达人
30
15
45
总计
80
20
100
则K2==≈9.091.
∵9.091>6.635且P(K2≥6.635)=0.010,
∴能在犯错误的概率不超过0.010的前提下认为“是否为‘体育达人’与性别有关.”
年份
卷别
考查角度及命题位置
命题分析及学科素养
2018
Ⅰ卷
统计图表的应用·T3
命题分析
统计部分在选择、填空题中的命题热点有随机抽样、用样本估计总体以及变量的相关性,难度较低.回归分析常在解答题中考查.
学科素养
统计与统计案例主要考查用样本估计总体与回归分析,着重考查学生数学抽象、数学运算及数据分析核心素养.
Ⅱ卷
回归分析及应用·T18
Ⅲ卷
茎叶图与独立性检验·T18
2017
Ⅱ卷
频率分布直方图与独立性检验·T18
2016
Ⅲ卷
统计图表的应用·T4
回归分析的应用·T18
样本估计总体
授课提示:对应学生用书第62页
[悟通——方法结论]
1.直方图的两个结论
(1)小长方形的面积=组距×=频率.
(2)各小长方形的面积之和等于1.
2.统计中的四个数字特征
(1)众数:在样本数据中,出现次数最多的那个数据.
(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数:样本数据的算术平均数,即
=(x1+x2+…+xn).
(4)方差与标准差
方差:s2=[(x1-)2+(x2-)2+…+(xn-)2].
标准差:s=.
(1)(2018·长春模拟)已知某班级部分同学一次测验的成绩统计如图,则其中位数和众数分别为( )
A.95,94 B.92,86
C.99,86 D.95,91
解析:由茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,
96,98,99,101,103,114,共17个,故92为中位数,出现次数最多的为众数,故众数为86,故选B.
答案:B
(2)(2016·高考北京卷)(12分)某市居民用水拟实行阶梯水价.每人每月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:
①如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?
②当w=3时,估计该市居民该月的人均水费.
[学审题]
条件信息
想到方法
注意什么
信息❶中给出频率分布直方图
由图读出月用水量在各区间内的频率
直方图中纵轴数据表示为常误认为频率
信息❷已知超出3立方米
利用用水量的频率分布直方图得出用水费用的频率分布表
条件中水费的计算方法
[规范解答] ①由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.
(2分)
所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.
依题意,ω至少定为3. (6分)
②由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表如下:
组号
1
2
3
4
5
6
7
8
分组
[2,4]
(4,6]
(6,8]
(8,10]
(10,12]
(12,17]
(17,22]
(22,27]
频率
0.1
0.15
0.2
0.25
0.15
0.05
0.05
0.05
(10分)
根据题意,该市居民该月的人均水费估计为:
4×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元). (12分)
1.众数、中位数、平均数与直方图的关系
(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.
(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.
(3)平均数等于频率分布直方图中每个小矩形的面积乘小矩形底边中点的横坐标之和.
2.方差的计算与含义
计算方差首先要计算平均数,再按照方差的计算公式进行计算,方差和标准差是描述一个样本和总体的波动大小的特征数,方差、标准差越大说明波动越大.
[练通——即学即用]
1.(2017·高考全国卷Ⅰ)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:
kg)分别为x1,x2,…,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )
A.x1,x2,…,xn的平均数
B.x1,x2,…,xn的标准差
C.x1,x2,…,xn的最大值
D.x1,x2,…,xn的中位数
解析:标准差能反映一组数据的稳定程度.故选B.
答案:B
2.(2018·贵阳模拟)A市某校学生社团针对“A市的发展环境”对男、女各10名学生进行问卷调查,每名学生给出评分(满分100分),得到如图所示的茎叶图.
(1)计算女生打分的平均分,并根据茎叶图判断男生、女生打分谁更分散(不必说明理由);
(2)如图(2)是按该20名学生的评分绘制的频率分布直方图(每个分组包含左端点,不包含右端点),求a的值;
(3)从打分在70分以下(不含70分)的学生中抽取2人,求有女生被抽中的概率.
解析:(1)女生打分的平均数为×(68+69+76+75+70+78+79+82+87+96)=78;男生打分比较分散.
(2)由茎叶图可知,20名学生中评分在[70,80)内的有9人,则a=÷10=0.045.
(3)设“有女生被抽中”为事件A,由茎叶图可知,有4名男生,2名女生的打分在70分以下(不含70分),其中4名男生分别记为a,b,c,d,2名女生分别记为m,n,
从中抽取2人的基本事件有ab,ac,ad,am,an,bc,bd,bm,bn,cd,cm,cn,dm,dn,mn,共15种,其中有女生被抽中的事件有am,an,bm,bn,cm,cn,dm,dn,mn,共9种,所以P(A)==.
回归分析
授课提示:对应学生用书第64页
[悟通——方法结论]
1.方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数,回归方程的截距和斜率分别为=,=-,(,)是样本中心点,回归直线过样本中心点.
2.(1)正相关与负相关就看回归直线的斜率,斜率为正则为正相关,斜率为负则为负相关.
(2)样本相关系数r具有以下性质:r>0表示两个变量正相关,r<0表示两个变量负相关;|r|≤1,且|r|越接近于1,线性相关程度越强,|r|越接近于0,线性相关程度越弱.
(2018·高考全国卷Ⅱ)(12分)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5 t
(1)分别利用这两个模型,求该地区2018年的环境基础设
(2) 并说明理由.
[学审题]
条件信息
想到方法
注意什么
信息❶已知线性回归模型,进行回归分析
对应2018年t的值分别代入模型①②,求预测值
(1)计算2018年对应的t值要准确
信息❷分析预测值哪个更可靠
(1)可从折线图分析2000年至2016年数据对应的点的分布情况作出结论
(2)可从(1)中计算结果进行判断
(2)预测分析时,不管从折线图还是预测值,进行分析时要注意表述准确
[规范解答] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元). (2分)
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元). (4分)
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠. (8分)
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①看到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠. (12分)
(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)
化归思想在回归分析的应用主要体现在以下两个方面
(1)如果两个变量呈非线性相关关系,则可通过恰当的变换,将其转化成线性关系,再求线性回归方程.(2)利用回归直线方程可以进行预测与估计,但要注意回归直线方程表明的是两组数据之间的相关关系,而不是函数关系,所以利用该方程求出的数值都是估计值,而不是一个确定的数值.
[练通——即学即用]
1.根据如下样本数据:
x
3
4
5
6
7
y
4.0
a-5.4
-0.5
0.5
b-0.6
得到的回归方程为=bx+a.若样本点的中心为(5,0.9),则当x每增加1个单位时,y就( )
A.增加1.4个单位 B.减少1.4个单位
C.增加7.9个单位 D.减少7.9个单位
解析:依题意得,=0.9,故a+b=6.5①;
又样本点的中心为(5,0.9),故0.9=5b+a②,
联立①②,解得b=-1.4,a=7.9,则=-1.4x+7.9,可知当x每增加1个单位时,y就减少1.4个单位.
答案:B
2.(2018·成都模拟)某医疗科研项目组对5只实验小白鼠体内的A,B两项指标数据进行收集和分析,得到的数据如下表:
指标
1号小白鼠
2号小白鼠
3号小白鼠
4号小白鼠
5号小白鼠
A
5
7
6
9
8
B
2
2
3
4
4
(1)若通过数据分析,得知A项指标数据与B项指标数据具有线性相关关系.试根据上表,求B项指标数据y关于A项指标数据x的线性回归方程=x+;
(2)现要从这5只小白鼠中随机抽取3只,求其中至少有一只的B项指标数据高于3的概率.
参考公式:==,=-.
解析:(1)由题意,可得=7,=3,
xiyi=110,x=255,==.
∵=-,∴=-.
∴所求线性回归方程为=x-.
(2)设1号至5号小白鼠依次为a1,a2,a3,a4,a5,则在这5只小白鼠中随机抽取3只的抽取情况有a1a2a3,a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共10种.
随机抽取的3只小白鼠中至少有一只的B项指标数据高于3的情况有a1a2a4,a1a2a5,a1a3a4,a1a3a5,a1a4a5,a2a3a4,a2a3a5,a2a4a5,a3a4a5,共9种.
∴从这5只小白鼠中随机抽取3只,其中至少有一只的B项指标数据高于3的概率为.
独立性检验
授课提示:对应学生用书第65页
[悟通——方法结论]
求解独立性检验应用交汇问题的模型
(1)读懂列联表:明确列联表中的数据.
(2)计算K2:根据提供的公式计算K2值.
(3)作出判断:依据临界值与犯错误的概率得出结论.
(2017·高考全国卷Ⅱ)(12分)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的 (精确到0.01).
附:
K2=,其中n=a+b+c+d.
[学审题]
条件信息
想到方法
注意什么
信息❶:频率分布直方图
频率分布直方图所给信息:频率、中位数等
(1)频率分布直方图的纵坐标是频率与组距的比值,而不是频率
(2)不可混淆K2与k的关系,并不是k=,而k应是K2的观测值
信息❷:事件A表示两种养殖法的箱产量
事件A的含义及其频率的求法
信息❸:判断箱产量与养殖方法是否有关
列联表的数据、K2的求法及与临界值的比较
信息❹:新养殖法箱产量的中位数的估计值
中位数大致区域的判定方法及由频率分布直方图求中位数的方法
[规范解答] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”. (1分)
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
(3分)
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.409 2.
(6分)
(2)由(1)知可得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
由表中数据及K2的计算公式得,
K2的观测值k=≈15.705.
(8分)
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(10分)
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
故新养殖法箱产量的中位数的估计值为
50+≈52.35(kg). (12分)
解决概率与统计综合问题的一般步骤
[练通——即学即用]
(2018·西安八校联考)某工厂有25周岁以上(含25周岁)的工人300名,25周岁以下的工人200名.为了研究工人的日平均生产件数是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100],分别加以统计,得到如图所示的频率分布直方图.
(1)根据“25周岁以上(含25周岁)组”的频率分布直方图,求25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值(四舍五入保留整数);
(2)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;
(3)规定日平均生产件数不少于80的工人为生产能手,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?
生产能手
非生产能手
合计
25周岁以上(含25周岁)组
25周岁以下组
合 计
附:K2=
P(K2≥k0)
0.100
0.050
0.010
0.001
k0
2.706
3.841
6.635
10.828
解析:采用分层抽样,“25周岁以上(含25周岁)组”应抽取工人100×=60(名),“25周岁以下组”应抽取工人100×=40(名).
(1)由“25周岁以上(含25周岁)组”的频率分布直方图可知,其中位数为70+10×=70≈73(件).
综上,25周岁以上(含25周岁)组工人日平均生产件数的中位数的估计值为73件.
(2)由频率分布直方图可知,样本中日平均生产件数不足60件的工人中,25周岁以上(含25周岁)的工人共有60×0.005×10=3(名),设其分别为m1,m2,m3;25周岁以下的工人共有40×0.005×10=2(名),设其分别为n1,n2,则所有基本事件为(m1,m2),(m1,m3),(m1,n1),(m1,n2),(m2,m3),(m2,n1),(m2,n2),(m3,n1),(m3,n2),(n1,n2),共10个.
记“至少抽到一名‘25周岁以下组’的工人”为事件A,事件A包含的基本事件共7个.
故P(A)=.
(3)由频率分布直方图可知,25周岁以上(含25周岁)的生产能手共有60×[(0.02+0.005)×10]=15(名),25周岁以下的生产能手共有40×[(0.032 5+0.005)×10]=15(名),则2×2列联表如下:
生产能手
非生产能手
合计
25周岁以上(含25周岁)组
15
45
60
25周岁以下组
15
25
40
合计
30
70
100
K2==≈1.786<2.706.
综上,没有90%的把握认为“生产能手与工人所在的年龄组有关”.
授课提示:对应学生用书第150页
一、选择题
1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )
A.73 B.78
C.77 D.76
解析:样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.
答案:B
2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示:
用电量/度
120
140
160
180
200
户数
2
3
5
8
2
则这20户家庭该月用电量的众数和中位数分别是( )
A.180,170 B.160,180
C.160,170 D.180,160
解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.
答案:A
3.(2018·高考全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:
则下面结论中不正确的是( )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
解析:设新农村建设前,农村的经济收入为a,则新农村建设后,农村经济收入为2a.新农村建设前后,各项收入的对比如下表:
新农村建设前
新农村建设后
新农村建设
后变化情况
结论
种植收入
60%a
37%×2a=74%a
增加
A错
其他收入
4%a
5%×2a=10%a
增加一倍以上
B对
养殖收入
30%a
30%×2a=60%a
增加了一倍
C对
养殖收入+第三产业收入
(30%+6%)a
=36%a
(30%+28%)×2a
=116%a
超过经济收
入2a的一半
D对
故选A.
答案:A
4.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A错误.由图可知,B、C、D正确.
答案:A
5.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( )
A.5 B.7
C.10 D.50
解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50.
答案:D
6.(2018·兰州模拟)已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下对应数据:
x
2
4
5
6
8
y
30
40
50
m
70
根据表中提供的全部数据,用最小二乘法得出y与x的线性回归方程为=6.5x+17.5,则表中m的值为( )
A.45 B.50
C.55 D.60
解析:∵==5,
==,
∴当=5时,=6.5×5+17.5=50,
∴=50,解得m=60.
答案:D
二、填空题
7.(2018·惠州模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表):
零件数x/个
10
20
30
40
50
加工时间y/分钟
62
68
75
81
89
由最小二乘法求得回归方程=0.67x+,则的值为________.
解析:因为==30,
==75,
所以回归直线一定过样本点的中心(30,75),
则由=0.67x+可得75=30×0.67+,
求得=54.9.
答案:54.9
8.(2018·高考全国卷Ⅲ)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是________.
解析:因为客户数量大,且不同年龄段客户对其服务的评价有较大差异,所以最合适的抽样方法是分层抽样.
答案:分层抽样
9.(2018·郑州二检)已知甲、乙两组数据如茎叶图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值=________.
解析:由茎叶图可知甲的数据为27,30+m,39,乙的数据为20+n,32,34,38.由此可知乙的中位数是33,所以甲的中位数也是33,所以m=3.由此可以得出甲的平均数为33,所以乙的平均数也为33,所以有(20+n+32+34+38)=33,所以n=8,所以=.
答案:
10.如图是某青年歌手大奖赛上七位评委为甲、乙两名选手打出的分数的茎叶图(其中m为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a1,a2,则它们的大小关系是________(用“>”表示).
解析:由题意知去掉一个最高分和一个最低分后,可以求得甲和乙两名选手得分的平均数分别为a1=+80=84,a2=+80=85,所以a2>a1.
答案:a2>a1
三、解答题
11.某商店为了更好地规划某种商品的进货量,从某一年的销售数据中,随机抽取了8组数据作为研究对象,如下表所示(x为该商品的进货量,y为销售天数):
x/吨
2
3
4
5
6
8
9
11
y/天
1
2
3
3
4
5
6
8
(1)根据上表数据在图中的网格中绘制散点图:
(2)根据上表提供的数据,求出y关于x的线性回归方程=x+;
(3)根据(2)中的计算结果,若该商店准备一次性进货24吨,预测需要销售的天数.
参考公式和数据:=,=-;
=356,iyi=241.
解析:(1)散点图如图所示.
(2)依题意,得=×(2+3+4+5+6+8+9+11)=6,
=×(1+2+3+3+4+5+6+8)=4,
又=356,iyi=241,
所以===,=4-×6=-,
故线性回归方程为=x-.
(3)由(2)知,当x=24时,=×24-≈17,
故若该商店一次性进货24吨,则预计需要销售17天.
12.(2018·郑州模拟)为了考察高中学生的身体素质情况,现抽取了某校1 000名(男生800名,女生200名)学生的测试成绩,根据性别按分层抽样的方法抽取100名学生的测试成绩进行分析,得到如下统计表:
男生测试情况:
抽样情况
病残免试
不合格
合格
良好
优秀
人数
5
10
15
47
x
女生测试情况:
抽样情况
病残免试
不合格
合格
良好
优秀
人数
2
3
10
y
2
(1)现从抽取的100名且测试等级为“优秀”的学生中随机选出2名学生,求选出的这2名学生恰好是一男一女的概率;
(2)若测试等级为“良好”或“优秀”的学生为“体育达人”,其他等级(含病残免试)的学生为“非体育达人”,根据以上统计数据填写下面列联表,并回答能否在犯错误的概率不超过0.010的前提下认为“是否为‘体育达人’与性别有关?”
男性
女性
总计
体育达人
非体育达人
总计
临界值表:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
k0
2.706
3.841
5.024
6.635
7.879
附:K2=,其中n=a+b+c+d.
解析:(1)按分层抽样的知识知男生应抽取80名,女生应抽取20名,
∴x=80-(5+10+15+47)=3,y=20-(2+3+10+2)=3.
抽取的100名且测试等级为“优秀”的3名男生分别记为A,B,C,2名女生分别记为a,b.
从5名学生中任选2名,总的基本事件有(A,B),(A,C),(A,a),(A,b),(B,C),(B,a),(B,b),(C,a),(C,b),(a,b),共10个.
设“选出的2名学生恰好是一男一女”为事件M,
则事件M包含的基本事件有(A,a),(A,b),(B,a),(B,b),(C,a),(C,b),共6个,
∴P(A)==.
(2)2×2列联表如下:
男生
女生
总计
体育达人
50
5
55
非体育达人
30
15
45
总计
80
20
100
则K2==≈9.091.
∵9.091>6.635且P(K2≥6.635)=0.010,
∴能在犯错误的概率不超过0.010的前提下认为“是否为‘体育达人’与性别有关.”
相关资料
更多