还剩24页未读,
继续阅读
所属成套资源:2020版高三数学二轮复习讲义(全国理科)
成套系列资料,整套一键下载
- 第二讲 概率及其应用 学案 学案 7 次下载
- 第四讲 概率、随机变量及其分布列 学案 学案 7 次下载
- 第二讲 不等式选讲 学案 学案 3 次下载
- 第一讲 坐标系与参数方程 学案 学案 5 次下载
- 第二讲 数形结合思想 学案 学案 5 次下载
第一讲 统计与统计案例 学案
展开
专题七 概率与统计
第一讲 统计与统计案例
高考考点
考点解读
抽样方法
1.分层抽样中利用抽样比确定样本容量、各层抽样的个体数等
2.考查系统抽样的有关计算
样本频率分布、数字特征
1.频率分布直方图、茎叶图的绘制及识图,并利用图解决实际问题
2.茎叶图与数字特征相结合考查
3.平均数和方差的计算
线性回归分析与独立性检验在实际问题中的应用
1.线性回归方程的求解及应用
2.独立性检验的应用以及独立性检验与统计、概率的综合问题
备考策略
本部分内容在备考时应注意以下几个方面:
(1)掌握三种抽样的特点及相互联系,特别是系统抽样和分层抽样的应用.
(2)会用样本的频率分布估计总体分布,会用样本的数字特征估计总体的数字特征.
(3)了解回归分析及独立性检验的基本思想,认识其统计方法在决策中的应用.
预测2020年命题热点为:
(1)频率分布直方图、茎叶图的绘制及应用.
(2)数字特征的求解及应用.
(3)线性回归方程的求解及应用.
Z
1.抽样方法
三种抽样方法包括:简单随机抽样、系统抽样、分层抽样.
2.统计图表
(1)在频率分布直方图中:
①各小矩形的面积表示相应各组的频率,各小矩形的高=;②各小矩形面积之和等于1;③中位数左右两侧的直方图面积相等,因此可以估计其近似值.
(2)茎叶图
3.样本的数字特征
(1)众数:在样本数据中,出现次数最多的那个数据.
中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数;
(2)样本平均数=(x1+x2+…+xn)=i;
(3)样本方差s2=[(x1-)2+(x2-)2+…+(xn-)2]=(xi-)2;
(4)样本标准差
s=
=.
注意:(1)现实中总体所包含的个体数往往较多,总体的平均数与标准差、方差是不知道(或不可求)的,所以我们通常用样本的平均数与标准差、方差来估计总体的平均数与标准差、方差.
(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定.
4.变量间的相关关系
(1)利用散点图可以初步判断两个变量之间是否线性相关.如果散点图中的点从整体上看大致分布在一条直线的附近,我们说变量x和y具有线性相关关系.
(2)用最小二乘法求回归直线的方程
设线性回归方程为=x+,则
.
注意:回归直线一定经过样本的中心点(,),据此性质可以解决有关的计算问题.
5.回归分析
r=,叫做相关系数.
相关系数用来衡量变量x与y之间的线性相关程度;|r|≤1,且|r|越接近于1,相关程度越高,|r|越接近于0,相关程度越低.
6.独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则K2=,
若K2>3.841,则有95%的把握说两个事件有关;
若K2>6.635,则有99%的把握说两个事件有关;
若K2<2.706,则没有充分理由认为两个事件有关.
Y
1.混淆简单随机抽样、系统抽样、分层抽样,不能正确地选择抽样方法.
2.不能正确地从频率分布直方图中提取相关的信息,忽略了频数与频率的差异.
3.混淆条形图与直方图,条形图是离散随机变量,纵坐标刻度为频数与频率,直方图是连续随机变量,纵坐标刻度为频率/组距,这是密度,连续随机变量在某一点上是没有频率的.
4.回归分析是对具有相关关系的两个变量进行统计分析的方法.只有在散点图大致呈线性时,求出的回归直线方程才有实际意义.
1.(2018·全国卷Ⅰ,3)某地区经过一年的新农村建设,农村的经济收入增加了一倍.实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下饼图:
则下面结论中不正确的是( A )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
[解析] 设新农村建设前的收入为M,而新农村建设后的收入为2M,则新农村建设前种植收入为0.6M,而新农村建设后的种植收入为0.74M,所以种植收入增加了,所以A项不符合题意;新农村建设前其他收入为0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B项符合题意;新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,所以增加了一倍,所以C项符合题意;新农村建设后,养殖收入与第三产业收入的总和占经济收入为30%+28%=58%>50%,所以超过了经济收入的一半,所以D项符合题意,故选A.
2.(2017·全国卷Ⅲ,3)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( A )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
[解析] 对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;
对于选项B,观察折线图的变化趋势可知年接待游客逐年增加,故B正确;
对于选项C,D,由图可知显然正确.故选A.
3.(2018·全国卷Ⅲ,14)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是分层抽样.
[解析] 根据题干中有大量客户,且不同年龄段客户对其服务的评价有较大差异,可知最合适的抽样方法是分层抽样.
4.(2018·江苏卷,3)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为90.
[解析] =90.
5.(2018·全国卷Ⅰ,19)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用
水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
[0.6,0.7)
频数
1
3
2
4
9
26
5
使用了节水龙头50天的日用水量频数分布表
日用
水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
频数
1
5
13
10
16
5
(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图.
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率.
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表.)
[解析] (1)
(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,
因此该家庭使用节水龙头后日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天的日用水量的平均数为
1=(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天的日用水量的平均数为
2=(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
6.(2018·全国卷Ⅲ,18)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P
0.050
0.010
0.001
k0
3.841
6.635
10.828
[解析] (1)第二种生产方式的效率更高.
理由如下:
方法一:由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.
方法二:由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.
方法三:由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80 min;用第二种生产方式的工人完成生产任务平均所需时间低于80 min,因此第二种生产方式的效率更高.
方法四:由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2的观测值k==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
例1 (1)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是( C )
A.简单随机抽样 B.按性别分层抽样
C.按学段分层抽样 D.系统抽样
[解析] 因为男女生视力情况差异不大,而学段的视力情况有鹿大差异,所以应按学段分层抽样.故选C.
(2)已知某地区中小学生人数和近视情况分布如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( A )
A.200,20 B.100,20
C.200,10 D.100,10
[解析] 由题图可知,样本容量等于(3 500+4 500+2 000)×2%=200;抽取的高中生近视人数为2 000×2%×50%=20,故选A.
(3)(2018·贵阳一模)从编号为01,02,…,49,50的50个个体中利用下面的随机数表选取5个个体,选取方法从随机数表第1行第5列的数开始由左到右依次抽取,则选出来的第5个个体的编号为( D )
7816
6572
0812
1463
0782
4369
9728
0198
3204
9234
4935
8200
3623
4869
6938
7481
A.14 B.07
C.32 D.43
[解析] 由题意知选定的第一个数为65(第1行的第5列和第6列),按由左到右选取两位数(大于50的跳过、重复的不选取),前5个个体编号为08,12,14,07,43.故选出来的第5个个体的编号为43.选D.
『规律总结』
系统抽样与分层抽样的求解方法
(1)系统抽样的最基本特征是“等距性”,每组内所抽取的号码需要依据第一组抽取的号码和组距唯一确定.每组抽取样本的号码依次构成一个以第一组抽取的号码m为首项,组距d为公差的等差数列{an},第k组抽取样本的号码ak=m+(k-1)d.
(2)分层抽样的关键是根据样本特征差异进行分层,实质是等比例抽样,求解此类问题需先求出抽样比——样本容量与总体容量的比,则各层所抽取的样本容量等于该层个体总数与抽样比的乘积.在每层抽样时,应采用简单随机抽样或系统抽样进行.
G
1.某校150名教职工中,有老年人20名,中年人50名,青年人80名,从中抽取30名作为样本.
①采用随机抽样法:抽签取出30个样本;
②采用系统抽样法:将教职工编号为00,01,…,149,然后平均分组抽取30个样本;
③采用分层抽样法:从老年人、中年人、青年人中抽取30个样本.
下列说法中正确的是( A )
A.无论采用哪种方法,这150名教职工中每个人被抽到的概率都相等
B.①②两种抽样方法,这150名教职工中每个人被抽到的概率都相等;③并非如此
C.①③两种抽样方法,这150名教职工中每个人被抽到的概率都相等;②并非如此
D.采用不同的抽样方法,这150名教职工中每个人被抽的概率是各不相同的
[解析] 三种抽样方法中,每个人被抽到的概率都等于=.故选A.
2.(2018·昆明一模)某班有学生60人,将这60名学生随机编号为1-60号,用系统抽样的方法从中抽出4名学生,已知3号、33号、48号学生在样本中,则样本中另一个学生的编号为( C )
A.28 B.23
C.18 D.13
[解析] 抽样间隔为15,故另一个学生的编号为3+15=18.
(一)用样本数字特征估计总体
例2 (1)(2018·湘潭一模)某中学奥数培训班共有14人,分为两个小组,在一次阶段测试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则n-m的值为( B )
A.5 B.6
C.7 D.8
[解析] 甲组学生成绩的平均数是88,
∴78+86+84+88+95+90+m+92=88×7
∴m=3.
又乙组学生的成绩的中位数是89.
∴n=9.∴n-m=9-3=6.故选B.
(2)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如下表:
轮次
一
二
三
四
五
六
甲
73
66
82
72
63
76
乙
83
75
62
69
75
68
①补全茎叶图,并指出乙队测试成绩的中位数和众数;
②试用统计学中的平均数、方差知识对甲、乙两个代表队的测试成绩进行分析.
[解析] (1)补全茎叶图如下:
乙队测试成绩的中位数为72,众数为75.
(2)甲==72,
s=[(63-72)2+(66-72)2+(72-72)2+(73-72)2+(76-72)2+(82-72)2]=39;
乙==72,
s=[(62-72)2+(68-72)2+(69-72)2+(75-72)2+(75-72)2+(83-72)2]=44.
因为甲=乙,s
(二)用频率分布直方图估计总体
例3 某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
[解析] (1)由已知得,20×(0.002+0.0095+0.011+0.0125+x+0.005+0.0025)=1,解得x=0.0075.
(2)由题图可知,面积最大的矩形对应的月平均用电量区间为[220,240),所以月平均用电量的众数的估计值为230;
因为20×(0.002+0.0095+0.011)=0.45<0.5,
20×(0.002+0.0095+0.011+0.0215)=0.7>0.5,所以中位数在区间[220,240)内,设中位数为m,则20×(0.002+0.0095+0.011)+0.0125×(m-220)=0.5,解得m=224.
所以月平均用电量的中位数为224.
(3)由题图知,月平均用电量为[220,240)的用户数为(240-220)×0.0125×100=25,同理可得,月平均用电量为[240,260),[260,280),[280,300]的用户数分别为15,10,5.
故用分层抽样的方式抽取11户居民,月平均用电量在[220,240)的用户中应抽取11×=5(户).
『规律总结』
1.用样本估计总体的两种方法
(1)用样本的频率分布(频率分布表、频率分布直方图、茎叶图等)估计总体的频率分布.
(2)用样本的数字特征(众数、中位数、平均数、方差、标准差)估计总体的数字特征.
2.方差的计算与含义
计算方差首先要计算平均数,然后再按照方差的计算公式进行计算,方差和标准差是描述一个样本和总体的波动大小的特征数,方差、标准差大说明波动大.
3.众数、中位数、平均数与频率分布直方图的关系
(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.
(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.
(3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
G
1.(2018·青岛二模)某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其均值和方差分别为和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为( D )
A.,s2+1002 B.+100,s2+1002
C.,s2 D.+100,s2
[解析] 由题意知yi=xi+100,
则=(x1+x2…+x10+100×10)=+100.
方差S2=[(x1+100-(+100))2+(x2+100-(+100))2+…+(x10+100-(+100))2]
=[(x1-)2+(x2-)2+…+(x10-)2]=s2.
故选D.
2.(2018·湖北武汉第二次调研)如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45)的上网人数呈现递减的等差数列分布,则年龄在[35,40)的网民出现的频率为( C )
A.0.04 B.0.06
C.0.2 D.0.3
[解析] 由频率分布直方图知识得,年龄在[20,25)的频率为0.01×5=0.05,[25,30)的频率为0.07×5=0.35,设年龄在[30,35),[35,40),[40,45]的频率为x,y,z,又x,y,z成等差数列,
所以可得解得y=0.2,
所以年龄在[35,40)的网民出现的频率为0.2.故选C.
例4 (2018·全国卷Ⅱ,18)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值.
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[解析] (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
方法一:从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
方法二:从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.
『规律总结』
1.正确理解计算,的公式和准确的计算,是求线性回归方程的关键.其中线性回归方程必过样本中心点(,).
2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
G
为了解某地区某种农产品的年产量x(单位:吨)对价格y(单位:千元/吨)和年利润z的影响,对近五年该农产品的年产量和价格统计如下表:
x
1
2
3
4
5
y
7.0
6.5
5.5
3.8
2.2
(1)求y关于x的线性回归方程=x+;
(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数)
参考公式:==,=-
[解析] =3,=5,
i=15,i=25,iyi=62.7.=55,
解得=-1.23,=8.69,
所以=8.69-1.23x.
(2)年利润z=x(8.69-1.23x)-2x=-1.23x2+6.69x,
所以当x=2.72,即年产量为2.72吨时,年利润z取得最大值.
例5 (文)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,其中每天玩微信超过6小时的用户列为“微信控”,否则称其为“非微信控”,调查结果如下:
微信控
非微信控
总计
男性
26
24
50
女性
30
20
50
总计
56
44
100
(1)根据以上数据,能否有60%的把握认为“微信控”与“性别”有关?
(2)现从调查的女性用户中按分层抽样的方法选出5人赠送营养面膜1份,求所抽取5人中“微信控”和“非微信控”的人数;
(3)从(2)中抽取的5人中再随机抽取2人赠送200元的护肤品套装,求这2人中至少有1人为“非微信控”的概率.
参考公式:K2=,其中n=a+b+c+d.
参考数据:
P(K2≥k0)
0.50
0.40
0.25
0.05
0.025
0.010
k0
0.455
0.708
1.321
3.840
5.024
6.635
[解析] (1)由列联表可得k==≈0.649 35<0.708,
所以没有60%的把握认为“微信控”与“性别”有关系.
(2)依题意可知,所抽取的5位女性中,“微信控”有5×=3(人),“非微信控”有5×=2.
(3)记5人中的“微信控”为a,b,c,“非微信控”为D,E,则有所有可能的基本事件为(a,b),(a,c),(a,D),(a,E),(b,c),(b,D),(b,E),(c,D),(c,E),(D,E)共10种,
其中至少有1人为“非微信控”的基本事件有(a,D),(a,E),(b,D),(b,E),(c,D),(c,E),(D,E)共7种,
所以这2人中至少有1人为“非微信控”的概率为.
(理)(2017·山西四校第二次联考)心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)
几何题
代数题
总计
男同学
22
8
30
女同学
8
12
20
总计
30
20
50
(1)能否据此判断有97.5%的把握认为视觉和空间能力与性别有关?
(2)经过多次测试后,甲每次解答一道几何题所用的时间在5~7分钟,乙每次解答一道几何题所用的时间在6~8分钟,现甲、乙各解同一道几何题,求乙比甲先解答完的概率;
(3)现从选择做几何题的8名女生中任意抽取2人对她们的答题情况进行全程研究,记丙、丁2名女生被抽到的人数为X,求X的分布列及数学期望E(X).
附表及公式:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
K2=,n=a+b+c+d.
[解析] (1)由表中数据得k==≈5.556>5.024,
所以有97.5%的把握认为视觉和空间能力与性别有关.
(2)设甲、乙解答一道几何题的时间分别为x,y分钟,则表示的平面区域如图所示.
设事件A为“乙比甲先做完此道题”,则x>y满足的区域如图中阴影部分所示.
由几何概型可得P(A)==,
即乙比甲先解答完的概率为.
(3)由题可知,在选择做几何题的8名女生中任意抽取2人的方法有C=28种,其中丙、丁2人没有一个人被抽到的有C=15种;恰有一人被抽到的有C·C=12种;2人都被抽到的有C=1种.
所以X的可能取值为0,1,2,P(X=0)=,
P(X=1)==,
P(X=2)=.
X的分布列为
X
0
1
2
P
E(X)=0×+1×+2×=.
『规律总结』
进行独立性检验的步骤
(1)假设两个分类变量X与Y无关;
(2)找相关数据,列出2×2列联表;
(3)由公式K2=(其中n=a+b+c+d)计算出K2的值.
(4)将K2的值与临界值进行对比,进而做出统计推断.
提醒:
K2的观测值越大,对应假设事件成立的概率越小,假设事件不成立的概率越大.
G
(2018·聊城三模)某医疗研究所为了检验某种血清能起到预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,利用2×2列联表计算得K2的观测值k≈3.918.
附表:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
则作出“这种血清能起到预防感冒的作用”出错的可能性不超过( B )
A.95% B.5%
C.97.5% D.2.5%
[解析] 由题意知观测值k2≈3.918>3.841,
所以对照题中的附表得P(K2≥k)=0.05=5%.
A组
1.(2018·广州模拟)广州市2018年各月的平均气温(℃)数据的茎叶图如下:
则这组数据的中位数是( B )
A.19 B.20
C.21.5 D.23
[解析] 由茎叶图,把各数值由小到大排列,可得中位数为20,故选B.
2.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( D )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
[解析] 根据雷达图可知全年最低气温都在0 ℃以上,故A正确;一月平均最高气温是6 ℃左右,平均最低气温2 ℃左右,七月平均最高气温22 ℃左右,平均最低气温13 ℃左右,所以七月的平均温差比一月的平均温差大,B正确;三月和十一月的平均最高气温都是10 ℃,三月和十一月的平均最高气温基本相同,C正确;平均最高气温高于20 ℃的有七月和八月,故D错误.
3.(文)某厂生产A、B、C三种型号的产品,产品数量之比为3∶2∶4,现用分层抽样的方法抽取一个样本容量为180的样本,则样本中B型号的产品的数量为( B )
A.20 B.40
C.60 D.80
[解析] 由分层抽样的定义知,B型号产品应抽取180×=40件.
(理)某全日制大学共有学生5600人,其中专科生有1300人,本科生有3000人,研究生1300人,现采用分层抽样的方法调查学生利用因特网查找学习资料的情况,抽取的样本为280人,则应在专科生,本科生与研究生这三类学生中分别抽取( A )
A.65人,150人,65人 B.30人,150人,100人
C.93人,94人,93人 D.80人,120人,80人
[解析] =,1300×=65,3000×=150,故选A.
4.(文)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{an}.已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为( A )
A.100 B.120
C.150 D. 200
[解析] 设公差为d,则a1+d=2a1,∴a1=d,∴d+2d+3d+4d+5d=1,∴d=,∴面积最大的一组的频率等于×5=.
∴小长方形面积最大的一组的频数为300×=100.
(理)某电视传媒公司为了了解某类体育节目的收视情况,随机抽取了100名观众进行调查,如图是根据调查结果绘制的观众日均收看该类体育节目时间的频率分布直方图,其中收看时间分组区间是:[0,10),[10,20),[20,30),[30,40),[40,50),[50,60].将日均收看该类体育节目时间不低于40分钟的观众称为“体育迷”,则图中x的值为( A )
A.0.01 B.0.02
C.0.03 D.0.04
[解析] 由题设可知(0.005+x+0.012+0.02+0.025+0.028)×10=1,解得x=0.01,选A.
5.等差数列x1,x2,x3,…,x9的公差为1,若以上述数据x1,x2,x3,…,x9为样本,则此样本的方差为( A )
A. B.
C.60 D.30
[解析] 令等差数列为1,2,3…9,则样本的平均值=5,∴s2=[(1-5)2+(2-5)2+…+(9-5)2]==.
6.(2018·汉中一模)为了研究某种细菌在特定环境下,随时间变化繁殖情况,得如下实验数据,计算得回归方程为=0.85x-0.25.由以上信息,得到下表中c的值为6.
天数t(天)
3
4
5
6
7
繁殖个数y(千个)
2.5
3
4
4.5
c
[解析] 因为=(3+4+5+6+7)=5,=(2.5+3+4+4.5+c)=,
所以这组数据的样本中心点是(5,),把样本中心点代入回归方程=0.85x-0.25,所以=0.85×5-0.25,所以c=6.
7.将高三(1)班参加体检的36名学生,编号为:1,2,3,…,36,若采用系统抽样的方法抽取一个容量为4的样本,已知样本中含有编号为6、24、33的学生,则样本中剩余一名学生的编号是15.
[解析] 根据系统抽样的特点可知抽取的4名学生的编号依次成等差数列,故剩余一名学生的编号是15.
8.(2018·华北十校联考)2018年的NBA全明星赛于北京时间2018年2月14日举行,如图是参加此次比赛的甲、乙两名篮球运动员以往几场比赛得分的茎叶图,则甲、乙两人这几场比赛得分的中位数之和是64.
[解析] 应用茎叶图的知识得,甲、乙两人这几场比赛得分的中位数分别为28,36,因此甲、乙两人这几场比赛得分的中位数之和是64.
9.班主任为了对本班学生的考试成绩进行分析,决定从全班25位女同学,24位男同学中随机抽取一个容量为8的样本进行分析.若这8位同学的数学、物理分数对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学分数x
60
65
70
75
80
85
90
95
物理分数y
72
77
80
84
88
90
93
95
上表数据表示变量y与x的相关关系.
(1)画出样本的散点图,并说明物理分数y与数学分数x之间是正相关还是负相关;
(2)求y与x的线性回归直线方程(系数精确到0.01),并指出某学生数学83分,物理约为多少分(精确到1分)?
参考公式:回归直线的方程是:=x+,
其中=,=-.
参考数据:=77.5,≈85,(xi-)2=1050,(xi-)(yi-)≈688.
[解析] (1)画样本散点图如下:
由图可知:物理分数y与数学分数x之间是正相关关系.
(2)从散点图中可以看出,这些点分布在一条直线附近,因此以用公式计算得,
==≈0.66,
由=77.5,≈85,得=-=85-0.66×77.5≈33.85.
所以回归直线方程为=0.66x+33.85.
当x=83时,=0.66×83+33.85=88.63≈89.
因此某学生数学83分时,物理约为89分.
B组
1.(2018·河北省衡水中学押题卷)《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为( A )
A.2 B.4
C.5 D.6
[解析] 由茎叶图可知,获“诗词达人”称号的有8人,据该次比赛的成绩按照称号的不同进行分层抽样抽取10名学生,则抽选的学生中获得“诗词能手”称号的人数为n,则=,∴n=2,故选A.
2.(文)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
4
5
6
7
8
9
销量y(件)
90
84
83
80
75
68
由表中数据,求得线性回归方程为=-4x+a.若在这些样本点中任取一点,则它在回归直线左下方的概率为( B )
A. B.
C. D.
[解析] ==,
==80,
∵回归直线过点(,80),∴a=106,
∴=-4x+106,∴点(5,84),(9,68)在回归直线左下方,故所求概率P==.
(理)关于统计数据的分析,有以下几个结论,其中正确的个数为( A )
①利用残差进行回归分析时,若残差点比较均匀地落在宽度较窄的水平带状区域内,则说明线性回归模型的拟合精度较高;
②将一组数据中的每个数据都减去同一个数后,期望与方差均没有变化;
③调查剧院中观众观后感时,从50排(每排人数相同)中任意抽取一排的人进行调查是分层抽样法;
④已知随机变量X服从正态分布N(3,1),且P(2≤X≤4)=0.682 6,则P(X>4)等于0.158 7
⑤某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人.为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本.若样本中的青年职工为7人,则样本容量为15人.
A.2 B.3
C.4 D.5
[解析] ①④正确,②③⑤错误,⑤设样本容量为n,则=,∴n=30,故⑤错.
3.(2018·青海省西宁市一模)某班一次测试成绩的茎叶图和频率分布直方图可见部分如图,根据图中的信息可确定被抽测的人数及分数在[90,100]内的人数分别为( C )
A.20,2 B.24,4
C.25,2 D.25,4
[解析] 由频率分布直方图可知,90~100的频率和50~60的频率相同,所以 90~100的人数为2,总人数为=25人,故选C.
4.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( B )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
[解析] 由已知得==10(万元),
==8(万元),
故=8-0.76×10=0.4.
所以回归直线方程为=0.76x+0.4,社区一户年收入为15万元家庭的年支出为=0.76×15+0.4=11.8(万元),故选B.
5.(2017·山东卷,5)为了研究某班学生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为=x+.已知i=225,i=1 600,=4.该班某学生的脚长为24,据此估计其身高为( C )
A.160 B.163
C.166 D.170
[解析] ∵i=225,∴=i=22.5.
∵i=1 600,∴=i=160.
又=4,∴=-=160-4×22.5=70.
∴回归直线方程为=4x+70.
将x=24代入上式得=4×24+70=166.故选C.
6.新闻媒体为了了解观众对央视某节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:试根据样本估计总体的思想,估计约有99%的把握认为“喜爱该节目与否和性别有关”.
女
男
总计
喜爱
40
20
60
不喜爱
20
30
50
总计
60
50
110
参考附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
(参考公式:K2=,其中n=a+b+c+d)
[解析] 分析列联表中数据,可得
K2=≈7.822>6.635,所以有99%的把握认为“喜爱该节目与否和性别有关”.
7.某班开展一次智力竞赛活动,共a,b,c三个问题,其中题a满分是20分,题b,c满分都是25分,每道题或者得满分,或者得0分,活动结果显示,全班同学每人至少答对一道题,有1名同学答对全部三道题,有15名同学答对其中两道题,答对题a与题b的人数之和为29,答对题a与题c的人数之和为25,答对题b与题c的人数之和为20,则该班同学中只答对一道题的人数是4;该班的平均成绩是42.
[解析] 设x,y,z分别是答对a,b,c题的人数,则有解得答对一道题的人数为(17+12+8)-3×1-2×15=4,全班总人数为4+15+1=20,全班总得分为17×20+(12+8)×25=840,平均成绩为=42.
8.(2017·全国卷Ⅱ,19)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有90%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=.
[解析] (1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
第一讲 统计与统计案例
高考考点
考点解读
抽样方法
1.分层抽样中利用抽样比确定样本容量、各层抽样的个体数等
2.考查系统抽样的有关计算
样本频率分布、数字特征
1.频率分布直方图、茎叶图的绘制及识图,并利用图解决实际问题
2.茎叶图与数字特征相结合考查
3.平均数和方差的计算
线性回归分析与独立性检验在实际问题中的应用
1.线性回归方程的求解及应用
2.独立性检验的应用以及独立性检验与统计、概率的综合问题
备考策略
本部分内容在备考时应注意以下几个方面:
(1)掌握三种抽样的特点及相互联系,特别是系统抽样和分层抽样的应用.
(2)会用样本的频率分布估计总体分布,会用样本的数字特征估计总体的数字特征.
(3)了解回归分析及独立性检验的基本思想,认识其统计方法在决策中的应用.
预测2020年命题热点为:
(1)频率分布直方图、茎叶图的绘制及应用.
(2)数字特征的求解及应用.
(3)线性回归方程的求解及应用.
Z
1.抽样方法
三种抽样方法包括:简单随机抽样、系统抽样、分层抽样.
2.统计图表
(1)在频率分布直方图中:
①各小矩形的面积表示相应各组的频率,各小矩形的高=;②各小矩形面积之和等于1;③中位数左右两侧的直方图面积相等,因此可以估计其近似值.
(2)茎叶图
3.样本的数字特征
(1)众数:在样本数据中,出现次数最多的那个数据.
中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数;
(2)样本平均数=(x1+x2+…+xn)=i;
(3)样本方差s2=[(x1-)2+(x2-)2+…+(xn-)2]=(xi-)2;
(4)样本标准差
s=
=.
注意:(1)现实中总体所包含的个体数往往较多,总体的平均数与标准差、方差是不知道(或不可求)的,所以我们通常用样本的平均数与标准差、方差来估计总体的平均数与标准差、方差.
(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定.
4.变量间的相关关系
(1)利用散点图可以初步判断两个变量之间是否线性相关.如果散点图中的点从整体上看大致分布在一条直线的附近,我们说变量x和y具有线性相关关系.
(2)用最小二乘法求回归直线的方程
设线性回归方程为=x+,则
.
注意:回归直线一定经过样本的中心点(,),据此性质可以解决有关的计算问题.
5.回归分析
r=,叫做相关系数.
相关系数用来衡量变量x与y之间的线性相关程度;|r|≤1,且|r|越接近于1,相关程度越高,|r|越接近于0,相关程度越低.
6.独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则K2=,
若K2>3.841,则有95%的把握说两个事件有关;
若K2>6.635,则有99%的把握说两个事件有关;
若K2<2.706,则没有充分理由认为两个事件有关.
Y
1.混淆简单随机抽样、系统抽样、分层抽样,不能正确地选择抽样方法.
2.不能正确地从频率分布直方图中提取相关的信息,忽略了频数与频率的差异.
3.混淆条形图与直方图,条形图是离散随机变量,纵坐标刻度为频数与频率,直方图是连续随机变量,纵坐标刻度为频率/组距,这是密度,连续随机变量在某一点上是没有频率的.
4.回归分析是对具有相关关系的两个变量进行统计分析的方法.只有在散点图大致呈线性时,求出的回归直线方程才有实际意义.
1.(2018·全国卷Ⅰ,3)某地区经过一年的新农村建设,农村的经济收入增加了一倍.实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下饼图:
则下面结论中不正确的是( A )
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
[解析] 设新农村建设前的收入为M,而新农村建设后的收入为2M,则新农村建设前种植收入为0.6M,而新农村建设后的种植收入为0.74M,所以种植收入增加了,所以A项不符合题意;新农村建设前其他收入为0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B项符合题意;新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,所以增加了一倍,所以C项符合题意;新农村建设后,养殖收入与第三产业收入的总和占经济收入为30%+28%=58%>50%,所以超过了经济收入的一半,所以D项符合题意,故选A.
2.(2017·全国卷Ⅲ,3)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( A )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
[解析] 对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;
对于选项B,观察折线图的变化趋势可知年接待游客逐年增加,故B正确;
对于选项C,D,由图可知显然正确.故选A.
3.(2018·全国卷Ⅲ,14)某公司有大量客户,且不同年龄段客户对其服务的评价有较大差异.为了解客户的评价,该公司准备进行抽样调查,可供选择的抽样方法有简单随机抽样、分层抽样和系统抽样,则最合适的抽样方法是分层抽样.
[解析] 根据题干中有大量客户,且不同年龄段客户对其服务的评价有较大差异,可知最合适的抽样方法是分层抽样.
4.(2018·江苏卷,3)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这5位裁判打出的分数的平均数为90.
[解析] =90.
5.(2018·全国卷Ⅰ,19)某家庭记录了未使用节水龙头50天的日用水量数据(单位:m3)和使用了节水龙头50天的日用水量数据,得到频数分布表如下:
未使用节水龙头50天的日用水量频数分布表
日用
水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
[0.6,0.7)
频数
1
3
2
4
9
26
5
使用了节水龙头50天的日用水量频数分布表
日用
水量
[0,0.1)
[0.1,0.2)
[0.2,0.3)
[0.3,0.4)
[0.4,0.5)
[0.5,0.6)
频数
1
5
13
10
16
5
(1)作出使用了节水龙头50天的日用水量数据的频率分布直方图.
(2)估计该家庭使用节水龙头后,日用水量小于0.35 m3的概率.
(3)估计该家庭使用节水龙头后,一年能节省多少水?(一年按365天计算,同一组中的数据以这组数据所在区间中点的值作代表.)
[解析] (1)
(2)根据以上数据,该家庭使用节水龙头后50天日用水量小于0.35 m3的频率为0.2×0.1+1×0.1+2.6×0.1+2×0.05=0.48,
因此该家庭使用节水龙头后日用水量小于0.35 m3的概率的估计值为0.48.
(3)该家庭未使用节水龙头50天的日用水量的平均数为
1=(0.05×1+0.15×3+0.25×2+0.35×4+0.45×9+0.55×26+0.65×5)=0.48.
该家庭使用了节水龙头后50天的日用水量的平均数为
2=(0.05×1+0.15×5+0.25×13+0.35×10+0.45×16+0.55×5)=0.35.
估计使用节水龙头后,一年可节省水(0.48-0.35)×365=47.45(m3).
6.(2018·全国卷Ⅲ,18)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.
(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:
超过m
不超过m
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:K2=,
P
0.050
0.010
0.001
k0
3.841
6.635
10.828
[解析] (1)第二种生产方式的效率更高.
理由如下:
方法一:由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.
方法二:由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.
方法三:由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80 min;用第二种生产方式的工人完成生产任务平均所需时间低于80 min,因此第二种生产方式的效率更高.
方法四:由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
(2)由茎叶图知m==80.
列联表如下:
超过m
不超过m
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于K2的观测值k==10>6.635,所以有99%的把握认为两种生产方式的效率有差异.
例1 (1)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是( C )
A.简单随机抽样 B.按性别分层抽样
C.按学段分层抽样 D.系统抽样
[解析] 因为男女生视力情况差异不大,而学段的视力情况有鹿大差异,所以应按学段分层抽样.故选C.
(2)已知某地区中小学生人数和近视情况分布如图1和图2所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( A )
A.200,20 B.100,20
C.200,10 D.100,10
[解析] 由题图可知,样本容量等于(3 500+4 500+2 000)×2%=200;抽取的高中生近视人数为2 000×2%×50%=20,故选A.
(3)(2018·贵阳一模)从编号为01,02,…,49,50的50个个体中利用下面的随机数表选取5个个体,选取方法从随机数表第1行第5列的数开始由左到右依次抽取,则选出来的第5个个体的编号为( D )
7816
6572
0812
1463
0782
4369
9728
0198
3204
9234
4935
8200
3623
4869
6938
7481
A.14 B.07
C.32 D.43
[解析] 由题意知选定的第一个数为65(第1行的第5列和第6列),按由左到右选取两位数(大于50的跳过、重复的不选取),前5个个体编号为08,12,14,07,43.故选出来的第5个个体的编号为43.选D.
『规律总结』
系统抽样与分层抽样的求解方法
(1)系统抽样的最基本特征是“等距性”,每组内所抽取的号码需要依据第一组抽取的号码和组距唯一确定.每组抽取样本的号码依次构成一个以第一组抽取的号码m为首项,组距d为公差的等差数列{an},第k组抽取样本的号码ak=m+(k-1)d.
(2)分层抽样的关键是根据样本特征差异进行分层,实质是等比例抽样,求解此类问题需先求出抽样比——样本容量与总体容量的比,则各层所抽取的样本容量等于该层个体总数与抽样比的乘积.在每层抽样时,应采用简单随机抽样或系统抽样进行.
G
1.某校150名教职工中,有老年人20名,中年人50名,青年人80名,从中抽取30名作为样本.
①采用随机抽样法:抽签取出30个样本;
②采用系统抽样法:将教职工编号为00,01,…,149,然后平均分组抽取30个样本;
③采用分层抽样法:从老年人、中年人、青年人中抽取30个样本.
下列说法中正确的是( A )
A.无论采用哪种方法,这150名教职工中每个人被抽到的概率都相等
B.①②两种抽样方法,这150名教职工中每个人被抽到的概率都相等;③并非如此
C.①③两种抽样方法,这150名教职工中每个人被抽到的概率都相等;②并非如此
D.采用不同的抽样方法,这150名教职工中每个人被抽的概率是各不相同的
[解析] 三种抽样方法中,每个人被抽到的概率都等于=.故选A.
2.(2018·昆明一模)某班有学生60人,将这60名学生随机编号为1-60号,用系统抽样的方法从中抽出4名学生,已知3号、33号、48号学生在样本中,则样本中另一个学生的编号为( C )
A.28 B.23
C.18 D.13
[解析] 抽样间隔为15,故另一个学生的编号为3+15=18.
(一)用样本数字特征估计总体
例2 (1)(2018·湘潭一模)某中学奥数培训班共有14人,分为两个小组,在一次阶段测试中两个小组成绩的茎叶图如图所示,其中甲组学生成绩的平均数是88,乙组学生成绩的中位数是89,则n-m的值为( B )
A.5 B.6
C.7 D.8
[解析] 甲组学生成绩的平均数是88,
∴78+86+84+88+95+90+m+92=88×7
∴m=3.
又乙组学生的成绩的中位数是89.
∴n=9.∴n-m=9-3=6.故选B.
(2)为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如下表:
轮次
一
二
三
四
五
六
甲
73
66
82
72
63
76
乙
83
75
62
69
75
68
①补全茎叶图,并指出乙队测试成绩的中位数和众数;
②试用统计学中的平均数、方差知识对甲、乙两个代表队的测试成绩进行分析.
[解析] (1)补全茎叶图如下:
乙队测试成绩的中位数为72,众数为75.
(2)甲==72,
s=[(63-72)2+(66-72)2+(72-72)2+(73-72)2+(76-72)2+(82-72)2]=39;
乙==72,
s=[(62-72)2+(68-72)2+(69-72)2+(75-72)2+(75-72)2+(83-72)2]=44.
因为甲=乙,s
例3 某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x的值;
(2)求月平均用电量的众数和中位数;
(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?
[解析] (1)由已知得,20×(0.002+0.0095+0.011+0.0125+x+0.005+0.0025)=1,解得x=0.0075.
(2)由题图可知,面积最大的矩形对应的月平均用电量区间为[220,240),所以月平均用电量的众数的估计值为230;
因为20×(0.002+0.0095+0.011)=0.45<0.5,
20×(0.002+0.0095+0.011+0.0215)=0.7>0.5,所以中位数在区间[220,240)内,设中位数为m,则20×(0.002+0.0095+0.011)+0.0125×(m-220)=0.5,解得m=224.
所以月平均用电量的中位数为224.
(3)由题图知,月平均用电量为[220,240)的用户数为(240-220)×0.0125×100=25,同理可得,月平均用电量为[240,260),[260,280),[280,300]的用户数分别为15,10,5.
故用分层抽样的方式抽取11户居民,月平均用电量在[220,240)的用户中应抽取11×=5(户).
『规律总结』
1.用样本估计总体的两种方法
(1)用样本的频率分布(频率分布表、频率分布直方图、茎叶图等)估计总体的频率分布.
(2)用样本的数字特征(众数、中位数、平均数、方差、标准差)估计总体的数字特征.
2.方差的计算与含义
计算方差首先要计算平均数,然后再按照方差的计算公式进行计算,方差和标准差是描述一个样本和总体的波动大小的特征数,方差、标准差大说明波动大.
3.众数、中位数、平均数与频率分布直方图的关系
(1)众数为频率分布直方图中最高矩形的底边中点的横坐标.
(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.
(3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
G
1.(2018·青岛二模)某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其均值和方差分别为和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为( D )
A.,s2+1002 B.+100,s2+1002
C.,s2 D.+100,s2
[解析] 由题意知yi=xi+100,
则=(x1+x2…+x10+100×10)=+100.
方差S2=[(x1+100-(+100))2+(x2+100-(+100))2+…+(x10+100-(+100))2]
=[(x1-)2+(x2-)2+…+(x10-)2]=s2.
故选D.
2.(2018·湖北武汉第二次调研)如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45)的上网人数呈现递减的等差数列分布,则年龄在[35,40)的网民出现的频率为( C )
A.0.04 B.0.06
C.0.2 D.0.3
[解析] 由频率分布直方图知识得,年龄在[20,25)的频率为0.01×5=0.05,[25,30)的频率为0.07×5=0.35,设年龄在[30,35),[35,40),[40,45]的频率为x,y,z,又x,y,z成等差数列,
所以可得解得y=0.2,
所以年龄在[35,40)的网民出现的频率为0.2.故选C.
例4 (2018·全国卷Ⅱ,18)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:=-30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②:=99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值.
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
[解析] (1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=-30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
方法一:从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下.这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
方法二:从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理.说明利用模型②得到的预测值更可靠.
『规律总结』
1.正确理解计算,的公式和准确的计算,是求线性回归方程的关键.其中线性回归方程必过样本中心点(,).
2.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.
G
为了解某地区某种农产品的年产量x(单位:吨)对价格y(单位:千元/吨)和年利润z的影响,对近五年该农产品的年产量和价格统计如下表:
x
1
2
3
4
5
y
7.0
6.5
5.5
3.8
2.2
(1)求y关于x的线性回归方程=x+;
(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z取到最大值?(保留两位小数)
参考公式:==,=-
[解析] =3,=5,
i=15,i=25,iyi=62.7.=55,
解得=-1.23,=8.69,
所以=8.69-1.23x.
(2)年利润z=x(8.69-1.23x)-2x=-1.23x2+6.69x,
所以当x=2.72,即年产量为2.72吨时,年利润z取得最大值.
例5 (文)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,其中每天玩微信超过6小时的用户列为“微信控”,否则称其为“非微信控”,调查结果如下:
微信控
非微信控
总计
男性
26
24
50
女性
30
20
50
总计
56
44
100
(1)根据以上数据,能否有60%的把握认为“微信控”与“性别”有关?
(2)现从调查的女性用户中按分层抽样的方法选出5人赠送营养面膜1份,求所抽取5人中“微信控”和“非微信控”的人数;
(3)从(2)中抽取的5人中再随机抽取2人赠送200元的护肤品套装,求这2人中至少有1人为“非微信控”的概率.
参考公式:K2=,其中n=a+b+c+d.
参考数据:
P(K2≥k0)
0.50
0.40
0.25
0.05
0.025
0.010
k0
0.455
0.708
1.321
3.840
5.024
6.635
[解析] (1)由列联表可得k==≈0.649 35<0.708,
所以没有60%的把握认为“微信控”与“性别”有关系.
(2)依题意可知,所抽取的5位女性中,“微信控”有5×=3(人),“非微信控”有5×=2.
(3)记5人中的“微信控”为a,b,c,“非微信控”为D,E,则有所有可能的基本事件为(a,b),(a,c),(a,D),(a,E),(b,c),(b,D),(b,E),(c,D),(c,E),(D,E)共10种,
其中至少有1人为“非微信控”的基本事件有(a,D),(a,E),(b,D),(b,E),(c,D),(c,E),(D,E)共7种,
所以这2人中至少有1人为“非微信控”的概率为.
(理)(2017·山西四校第二次联考)心理学家分析发现视觉和空间能力与性别有关,某数学兴趣小组为了验证这个结论,从兴趣小组中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)
几何题
代数题
总计
男同学
22
8
30
女同学
8
12
20
总计
30
20
50
(1)能否据此判断有97.5%的把握认为视觉和空间能力与性别有关?
(2)经过多次测试后,甲每次解答一道几何题所用的时间在5~7分钟,乙每次解答一道几何题所用的时间在6~8分钟,现甲、乙各解同一道几何题,求乙比甲先解答完的概率;
(3)现从选择做几何题的8名女生中任意抽取2人对她们的答题情况进行全程研究,记丙、丁2名女生被抽到的人数为X,求X的分布列及数学期望E(X).
附表及公式:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
K2=,n=a+b+c+d.
[解析] (1)由表中数据得k==≈5.556>5.024,
所以有97.5%的把握认为视觉和空间能力与性别有关.
(2)设甲、乙解答一道几何题的时间分别为x,y分钟,则表示的平面区域如图所示.
设事件A为“乙比甲先做完此道题”,则x>y满足的区域如图中阴影部分所示.
由几何概型可得P(A)==,
即乙比甲先解答完的概率为.
(3)由题可知,在选择做几何题的8名女生中任意抽取2人的方法有C=28种,其中丙、丁2人没有一个人被抽到的有C=15种;恰有一人被抽到的有C·C=12种;2人都被抽到的有C=1种.
所以X的可能取值为0,1,2,P(X=0)=,
P(X=1)==,
P(X=2)=.
X的分布列为
X
0
1
2
P
E(X)=0×+1×+2×=.
『规律总结』
进行独立性检验的步骤
(1)假设两个分类变量X与Y无关;
(2)找相关数据,列出2×2列联表;
(3)由公式K2=(其中n=a+b+c+d)计算出K2的值.
(4)将K2的值与临界值进行对比,进而做出统计推断.
提醒:
K2的观测值越大,对应假设事件成立的概率越小,假设事件不成立的概率越大.
G
(2018·聊城三模)某医疗研究所为了检验某种血清能起到预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,利用2×2列联表计算得K2的观测值k≈3.918.
附表:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
则作出“这种血清能起到预防感冒的作用”出错的可能性不超过( B )
A.95% B.5%
C.97.5% D.2.5%
[解析] 由题意知观测值k2≈3.918>3.841,
所以对照题中的附表得P(K2≥k)=0.05=5%.
A组
1.(2018·广州模拟)广州市2018年各月的平均气温(℃)数据的茎叶图如下:
则这组数据的中位数是( B )
A.19 B.20
C.21.5 D.23
[解析] 由茎叶图,把各数值由小到大排列,可得中位数为20,故选B.
2.某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( D )
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
[解析] 根据雷达图可知全年最低气温都在0 ℃以上,故A正确;一月平均最高气温是6 ℃左右,平均最低气温2 ℃左右,七月平均最高气温22 ℃左右,平均最低气温13 ℃左右,所以七月的平均温差比一月的平均温差大,B正确;三月和十一月的平均最高气温都是10 ℃,三月和十一月的平均最高气温基本相同,C正确;平均最高气温高于20 ℃的有七月和八月,故D错误.
3.(文)某厂生产A、B、C三种型号的产品,产品数量之比为3∶2∶4,现用分层抽样的方法抽取一个样本容量为180的样本,则样本中B型号的产品的数量为( B )
A.20 B.40
C.60 D.80
[解析] 由分层抽样的定义知,B型号产品应抽取180×=40件.
(理)某全日制大学共有学生5600人,其中专科生有1300人,本科生有3000人,研究生1300人,现采用分层抽样的方法调查学生利用因特网查找学习资料的情况,抽取的样本为280人,则应在专科生,本科生与研究生这三类学生中分别抽取( A )
A.65人,150人,65人 B.30人,150人,100人
C.93人,94人,93人 D.80人,120人,80人
[解析] =,1300×=65,3000×=150,故选A.
4.(文)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{an}.已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为( A )
A.100 B.120
C.150 D. 200
[解析] 设公差为d,则a1+d=2a1,∴a1=d,∴d+2d+3d+4d+5d=1,∴d=,∴面积最大的一组的频率等于×5=.
∴小长方形面积最大的一组的频数为300×=100.
(理)某电视传媒公司为了了解某类体育节目的收视情况,随机抽取了100名观众进行调查,如图是根据调查结果绘制的观众日均收看该类体育节目时间的频率分布直方图,其中收看时间分组区间是:[0,10),[10,20),[20,30),[30,40),[40,50),[50,60].将日均收看该类体育节目时间不低于40分钟的观众称为“体育迷”,则图中x的值为( A )
A.0.01 B.0.02
C.0.03 D.0.04
[解析] 由题设可知(0.005+x+0.012+0.02+0.025+0.028)×10=1,解得x=0.01,选A.
5.等差数列x1,x2,x3,…,x9的公差为1,若以上述数据x1,x2,x3,…,x9为样本,则此样本的方差为( A )
A. B.
C.60 D.30
[解析] 令等差数列为1,2,3…9,则样本的平均值=5,∴s2=[(1-5)2+(2-5)2+…+(9-5)2]==.
6.(2018·汉中一模)为了研究某种细菌在特定环境下,随时间变化繁殖情况,得如下实验数据,计算得回归方程为=0.85x-0.25.由以上信息,得到下表中c的值为6.
天数t(天)
3
4
5
6
7
繁殖个数y(千个)
2.5
3
4
4.5
c
[解析] 因为=(3+4+5+6+7)=5,=(2.5+3+4+4.5+c)=,
所以这组数据的样本中心点是(5,),把样本中心点代入回归方程=0.85x-0.25,所以=0.85×5-0.25,所以c=6.
7.将高三(1)班参加体检的36名学生,编号为:1,2,3,…,36,若采用系统抽样的方法抽取一个容量为4的样本,已知样本中含有编号为6、24、33的学生,则样本中剩余一名学生的编号是15.
[解析] 根据系统抽样的特点可知抽取的4名学生的编号依次成等差数列,故剩余一名学生的编号是15.
8.(2018·华北十校联考)2018年的NBA全明星赛于北京时间2018年2月14日举行,如图是参加此次比赛的甲、乙两名篮球运动员以往几场比赛得分的茎叶图,则甲、乙两人这几场比赛得分的中位数之和是64.
[解析] 应用茎叶图的知识得,甲、乙两人这几场比赛得分的中位数分别为28,36,因此甲、乙两人这几场比赛得分的中位数之和是64.
9.班主任为了对本班学生的考试成绩进行分析,决定从全班25位女同学,24位男同学中随机抽取一个容量为8的样本进行分析.若这8位同学的数学、物理分数对应如下表:
学生编号
1
2
3
4
5
6
7
8
数学分数x
60
65
70
75
80
85
90
95
物理分数y
72
77
80
84
88
90
93
95
上表数据表示变量y与x的相关关系.
(1)画出样本的散点图,并说明物理分数y与数学分数x之间是正相关还是负相关;
(2)求y与x的线性回归直线方程(系数精确到0.01),并指出某学生数学83分,物理约为多少分(精确到1分)?
参考公式:回归直线的方程是:=x+,
其中=,=-.
参考数据:=77.5,≈85,(xi-)2=1050,(xi-)(yi-)≈688.
[解析] (1)画样本散点图如下:
由图可知:物理分数y与数学分数x之间是正相关关系.
(2)从散点图中可以看出,这些点分布在一条直线附近,因此以用公式计算得,
==≈0.66,
由=77.5,≈85,得=-=85-0.66×77.5≈33.85.
所以回归直线方程为=0.66x+33.85.
当x=83时,=0.66×83+33.85=88.63≈89.
因此某学生数学83分时,物理约为89分.
B组
1.(2018·河北省衡水中学押题卷)《中国诗词大会》的播出引发了全民的读书热,某小学语文老师在班里开展了一次诗词默写比赛,班里40名学生得分数据的茎叶图如图所示.若规定得分不小于85分的学生得到“诗词达人”的称号,小于85分且不小于70分的学生得到“诗词能手”的称号,其他学生得到“诗词爱好者”的称号,根据该次比赛的成绩按照称号的不同进行分层抽样抽选10名学生,则抽选的学生中获得“诗词能手”称号的人数为( A )
A.2 B.4
C.5 D.6
[解析] 由茎叶图可知,获“诗词达人”称号的有8人,据该次比赛的成绩按照称号的不同进行分层抽样抽取10名学生,则抽选的学生中获得“诗词能手”称号的人数为n,则=,∴n=2,故选A.
2.(文)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
4
5
6
7
8
9
销量y(件)
90
84
83
80
75
68
由表中数据,求得线性回归方程为=-4x+a.若在这些样本点中任取一点,则它在回归直线左下方的概率为( B )
A. B.
C. D.
[解析] ==,
==80,
∵回归直线过点(,80),∴a=106,
∴=-4x+106,∴点(5,84),(9,68)在回归直线左下方,故所求概率P==.
(理)关于统计数据的分析,有以下几个结论,其中正确的个数为( A )
①利用残差进行回归分析时,若残差点比较均匀地落在宽度较窄的水平带状区域内,则说明线性回归模型的拟合精度较高;
②将一组数据中的每个数据都减去同一个数后,期望与方差均没有变化;
③调查剧院中观众观后感时,从50排(每排人数相同)中任意抽取一排的人进行调查是分层抽样法;
④已知随机变量X服从正态分布N(3,1),且P(2≤X≤4)=0.682 6,则P(X>4)等于0.158 7
⑤某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人.为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本.若样本中的青年职工为7人,则样本容量为15人.
A.2 B.3
C.4 D.5
[解析] ①④正确,②③⑤错误,⑤设样本容量为n,则=,∴n=30,故⑤错.
3.(2018·青海省西宁市一模)某班一次测试成绩的茎叶图和频率分布直方图可见部分如图,根据图中的信息可确定被抽测的人数及分数在[90,100]内的人数分别为( C )
A.20,2 B.24,4
C.25,2 D.25,4
[解析] 由频率分布直方图可知,90~100的频率和50~60的频率相同,所以 90~100的人数为2,总人数为=25人,故选C.
4.为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程=x+,其中=0.76,=-.据此估计,该社区一户年收入为15万元家庭的年支出为( B )
A.11.4万元 B.11.8万元
C.12.0万元 D.12.2万元
[解析] 由已知得==10(万元),
==8(万元),
故=8-0.76×10=0.4.
所以回归直线方程为=0.76x+0.4,社区一户年收入为15万元家庭的年支出为=0.76×15+0.4=11.8(万元),故选B.
5.(2017·山东卷,5)为了研究某班学生的脚长x(单位:cm)和身高y(单位:cm)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为=x+.已知i=225,i=1 600,=4.该班某学生的脚长为24,据此估计其身高为( C )
A.160 B.163
C.166 D.170
[解析] ∵i=225,∴=i=22.5.
∵i=1 600,∴=i=160.
又=4,∴=-=160-4×22.5=70.
∴回归直线方程为=4x+70.
将x=24代入上式得=4×24+70=166.故选C.
6.新闻媒体为了了解观众对央视某节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:试根据样本估计总体的思想,估计约有99%的把握认为“喜爱该节目与否和性别有关”.
女
男
总计
喜爱
40
20
60
不喜爱
20
30
50
总计
60
50
110
参考附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
(参考公式:K2=,其中n=a+b+c+d)
[解析] 分析列联表中数据,可得
K2=≈7.822>6.635,所以有99%的把握认为“喜爱该节目与否和性别有关”.
7.某班开展一次智力竞赛活动,共a,b,c三个问题,其中题a满分是20分,题b,c满分都是25分,每道题或者得满分,或者得0分,活动结果显示,全班同学每人至少答对一道题,有1名同学答对全部三道题,有15名同学答对其中两道题,答对题a与题b的人数之和为29,答对题a与题c的人数之和为25,答对题b与题c的人数之和为20,则该班同学中只答对一道题的人数是4;该班的平均成绩是42.
[解析] 设x,y,z分别是答对a,b,c题的人数,则有解得答对一道题的人数为(17+12+8)-3×1-2×15=4,全班总人数为4+15+1=20,全班总得分为17×20+(12+8)×25=840,平均成绩为=42.
8.(2017·全国卷Ⅱ,19)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)设A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有90%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较.
附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
K2=.
[解析] (1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
相关资料
更多