所属成套资源:高考数学精编总复习必刷题一、二轮复习
全国版高考数学必刷题:第十八单元 统计初步
展开这是一份全国版高考数学必刷题:第十八单元 统计初步,共42页。试卷主要包含了32,∑i=17tiyi=40,1 随机抽样与样本分布等内容,欢迎下载使用。
第十八单元 统计初步
考点一
数据分析
1.(2017年全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
根据该折线图,下列结论错误的是( ).
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月
D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳
【解析】对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;
对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;
对于选项C,D,由图可知显然正确.
故选A.
【答案】A
2.(2017年山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为y^=b^x+a^.已知∑i=110xi=225,∑i=110yi=1600,b^=4.该班某学生的脚长为24,据此估计其身高为( ).
A.160 B.163 C.166 D.170
【解析】∵∑i=110xi=225,∴x-=110∑i=110xi=22.5.
∵∑i=110yi=1600,∴y-=110∑i=110yi=160.
又b^=4,∴a^=y--b^x-=160-4×22.5=70.
∴回归直线方程为y^=4x+70.
将x=24代入上式得y^=4×24+70=166.
故选C.
【答案】C
3.(2016年全国Ⅲ卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( ).
A.各月的平均最低气温都在0 ℃以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均最高气温高于20 ℃的月份有5个
【解析】对于选项A,由图易知各月的平均最低气温都在0 ℃以上,故正确;对于选项B,七月的平均最高气温点与平均最低气温点间的距离大于一月的平均最高气温点与平均最低气温点间的距离,所以七月的平均温差比一月的平均温差大,故正确;对于选项C,三月和十一月的平均最高气温均为10 ℃,故正确;对于选项D,平均最高气温高于20 ℃的月份有七月、八月,共2个月份,故错误.
【答案】D
4.(2016年山东卷)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( ).
A.56 B.60 C.120 D.140
【解析】由直方图可知每周自习时间不少于22.5小时的频率为(0.16+0.08+0.04)×2.5=0.7,则每周自习时间不少于22.5小时的人数为0.7×200=140.故选D.
【答案】D
5.(2015年山东卷)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:
①甲地该月14时的平均气温低于乙地该月14时的平均气温;
②甲地该月14时的平均气温高于乙地该月14时的平均气温;
③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;
④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.
其中根据茎叶图能得到的统计结论的编号为( ).
A.①③ B.①④ C.②③ D.②④
【解析】甲地该月14时的气温数据分布在26和31之间,且数据波动较大,而乙地该月14时的气温数据分布在28和32之间,且数据波动较小,可以判断结论①④正确,故选B.
【答案】B
考点二
统计案例
6.(2017年全国Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
旧养殖法
新养殖法
(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
,
K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).
【解析】(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.
由题意知P(A)=P(BC)=P(B)P(C).
旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62,
故P(B)的估计值为0.62.
新养殖法的箱产量不低于50 kg的频率为
(0.068+0.046+0.010+0.008)×5=0.66,
故P(C)的估计值为0.66.
因此,事件A的概率估计值为0.62×0.66=0.4092.
(2)根据箱产量的频率分布直方图得列联表
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2的观测值k=200×(62×66-34×38)2100×100×96×104≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg的直方图面积为
(0.004+0.020+0.044)×5=0.34<0.5,
箱产量低于55 kg的直方图面积为
(0.004+0.020+0.044+0.068)×5=0.68>0.5,
所以新养殖法箱产量的中位数的估计值为
50+0.5-0.340.068≈52.35(kg).
7.(2016年全国Ⅲ卷)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2008-2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
参考数据:∑i=17yi=9.32,∑i=17tiyi=40.17,∑i=17(yi-y-)2=0.55,7≈2.646.
参考公式:相关系数r=∑i=1n(ti-t-)(yi-y-)∑i=1n(ti-t-)2∑i=1n(yi-y-)2,回归方程y^=a^+b^t中斜率和截距的最小二乘估计公式分别为b^=∑i=1n(ti-t-)(yi-y-)∑i=1n(ti-t-)2,a^=y--b^t-.
【解析】(1)由折线图中的数据和附注中的参考数据得
t-=4,∑i=17(ti-t-)2=28,∑i=17(yi-y-)2=0.55,
∑i=17(ti-t-)(yi-y-)=∑i=17tiyi-t-∑i=17yi=40.17-4×9.32=2.89,
故r≈2.890.55×2×2.646≈0.99.
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当大,从而可以用线性回归模型拟合y与t的关系.
(2)由y-=9.327≈1.331及(1)得
b^=∑i=17(ti-t-)(yi-y-)∑i=17(ti-t-)2=2.8928≈0.103.
a^=y--b^t-≈1.331-0.103×4≈0.92.
所以y关于t的回归方程为y^=0.92+0.10t.
将2016年对应的t=9代入回归方程得y^=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
高频考点:抽样方法的应用、频率分布直方图的认识、茎叶图、频率分布折线图、样本的数字特征、回归方程的求解及应用、独立性检验的应用与判断.
命题特点:1.主要考查分层抽样的定义,频率分布直方图,平均数、方差的计算,识图能力及借助概率知识分析问题、解决问题的能力;
2.在频率分布直方图中,注意小矩形的高=频率组距,小矩形的面积=组距×频率组距=频率,所有小矩形的面积之和为1;
3.分析两个变量间的相关关系,通过独立性检验判断两个变量是否相关.本节内容在高考中的分值约为17分,难度中等.
§18.1 随机抽样与样本分布
一
随机抽样
1.简单随机抽样
(1)定义:设一个总体含有N个个体,从中 地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都 ,就把这种抽样方法叫作简单随机抽样.
(2)最常用的简单随机抽样方法: 和 .
2.系统抽样
在抽样时,将总体分成 的若干部分,然后按照 的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫作系统抽样(也称为机械抽样或等距抽样).
3.分层抽样
在抽样时,将总体分成 的层,然后按照 ,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫作分层抽样.
☞ 左学右考
1 高三(一)班有学生52人,现将所有学生随机编号为1~52,用系统抽样的方法从中抽取一个容量为4的样本,已知5号、31号、44号学生在该样本中,则样本中还有一个学生的编号是( ).
A.8 B.13 C.15 D.18
2 (2014年天津卷)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查,已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取 名学生.
3 (2015年湖北卷)某电子商务公司对10000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.
(1)直方图中的a= ;
(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为 .
二
样本分布
1.作频率分布直方图的步骤
①求 (即一组数据中最大值与最小值的差);②决定 与 ;③将数据分组;④列频率分布表;⑤画频率分布直方图.
2.频率分布折线图和总体密度曲线
(1)频率分布折线图:连接频率分布直方图中各小长方形上端的 ,就得到频率分布折线图.
(2)总体密度曲线:随着样本容量的增加,作图时 增加, 减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.
3.茎叶图的优点
茎叶图的优点是不仅可以 原始数据,而且可以 记录,这对数据的记录和表示都能带来方便.
4 (2017郑州模拟)已知甲、乙两组数据的茎叶图如图所示,若它们的中位数相同,平均数也相同,则图中的m,n的比值mn=( ).
A.1 B.13 C.18 D.38
知识清单
一、 1.(1)逐个不放回 相等
(2)抽签法 随机数法
2.均衡 预先制定
3.互不交叉 一定的比例
二、1.①极差 ②组距 组数
2.(1)中点 (2)所分的组数 组距
3.保留 随时
基础训练
1.【解析】分段间隔为524=13,故样本中还有一个学生的编号为5+13=18.
【答案】D
2.【解析】44+5+5+6×300=60.
【答案】60
3.【解析】(1)由0.1×(1.5+2.5+a+2.0+0.8+0.2)=1,解得a=3.
(2)区间[0.3,0.5)内的频率为0.1×1.5+0.1×2.5=0.4,故区间[0.5,0.9]内的频率为1-0.4=0.6.
因此,消费金额在区间[0.5,0.9]内的购物者的人数为0.6×10000=6000.
【答案】(1)3 (2)6000
4.【解析】由茎叶图得乙组的中位数是33,则甲组的中位数也是33,即m=3.又x-甲=13×(27+39+33)=33,所以x-乙=14×(20+n+32+34+38)=33,解得n=8,所以mn=38.
【答案】D
题型一
抽样方法
【例1】(2017豫南九校模拟)淘宝网站对购物情况做了一项调查,收回的有效问卷共500000份,其中购买“服饰鞋帽”的人数为198000;购买“家居用品”的人数为94000;购买“化妆品”的人数为116000;购买“家用电器”的人数为92000.为了解消费者对商品的满意度,淘宝网站用分层抽样的方法从中选出部分问卷进行调查,已知在购买“化妆品”这一类中抽取了116份,则在购买“家居用品”这一类中应抽取的问卷份数为( ).
A.92 B.94 C.116 D.198
【解析】设在购买“家居用品”这一类中应抽取的问卷份数为x,则116116000=x94000,解得x=94,故选B.
【答案】B
1.为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体的个体数之比,即ni∶Ni=n∶N.分层抽样的有关计算,可转化为按比例列方程或算式求解.
2.系统抽样的步骤:(1)先将总体的N个个体编号;(2)确定分段间隔k(k∈N*),对编号进行分段,当Nn(n是样本容量)是整数时,取k=Nn;(3)在第1段用简单随机抽样确定第1个个体编号l(l≤k);(4)按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.
【变式训练1】在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.
若将运动员按成绩由高到低编号为1~35,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是 .
【解析】分段间隔为35÷7=5,因此可将编号为1~35的35个数据分成7组,每组有5个数据.在区间[139,151]上的数据共有20个,分在4个小组中,所以每组取1人,共取4人.
【答案】4
题型二
统计图表
【例2】(2014年全国Ⅱ卷)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:
甲部门
乙部门
3
59
4
4
0448
97
5
122456677789
97665332110
6
011234688
98877766555554443332100
7
00113449
6655200
8
123345
632220
9
011456
10
000
(1)分别估计该市的市民对甲、乙两部门评分的中位数;
(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;
(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.
【解析】(1)由所给的茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,第26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值为75.
50位市民对乙部门的评分由小到大排序,排在第25,第26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值为67.
(2)由所给的茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.
(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.
1.绘制频率分布直方图时需注意的两点
(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确;
(2)频率分布直方图的纵坐标是频率组距,而不是频率.
2.茎叶图通常被用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个“茎”,数据是否关于该“茎”对称,数据分布是否均匀等.
【变式训练2】在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩(单位:分)进行整理后分为五组,绘制出如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在[80,100]内的学生人数是( ).
A.15 B.18 C.20 D. 25
【解析】第二组的频率是0.04×10=0.4,故所有参赛的学生人数为400.4=100.因为[80,100]的频率是(0.01+0.005)×10=0.15,所以成绩在[80,100]内的学生人数为0.15×100=15,故选A.
【答案】A
题型三
样本的数字特征
【例3】(2017西安模拟)已知样本数据x1,x2,…,x10的平均数和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,…,10),则y1,y2,…,y10的平均数和方差分别为( ).
A.1+a和4 B.1+a和4+a
C.1和4 D.1和4+a
【解析】∵x1,x2,…,x10的平均数x-=1,方差s12=4,且yi=xi+a(i=1,2,…,10),
∴y1,y2,…,y10的平均数为y-=110×(y1+y2+…+y10)=110×(x1+x2+…+x10+10a)=110×(x1+x2+…+x10)+a=x-+a=1+a,
方差为s22=110×[(y1-y-)2+(y2-y-)2+…+(y10-y-)2]=110×[(x1-1)2+(x2-1)2+…+(x10-1)2]=s12=4.
故选A.
【答案】A
(1)若数据x1,x2,…,xn的平均数为x-,方差为s2,则数据mx1+a,mx2+a,…,mxn+a的平均数为mx-+a,方差为m2s2.
(2)s2=1n?i=1n(xi-x-)2=1n?i=1nxi2-x-2.
【变式训练3】甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):
甲
10
8
9
9
9
乙
10
10
7
9
9
如果甲、乙两人中只有一人入选,那么入选的最佳人选应是 .
【解析】x-甲=x-乙=9,s甲2=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25,
s乙2=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=65>s甲2,故甲更稳定.
【答案】甲
方法一
用比例法求解分层抽样中各层抽取的个体数
进行分层抽样的相关计算时,常利用以下关系式巧解:
(1)样本容量n总体的个数N=该层抽取的个体数该层的个体数;
(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.
【突破训练1】(2017唐山调研)甲、乙两套设备生产的同类型产品共4800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总件数为 .
【解析】由题意知,抽样比为804800=160.
设甲设备生产的产品有x件,则x60=50,∴x=3000.
故乙设备生产的产品总件数为4800-3000=1800.
【答案】1800
方法二
用等距法抽取系统抽样中的样本
系统抽样中依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.
【突破训练2】采用系统抽样的方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]内的人做问卷A,编号落入区间[451,750]内的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数有( ).
A.7 B.9 C.10 D.15
【解析】由系统抽样的特点,知抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]内的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n项,显然有729=459+(n-1)×30,解得n=10.所以做问卷B的有10人.
【答案】C
方法三
用估值法提取频率分布直方图中的数据
频率分布直方图与众数、中位数、平均数的关系:
(1)频率组距×组距=频率;
(2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数;
(3)最高的小矩形底边中点的横坐标为众数的估计值;
(4)中位数左边和右边的小矩形的面积和是相等的;
(5)平均数是频率分布直方图的“重心”,其估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
【突破训练3】(2017南宁模拟)某校为指导学生合理选择文理科的学习,根据数理综合测评成绩,按6分为满分进行折算后,若学生成绩小于m分,则建议选择文科,若不低于m分,则建议选择理科(这部分学生称为候选理科生).现从该校高一年级随机抽取500名学生的数理综合测评成绩作为样本,整理得到分数的频率分布直方图如图所示.
(1)求频率分布直方图中的t值.
(2)根据此次测评,为使80%以上的学生选择理科,整数m至多应定为多少?
(3)若m=4,试估计该校高一年级的学生中候选理科生的平均成绩.(精确到0.01)
【解析】(1)根据频率分布直方图中的频率之和为1,得0.15×1+t×1+0.30×1+t×1+0.15×1=1,解得t=0.2.
(2)要使80%以上的学生选择理科,又0.15+0.2+0.3<0.8<0.15+0.2+0.3+0.2,则整数m至多应定为2.
(3)当m=4时,
抽取的500名学生中候选理科生的平均成绩为4.5×0.2×1×500+5.5×0.15×1×5000.2×1×500+0.15×1×500≈4.93分,
因此,估计该校高一年级的学生中候选理科生的平均成绩为4.93分.
方法四
用定量分析法识别图表的变化
(1)重视表头、表尾,有助于明确图表的时间和范围;(2)“数据变化看数字,变化原因找时间”,即根据数字看如何变化,根据时间去分析变化的原因.注意将图表中的有效信息与所学知识联系起来.
【突破训练4】(2015年全国Ⅱ卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( ).
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
【解析】由柱形图得,2006年以来我国二氧化硫年排放量呈下降趋势(除2011年稍有上升外),故年排放量与年份负相关,故选D.
【答案】D
1.(2017大同期末)在一个容量为N的总体中抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同的方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2和p3,则( ).
A.p1=p2
【答案】D
2.(2017锦州期末)某工厂生产甲、乙、丙三种型号的产品,产品的数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种型号的产品有18件,则样本容量n=( ).
A.54 B.90 C.45 D.126
【解析】依题意得33+5+7×n=18,解得n=90,即样本容量为90.
【答案】B
3.(2017山东省肥城模拟)如图所示的是某居民小区年龄在20岁到45岁的居民上网情况的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45]内的上网人数呈现递减的等差数列,则年龄在[35,40)内的频率是( ).
A.0.04 B.0.06 C.0.2 D.0.3
【解析】年龄在[30,35),[35,40),[40,45]内的频率之和为1-(0.01+0.07)×5=0.6.由题意知,年龄在[30,35),[35,40),[40,45]内的频率依次成等差数列,所以[35,40)内的频率为0.63=0.2,故选C.
【答案】C
4.(2017东北四校模拟)某仪器厂从新生产的一批零件中随机抽取40个检测,如图所示的是根据抽样检测后零件的质量(单位:克)绘制的频率分布直方图,样本数据分8组,分别为[80,82),[82,84),[84,86),[86,88),[88,90),[90,92),[92,94),[94,96],则样本的中位数在( ).
A.第3组 B.第4组
C.第5组 D.第6组
【解析】由频率分布直方图可知,前四组的频率为(0.0375+0.0625+0.075+0.1)×2=0.55,则其频数为40×0.55=22.又第四组的频数为40×0.1×2=8,故样本的中位数落在第4组,故选B.
【答案】B
5.(2017百校联考)如图所示的是某校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为( ).
A.84和4.84 B.84和1.6
C.85和1.6 D.85和4
【解析】由题意知,所剩数据的平均数为80+15×(4×3+6+7)=85,所剩数据的方差为15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6.
【答案】C
6.(2017邢台模拟)样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均数为1,则其方差为( ).
A.105 B.305 C.2 D.2
【解析】由题意得m=5×1-(0+1+2+3)=-1,样本方差s2=15×(12+02+12+22+22)=2,故选D.
【答案】D
7.(2017忻州模拟)某班学生一次数学考试成绩的频率分布直方图如图所示,数据分组依次为[70,90),[90,110),[110,130),[130,150].若成绩大于等于90分的学生人数为36,则成绩在[110,130)内的学生人数为( ).
A.12 B.9 C.15 D.18
【解析】由频率分布直方图可知,数学成绩在[70,90),[90,110),[110,130),[130,150]内的频率分别为0.1,0.4,0.3,0.2.∴成绩在[70,90),[90,110),[110,130),[130,150]内的学生人数之比为1∶4∶3∶2,而成绩大于等于90分的学生人数为36,∴成绩在[110,130)的学生人数为34+3+2×36=12,故选A.
【答案】A
8.(2017合肥模拟)为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号,分别为01,02,03,…,60.已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为 .
【解析】由最小的两个编号为03,09可知,抽取的分段间隔为6,故抽取了10名学生,其编号构成首项为3,公差为6的等差数列,故最大的编号为3+9×6=57.
【答案】57
9.(2017聊城模拟)将参加英语口语测试的1000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,若第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,则抽取的第35个样本的编号为( ).
A.700 B.669 C.695 D.676
【解析】由题意可知,第一组随机抽取的编号l=15,分段间隔数k=Nn=100050=20,所以抽取的这些编号是以15为首项,20为公差的等差数列,故抽取的第35个样本的编号为15+(35-1)×20=695.
【答案】C
10.(2017马鞍山一模)我国古代数学名著《数书九章》有“米谷粒分”题:粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( ).
A.134石 B.169石
C.338石 D.1365石
【解析】设1534石米内夹谷x石,则由题意知x1534=28254,解得x≈169.故这批米内夹谷约为169石.
【答案】B
11.(2016绵阳模拟)某校高三(1)班在某次单元测试中,每位同学的考试分数都在区间[100,128]内,将该班所有同学的考试分数分为七个组:[100,104),[104,108),[108,112),[112,116),[116,120),[120,124),[124,128].绘制出频率分布直方图如图所示,已知分数低于112分的同学有18人,则分数不低于120分的人数为( ).
A.10 B.12 C.20 D.40
【解析】分数低于112分的同学对应的频率组距为0.09,分数不低于120分的同学对应的频率组距为0.05,故其人数为180.09×0.05=10.
【答案】A
12.(2017商丘模拟)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).
已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x+y的值为 .
【解析】由茎叶图及已知得x=5.又乙组数据的平均数为16.8,即9+15+10+y+18+245=16.8,解得y=8,因此x+y=13.
【答案】13
13.(2017唐山模拟)某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如表所示:
1号
2号
3号
4号
5号
甲班
6
7
7
8
7
乙班
6
7
6
7
9
若以上两组数据的方差中较小的一个为s2,则s2= .
【解析】由表可得出乙班的数据波动性较大,则其方差较大,甲班的数据波动性较小,则其方差较小.又甲班数据的平均数为7,所以其方差s2=15×(1+0+0+1+0)=25.
【答案】25
14.(2017海淀区期末)为了研究某种农作物在特定温度下(要求最高温度t满足:27 ℃≤t≤30 ℃)的生长状况,某农学家计划在10月份去某地进行为期10天的连续观察试验.现有关于该地区历年10月份日平均最高温度和日平均最低温度(单位:℃)的记录如下:
(1)根据本次试验目的和试验周期,写出农学家观察试验的起始日期.
(2)设该地区今年10月上旬(10月1日至10月10日)的日平均最高温度的方差和日平均最低温度的方差分别为D1和D2,估计D1,D2的大小关系.(直接写出结论即可)
(3)从10月份31天中随机选择连续3天,求所选3天每天日平均最高温度值都在[27,30]之间的概率.
【解析】(1)农学家观察试验的起始日期为7日或8日.
(2)日平均最高温度的方差大,即D1>D2.
(3)设“连续3天日平均最高温度值都在[27,30]之间”为事件A,
基本事件空间可以设为Ω,则Ω={(1,2,3),(2,3,4),(3,4,5),…,(29,30,31)},共29个基本事件.
由图表可以看出,事件A中包含10个基本事件,
所以P(A)=1029,
故所选3天每天日平均最高温度值都在[27,30]之间的概率为1029.
15.(2017长沙检测)某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:(a,b),(a,b-),(a,b),(a-,b),(a-,b-),(a,b),(a,b),(a,b-),(a-,b),(a-,b-),(a,b-),(a,b),(a,b-),(a-,b),(a,b).其中a和a-分别表示甲组研发成功和失败;b和b-分别表示乙组研发成功和失败.
(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试分别计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平.
(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.
【解析】(1)甲组研发新产品的成绩为
1,1,1,0,0,1,1,1,0,0,1,1,1,0,1,
其平均数为x-甲=1015=23,
方差为s甲2=115×1-232×10+0-232×5=29.
乙组研发新产品的成绩为
1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,
其平均数为x-乙=915=35,
方差为s乙2=115×1-352×9+0-352×6=625.
因为x-甲>x-乙,s甲2
(2)记E={恰有一组研发成功}.
在所抽得的15个结果中,恰有一组研发成功的结果是(a,b-),(a-,b),(a,b-),(a-,b),(a,b-),(a,b-),(a-,b),共7个.
因此事件E发生的频率为715.
用频率估计概率,即得所求概率为P(E)=715.
§18.2 相关关系与统计案例
一
相关关系与回归分析
1.利用散点图判断相关性
(1)在散点图中,点散布在从 到 的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从 到 的区域,对于两个变量的这种相关关系,我们将它称为负相关.
(3)如果散点图中点的分布从整体上看大致在 附近,就称这两个变量之间具有线性相关关系.
2.利用相关系数判断相关性
当r>0时,表明两个变量 ;当r<0时,表明两个变量 .r的绝对值越接近于1,表明两个变量的线性相关性 ;r的绝对值越接近于0,表明两个变量之间 .通常|r|大于 时,认为两个变量有很强的线性相关关系.
3.线性回归方程(回归直线方程)
(1)最小二乘法:使得样本数据的点到回归直线的 最小的方法叫作最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程为y^=b^x+a^,
则b^=∑i=1n(xi-x-)(yi-y-)∑i=1n(xi-x-)2=∑i=1nxiyi-nx-y-∑i=1nxi2-nx-2,a^=y--b^x-.其中,b^是回归方程的 ,a^是在y轴上的截距.
回归直线一定过样本点的中心 .
4.残差分析
相关指数:R2= .其中∑i=1n(yi-y^i)2是残差平方和,其值越小,则R2 ,模型的拟合效果越好.
二
独立性检验
1.利用随机变量K2来判断“两个分类变量 ”的方法称为独立性检验.
2.列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为
y1
y2
总计
x1
a
b
x2
c
d
c+d
总计
a+c
a+b+c+d
则随机变量K2= ,其中n= 为样本容量.
可利用独立性检验的临界值表来判断“X与Y有关系”的可信度.
☞ 左学右考
1 (2015年湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( ).
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
2 某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表:
广告费用x(万元)
4
2
3
5
销售额y(万元)
49
26
39
58
根据上表可得回归直线方程y^=b^x+a^中的b^=10.6,据此模型预测该产品的广告费用为10万元时销售额为( ).
A.112.1万元 B.113.1万元
C.111.9万元 D.113.9万元
3 通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下所示的2×2列联表:
男
女
总计
走人行天桥
40
20
60
走斑马线
20
30
50
总计
60
50
110
计算得K2=110×(40×30-20×20)260×50×60×50≈7.822.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( ).
A.有99%以上的把握认为“选择过马路的方式与性别有关”
B.有99%以上的把握认为“选择过马路的方式与性别无关”
C.在犯错误的概率不超过0.1%的前提下认为“选择过马路的方式与性别有关”
D.在犯错误的概率不超过0.1%的前提下认为“选择过马路的方式与性别无关”
知识清单
一、1.(1)左下角 右上角
(2)左上角 右下角
(3)一条直线
2.正相关 负相关 越强 几乎不存在线性相关关系 0.75
3.(1)距离的平方和
(2)斜率 (x-,y-)
4.1-∑i=1n(yi-y^i)2∑i=1n(yi-y-)2 越大(接近1)
二、1.有关系
2.a+b b+d n(ad-bc)2(a+b)(a+c)(b+d)(c+d) a+b+c+d
基础训练
1.【解析】因为y=-0.1x+1的斜率小于0,所以x与y负相关.因为y与z正相关,可设z=b^y+a^,b^>0,所以z=b^y+a^=-0.1b^x+b^+a^,故x与z负相关.
【答案】C
2.【解析】由题意知x-=4+2+3+54=3.5,y-=49+26+39+584=43.将(x-,y-)代入y^=10.6x+a^中,得43=10.6×3.5+a^,解得a^=5.9,所以y^=10.6x+5.9,当x=10时,y^=111.9.
【答案】C
3.【解析】由K2≈7.822,得P(K2≥6.635)=0.01=1-99%,所以有99%以上的把握认为“选择过马路的方式与性别有关”.
【答案】A
题型一
相关关系的判断
【例1】两个变量x和y的散点图如图所示,则下列说法中所有正确命题的序号为 .
①x,y是负相关关系;
②在该相关关系中,若用y=c1ec2x拟合时的相关指数为R12,用y^=b^x+a^拟合时的相关指数为R22,则R12>R22;
③x,y之间不能建立线性回归方程.
【解析】在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;由散点图知,用y=c1ec2x拟合比用y^=b^x+a^拟合效果要好,所以R12>R22,故②正确;x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.
【答案】①②
(1)利用散点图判断两个变量是否有相关关系是比较直观简便的方法.
(2)利用相关系数判定,当|r|越趋近于1时,相关性越强.当残差平方和越小,相关指数R2越大,模型拟合效果越好.
【变式训练1】观察下列散点图,其中两个变量的相关关系判断正确的是( ).
A.a为正相关,b为负相关,c为不相关
B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关
D.a为正相关,b为不相关,c为负相关
【解析】根据散点图,由相关性可知,图a中各点散布在从左下角到右上角的区域内,是正相关;图b中各点散布不成带状,相关性不明确,是不相关;图c中各点散布在从左上角到右下角的区域内,是负相关.故选D.
【答案】D
题型二
线性回归方程及其应用
【例2】(2014年全国Ⅱ卷)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份
2007
2008
2009
2010
2011
2012
2013
年份代号t
1
2
3
4
5
6
7
人均纯收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘法估计公式分别为
b^=∑i=1n(ti-t-)(yi-y-)∑i=1n(ti-t-)2,a^=y--b^t-.
【解析】(1)由所给数据计算得t-=17×(1+2+3+4+5+6+7)=4,
y-=17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
∑i=17(ti-t-)2=9+4+1+0+1+4+9=28,
∑i=17(ti-t-)(yi-y-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
b^=∑i=17(ti-t-)(yi-y-)∑i=17(ti-t-)2=1428=0.5,
a^=y--b^t-=4.3-0.5×4=2.3,
故所求回归方程为y^=0.5t+2.3.
(2)由(1)知b^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2015年的年份代号t=9代入(1)中的回归方程,得y^=0.5×9+2.3=6.8,
故预测该地区2015年农村居民家庭人均纯收入为6.8千元.
(1)根据样本数据作出散点图或计算相关系数r来判断两个变量之间是否具有相关关系.
(2)正确运用计算b^,a^的公式并准确的计算,是求线性回归方程的关键.充分利用回归直线y^=b^x+a^必过样本点的中心(x-,y-)进行求值.
【变式训练2】(2017福州模拟)下表数据为某地区某种农产品的年产量x(单位:吨)及对应销售价格y(单位:千元/吨).
x
1
2
3
4
5
y
70
65
55
38
22
(1)若y与x有较强的线性相关关系,根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^.
(2)若该农产品每吨的成本为13.1千元,假设该农产品可全部卖出,预测当年产量为多少吨时,年利润Z最大?
参考公式:b^=∑i=1nxiyi-nx-y-∑i=1nxi2-nx-2=∑i=1n(xi-x-)(yi-y-)∑i=1n(xi-x-)2,a^=y--b^x-.
【解析】(1)由所给数据计算得x-=3,y-=50,∑i=15xiyi =627,∑i=15xi2=55,代入公式,解得b^=-12.3,a^=86.9,
所以y^=-12.3x+86.9.
(2)因为年利润Z=x(86.9-12.3x)-13.1x=-12.3x2+73.8x=-12.3×(x-3)2+110.7,所以当x=3时,年利润Z取得最大值.
故预测当年产量为3吨时,年利润Z最大.
题型三
非线性回归方程及其应用
【例3】(2015年全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
x-
y-
w-
∑i=18(xi-x-)2
∑i=18(wi-w-)2
∑i=18(xi-x-)(yi-y-)
∑i=18(wi-w-)(yi-y-)
46.6
563
6.8
289.8
1.6
1469
108.8
表中wi=xi,w-=18∑i=18wi.
(1)根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v^=α^+β^u的斜率和截距的最小二乘估计分别为
β^=∑i=1n(ui-u-)(vi-v-)∑i=1n(ui-u-)2,α^=v--β^u-.
【解析】(1)由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=x,先建立y关于w的线性回归方程.
由于d^=∑i=18(wi-w-)(yi-y-)∑i=18(wi-w-)2=108.81.6=68,
c^=y--d^w-=563-68×6.8=100.6,
所以y关于w的线性回归方程为y^=100.6+68w,
因此y关于x的回归方程为y^=100.6+68x.
(3)①由(2)知,当x=49时,
年销售量y的预报值y^=100.6+6849=576.6,
年利润z的预报值z^=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
z^=0.2×(100.6+68x)-x=-x+13.6x+20.12.
所以当x=13.62=6.8,即x=46.24时,z^取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
1.若问题中已经给出经验公式,则可将解释变量进行换元,将变量的非线性关系转化为线性关系,将问题转化为线性回归问题来解决.
2.若问题中没有给出经验公式,则需要画出已知数据的散点图,通过与各种函数的图象比较,选择与这些散点拟合最好的函数,然后采用适当的变量变换,将问题转化为线性回归问题来解决.
【变式训练3】(2017黄冈市检测)噪声污染已经成为影响人们身体健康和生活质量的严重问题,为了了解声音强度D(单位:dB)与声音能量I(单位:W/cm2)之间的关系,将测量得到的声音强度Di和声音能量Ii(i=1,2,…,10)数据作了初步处理,得到下面的散点图及一些统计量的值.
I
D
W
∑i=110(Ii
-I)2
∑i=110(Wi
-W)2
∑i=110(Ii
-I)(Di
-D)
∑i=110(Wi
-W)(Di
-D)
1.04×
10-11
45.7
-11.5
1.56×
10-21
0.51
6.88×
10-11
5.1
其中Wi=lg Ii,W-=110∑i=110Wi.
(1)根据表中数据,求声音强度D关于声音能量I的回归方程D^=a^+b^lg I.
(2)当声音强度大于60 dB时属于噪音,会产生噪声污染.城市中某点P共受到两个声源的影响,这两个声源的声音能量分别是I1和I2,且1I1+4I2=1010.已知点P的声音能量等于声音能量I1与I2之和.请根据(1)中的回归方程,判断点P是否受到噪声污染的干扰,并说明理由.
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v^=α^+β^u的斜率和截距的最小二乘估计分别为
β^=∑i=1n(ui-u-)(vi-v-)∑i=1n(ui-u-)2,a^=v--βu-.
【解析】(1)先建立D关于W的线性回归方程,
∵b^=∑i=110(Wi-W)(Di-D-)∑i=110(Wi-W)2=5.10.51=10,
∴a^=D--b^W=160.7.
∴D关于W的线性回归方程是D^=10W+160.7.
∴D关于I的回归方程是D^=10lg I+160.7.
(2)点P的声音能量I=I1+I2,∵1I1+4I2=1010 ,
∴I=I1+I2=10-101I1+4I2(I1+I2)=10-105+I2I1+4I1I2≥9×10-10.
根据(1)中的回归方程,点P的声音强度D的预报值为
D^=10lg I+160.7≥10×lg(9×10-10)+160.7=10lg 9+60.7>60,
∴点P会受到噪声污染的干扰.
题型四
独立性检验的应用
【例4】某校研究性学习小组对本校高三年级的学生的视力情况进行调查,在高三年级的全体1000名学生中随机抽取了100名学生的体检表,并得到如图所示的频率分布直方图.
(1)若频率分布直方图中后四组的频数成等差数列,估计高三年级的全体学生视力在5.0以下的人数,并求抽出的这100名学生视力的中位数的估计值.(精确到0.1)
(2)学习小组成员发现,学习成绩突出的学生,近视的比较多,为了研究学生的视力与学习成绩是否有关系,研究性学习小组对高三年级全体学生成绩名次在前50名和后50名的学生进行了调查,得到如下表中的数据,问能否在犯错误的概率不超过0.05的前提下认为视力与学习成绩有关系?
前50名
后50名
近视
42
34
不近视
8
16
附:
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
【解析】(1)由频率分布直方图可知,第一组有3人,第二组有7人,第三组有27人.因为后四组的频数成等差数列,所以后四组的频数依次为27,24,21,18,故后四组的频率依次为0.27,0.24,0.21,0.18.
则视力在5.0以下的频数为3+7+27+24+21=82,进而高三年级的全体学生视力在5.0以下的人数约为1000×82100=820.
设抽出的100名学生视力的中位数的估计值为x,
则有(0.15+0.35+1.35)×0.2+(x-4.6)×(0.24÷0.2)=0.5,解得x≈4.7.
(2)根据表格中的数据,得到K2的观测值k=100×(42×16-34×8)250×50×76×24=20057≈3.509<3.841.
因此不能在犯错误的概率不超过0.05的前提下认为视力与学习成绩有关系.
解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.
独立性检验的一般步骤:
①根据样本数据制成2×2列联表;
②根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算K2的观测值k0;
③比较k0与临界值的大小关系,作统计推断.
【变式训练4】(2017 永州模拟)为了了解某校学生喜欢吃辣是否与性别有关,随机对该校100名学生进行调查,得到如下列联表:
喜欢吃辣
不喜欢吃辣
总计
男生
10
女生
20
总计
100
已知在调查的100人中随机抽取1人,抽到喜欢吃辣的学生的概率为35.
(1)请将列联表补充完整.
(2)是否有99.9%以上的把握认为喜欢吃辣与性别有关?说明理由.
附:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
【解析】(1)因为在调查的100人中随机抽取1人,抽到喜欢吃辣的学生的概率为35,所以在这100人中,喜欢吃辣的有35×100=60人,所以男生中喜欢吃辣的有60-20=40人.
列联表补充如下:
喜欢吃辣
不喜欢吃辣
总计
男生
40
10
50
女生
20
30
50
总计
60
40
100
(2)∵K2的观测值k=100×(40×30-20×10)250×50×60×40=503≈16.667>10.828,
∴有99.9%以上的把握认为喜欢吃辣与性别有关.
方法一
用公式法求解回归直线方程问题
回归分析是处理变量相关关系的一种数学方法.求解回归直线方程问题的关键有两点:一是把相关数据代入公式准确计算,二是抓住样本点的中心(x-,y-)必在回归直线上的特性.
【突破训练1】(2017山东实验中学模拟)2016年高考体检,某中学随机抽取5名女学生的身高x(厘米)和体重y(公斤)的数据如下表:
x
165
160
175
155
170
y
58
52
62
43
60
根据上表可得回归直线方程为y^=0.92x+a^,则a^=( ).
A.-96.8 B.96.8
C.-104.4 D.104.4
【解析】由表中数据可得x-=165,y-=55.∵点(x-,y-)一定在回归直线方程y^=0.92x+a^上,∴55=0.92×165+a^,解得a^=-96.8.故选A.
【答案】A
方法二
利用等高条形图和独立性检验判断两个分类变量是否有关系
1.等高条形图:
在2×2列联表中,若两个分类变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个分类变量之间关系越弱;|ad-bc|越大,说明两个分类变量之间关系越强.
2.独立性检验是对两个分类变量有关系的可信程度的判断,而不是对它们是否有关系的判断.
【突破训练2】(2017沈阳模拟)为考察某种疫苗预防疾病的效果,科学家进行动物试验,得到统计数据如下:
未发病
发病
总计
未注射疫苗
20
x
A
注射疫苗
30
y
B
总计
50
50
100
现从所有试验的动物中任取一只,取到“注射疫苗”动物的概率为25.
(1)求2×2列联表中的数据x,y,A,B的值.
(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率.
(3)能够有多大把握认为疫苗有效?
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
P(K2≥k0)
0.05
0.01
0.005
0.001
k0
3.841
6.635
7.879
10.828
【解析】(1)设“从所有试验的动物中任取一只,取到‘注射疫苗’动物”为事件M,
由已知得P(M)=B100=25,所以B=40,则y=10,x=40,A=60.
(2)未注射疫苗的发病率为4060=23≈0.67,注射疫苗的发病率为1040=14=0.25.
发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.
(3)因为K2的观测值k=100×(20×10-40×30)260×40×50×50=503≈16.67>10.828,
所以至少有99.9%的把握认为疫苗有效.
1.(2017承德期末)某学生对其亲属30人的饮食习惯进行了一次调查,并用如图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数不低于70的人,饮食以肉类为主).
(1)根据以上数据完成下列2×2列联表.
主食蔬菜
主食肉类
总计
50岁以下
50岁以上
总计
(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.
【解析】(1)2×2列联表如下:
主食蔬菜
主食肉类
总计
50岁以下
4
8
12
50岁以上
16
2
18
总计
20
10
30
(2)因为K2的观测值k=30×(4×2-8×16)212×18×20×10=10>6.635,
所以有99%的把握认为其亲属的饮食习惯与年龄有关.
2.(2017岳阳模拟)下表是某地搜集到的新房屋的销售价格y(单位:万元)和房屋的面积x(单位:m2)的数据.
房屋面积x(m2)
115
110
80
135
105
销售价格y(万元)
24.8
21.6
18.4
29.2
22
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线.
参考公式:b^=∑i=1nxiyi-nx-y-∑i=1nxi2-nx-2,a^=y--b^x-,其中∑i=15xi2=60975,
∑i=15xiyi=12952.
【解析】(1)数据对应的散点图如图所示.
(2)根据题意,x-=109,y-=23.2,∑i=15xi2=60975,∑i=15xiyi=12952,
∴ b^=∑i=15xiyi-5x-y-∑i=15xi2-5x-2≈0.1962,a^=y--b^x-≈1.8142,
∴所求回归直线方程为y^=0.1962x+1.8142,其图象如上图所示.
3.(2017石家庄质检)微信是现代生活进行信息交流的重要工具,据统计,某公司200名员工中有90%的人使用微信,其中每天使用微信时间在一小时以内的有60人,其余的员工每天使用微信的时间在一小时以上.若将员工分成青年(年龄小于40岁)和中年(年龄不小于40岁)两个阶段,则使用微信的人中有75%是青年人.若规定每天使用微信时间在一小时以上为经常使用微信,则经常使用微信的员工中23是青年人.
(1)若要调查该公司使用微信的员工中经常使用微信与年龄的关系,请完成下列2×2列联表;
青年人
中年人
总计
经常使用微信
不经常使用微信
总计
(2)由列联表中的数据,判断是否有99.9%的把握认为“经常使用微信与年龄有关”.
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
P(K2≥k0)
0.010
0.001
k0
6.635
10.828
【解析】(1)由已知可得,该公司员工中使用微信的有200×90%=180(人).
经常使用微信的有180-60=120(人),
其中青年人有120×23=80(人),
使用微信的人中青年人有180×75%=135(人),
所以2×2列联表如下:
青年人
中年人
总计
经常使用微信
80
40
120
不经常使用微信
55
5
60
总计
135
45
180
(2)将列联表中数据代入公式可得,
K2的观测值k=180×(80×5-55×40)2120×60×135×45≈13.333,
因为13.333>10.828,所以有99.9%的把握认为“经常使用微信与年龄有关”.
4.(2017孝感七校模拟)为研究冬季昼夜温差大小对某反季节大豆新品种发芽率的影响,某农科所记录了5组昼夜温差与100颗种子的发芽数,得到如下资料:
组号
1
2
3
4
5
温差x(°C)
10
11
13
12
8
发芽数y(颗)
23
25
30
26
16
该农科所确定的研究方案是先从这5组数据中选取2组,用剩下的3组数据求出线性回归方程,再对被选取的2组数据进行检验.
(1)若选取的是第1组与第5组的2组数据,请根据第2组至第4组的数据,求出y关于x的线性回归方程y^=b^x+a^.
(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?
参考公式:b^=?i=1n(xi-x-)(yi-y-)?i=1n(xi-x-)2=?i=1nxiyi-nx-y-?i=1nxi2-nx-2,a^=y--b^x-.
【解析】(1)由题意知x-=11+13+123=12,
y-=25+30+263=27,
b^=?i=13(xi-x-)(yi-y-)?i=13(xi-x-)2=?i=13xiyi-3x-y-?i=13xi2-3x-2
=11×25+13×30+12×26-3×12×27112+132+122-3×122=52,
a^=y--b^x-=27-52×12=-3,
故线性回归方程为y^=52x-3.
(2)当x=10时,y^=52×10-3=22,|22-23|=1<2;
当x=8时,y^=52×8-3=17,|17-16|=1<2.
所以(1)中所得的线性回归方程可靠.
5.(2017莆田模拟)某企业有甲、乙两个分厂生产某种产品,按规定该产品的某项质量指标值落在[45,75)内的为优质品,从这两个分厂生产的产品中各随机抽取500件,测量这些产品的该项质量指标值,结果如表所示:
分组
[25,35)
[35,45)
[45,55)
[55,65)
[65,75)
[75,85)
[85,95)
甲厂
频数
10
40
115
165
120
45
5
乙厂
频数
5
60
110
160
90
70
5
(1)根据以上统计数据完成下面2×2列联表,并回答是否有99%的把握认为“两个分厂生产的产品的质量有差异”.
甲厂
乙厂
总计
优质品
非优质品
总计
(2)求优质品率较高的分厂的500件产品质量指标值的样本平均数x-.(同一组数据用该区间的中点值作代表)
(3)经计算,甲厂的500件产品质量指标值的样本方差s2=142,乙厂的500件产品质量指标值的样本方差s2=162.可认为优质品率较高的分厂的产品质量指标值X服从正态分布N(μ,σ2),其中μ近似为样本平均数x-,σ2近似为样本方差s2,由优质品率较高的分厂的抽样数据,能否认为该分厂生产的产品中,质量指标值不低于71.92的产品至少占全部产品的18%?
参考数据:142≈11.92,162≈12.73,P(μ-σ
P(K2≥k0)
0.05
0.01
0.001
k0
3.841
6.635
10.828
【解析】(1)2×2列联表如下:
甲厂
乙厂
总计
优质品
400
360
760
非优质品
100
140
240
总计
500
500
1000
因为K2的观测值k=1000×(400×140-360×100)2760×240×500×500≈8.772>6.635,
所以有99%的把握认为“两个分厂生产的产品的质量有差异”.
(2)甲厂的优质品率为400500=0.8,乙厂的优质品率为360500=0.72,所以甲厂的优质品率高.
计算甲厂数据的平均数为
x-=1500×(30×10+40×40+50×115+60×165+70×120+80×45+90×5)=60.
(3)由(2)知,μ=60,σ2=142,且甲厂产品的质量指标值X服从正态分布N(60,142).
又σ=142≈11.92,所以P(60-11.92
6.(2017山西四校联考)某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额):
年份x
2011
2012
2013
2014
2015
储蓄存款y(千亿元)
5
6
7
8
10
为了研究计算的方便,工作人员将上表的数据进行了处理,t=x-2010,z=y-5,得到如下表:
时间代号t
1
2
3
4
5
z
0
1
2
3
5
(1)求z关于t的线性回归方程;
(2)通过(1)中的方程,求出y关于x的线性回归方程.
(3)用所求线性回归方程预测到2020年年底,该地储蓄存款额可达多少?
附:线性回归方程y^=b^x+a^中斜率和截距的最小二乘估计公式分别为b^=∑i=1nxiyi-nx-y-∑i=1nxi2-nx-2,a^=y--b^x-.
【解析】(1)t-=3,z-=2.2,∑i=15tizi=45,∑i=15ti2=55,
b^=45-5×3×2.255-5×9=1.2,
a^=z--b^t-=2.2-1.2×3=-1.4,
∴z^=1.2t-1.4.
(2)将t=x-2010,z=y-5,代入z^=1.2t-1.4,
得y^-5=1.2×(x-2010)-1.4,即y^=1.2x-2408.4.
(3)∵y^=1.2×2020-2408.4=15.6,
∴预测到2020年年底,该地储蓄存款额可达15.6千亿元.
相关试卷
这是一份全国版高考数学必刷题:第十五单元 直线和圆的方程,共41页。试卷主要包含了已知平行直线l1,已知圆M,若圆C1等内容,欢迎下载使用。
这是一份全国版高考数学必刷题:第九单元 平面向量,共57页。
这是一份全国版高考数学必刷题:第十四单元 空间向量及其应用,共70页。