还剩18页未读,
继续阅读
所属成套资源:2021高考数学理科人教A版一轮复习学案作业
成套系列资料,整套一键下载
2021高考数学(理)人教A版一轮复习学案作业:第十一章11.3变量间的相关关系、统计案例
展开
§11.3 变量间的相关关系、统计案例
最新考纲
考情考向分析
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
3.了解独立性检验的基本思想、方法及其初步应用.
4.了解回归分析的基本思想、方法及其简单应用.
回归分析,独立性检验是高考考查的重点,以解答题为主,常与概率结合考查.难度中高档.
1.相关关系与回归方程
(1)相关关系的分类
①正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
②负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(2)线性相关关系
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(3)回归方程
①最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
②回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
(4)回归分析
①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
③相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
2.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
概念方法微思考
1.变量的相关关系与变量的函数关系有什么区别?
提示 相同点:两者均是指两个变量的关系.
不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?
提示 (1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.
(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
题组一 思考辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)散点图是判断两个变量是否相关的一种重要方法和手段.( √ )
(2)线性回归方程=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( × )
(3)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( × )
(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( √ )
题组二 教材改编
2.为调查中学生近视情况,测得某校150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
答案 C
解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
3.下面是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
答案 C
解析 ∵a+21=73,∴a=52.又a+22=b,∴b=74.
4.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x
(个)
10
20
30
40
50
加工时间y
(min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
答案 68
解析 由=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a,
则62+a+75+81+89=75×5,∴a=68.
题组三 易错自纠
5.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和K2统计量研究患肺病是否与吸烟有关.计算得K2=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
答案 C
解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.
6.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是________.(填序号).
①y与x具有正的线性相关关系;
②回归直线过样本点的中心(,);
③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;
④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.
答案 ④
解析 ①正确;②正确;③正确.对于④,当x=170 cm时,=0.85×170-85.71=58.79,但这是预测值,不可断定其体重为58.79 kg.故不正确.
相关关系的判断
1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
答案 B
解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.
2.(2020·云南昆明诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
答案 A
解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.
思维升华 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:当r>0时,两个变量正相关;当r<0时,两个变量负相关.
(3)线性回归方程:当 >0时,两个变量正相关;当 <0时,两个变量负相关.
回归分析
命题点1 线性回归分析
例1 (2020·湖北部分重点中学联考)“精准扶贫”的重要思想最早在2013年11月提出,习近平到湘西考察时首次作出“实事求是,因地制宜,分类指导,精准扶贫”的重要指导.2015年习总书记在贵州调研时强调要科学谋划好“十三五”时期精准扶贫开发工作,确保贫困人口到2020年如期脱贫.某农科所实地考察,研究发现某贫困村适合种值A、B两种药材,可以通过种植这两种药材脱贫,通过大量考察研究得到如下统计数据:药材A的亩产量约为300公斤,其收购价格处于上涨趋势,最近五年的价格如下表:
编号
1
2
3
4
5
年份
2015
2016
2017
2018
2019
单价(元/公斤)
18
20
23
25
29
药材B的收购价格始终为20元/公斤,其亩产量的频率分布直方图如下:
(1)若药材A的单价y(单位:元/公斤)与年份编号x具有线性相关关系,请求出y关于x的线性回归方程,并估计2020年药材A的单价;
(2)用上述频率分布直方图估计药材B的平均亩产量,若不考虑其他因素,试判断2020年该村应种植药材A还是药材B?并说明理由.
附:==,=-.
解 (1)==3,==23,
所以=
=2.7,
又因为=+,即23=2.7×3+,解得=14.9,
所以=2.7x+14.9;
当x=6时,=31.1.
(2)360×0.1+380×0.2+400×0.35+420×0.25+440×0.1=401,
若种植A种药材每亩地的收入约为31.1×300=9 330,
若种植B种药材每亩地的收入约为401×20=8 020<9 330,
所以应该种植A种药材.
命题点2 非线性回归
例2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)·
(yi-)
(wi-)·
(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=i.
(1)根据散点图判断y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为
=,=-.
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于
===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为 =100.6+68w,
因此y关于x的回归方程为 =100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值 =100.6+68=576.6,
年利润z的预报值 =576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时, 取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
思维升华 回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数.
③待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
跟踪训练1 (2018·全国Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①: = -30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②: =99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为 =-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为 =99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型 =99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
独立性检验
例3 (2020·湖北荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
基础年级
高三
总计
优秀
非优秀
总计
300
附:K2=.
参考数据:
P(K2≥k0)
0.100
0.050
0.010
0.005
k0
2.706
3.841
6.635
7.879
解 (1)该校学生每周平均体育运动时间为=1×0.05+3×0.2+5×0.3+7×0.25+9×0.15+11×0.05=5.8.
样本中高一年级每周平均体育运动时间不足4小时的人数为300××(0.025×2+0.100×2)=30(人).
又样本中高一的人数有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数约为1 200×=300(人).
(2)列联表如下:
基础年级
高三
总计
优秀
105
30
135
非优秀
105
60
165
总计
210
90
300
假设该校学生的每周平均体育运动时间是否优秀与年级无关,
则K2的观测值k=
=≈7.071>6.635.
又P(K2≥6.635)=0.01.
所以有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
思维升华 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值k.
(3)比较k与临界值的大小关系,作统计推断.
跟踪训练2 (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
解 (1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表如下:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2的观测值k=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
数据分析是指针对研究对象获得相关数据,运用统计方法对数据中的有用信息进行分析和推断,形成知识的过程.主要包括:收集数据、整理数据、提取信息、构建模型对信息进行分析、推断、获得结论.
例 (2019·全国Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
解 (1)由已知得0.70=a+0.20+0.15,
故a=0.35.
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
素养提升 考题从所给直方图中的数据来进行求甲、乙离子残留百分化的平均值的过程体现的就是数据分析素养.
1.已知变量x和y满足关系=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关
答案 C
解析 因为 =-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设 = y+ ( >0),所以 =-0.1 x+ + ,-0.1 <0,所以x与z负相关.故选C.
2.(2020·合肥检测)某公司一种型号的产品近期销售情况如下表:
月份x
2
3
4
5
6
销售额y/万元
15.1
16.3
17.0
17.2
18.4
根据上表可得到线性回归方程=0.75x+,据此估计,该公司7月份这种型号产品的销售额为( )
A.19.5万元 B.19.25万元
C.19.15万元 D.19.05万元
答案 D
解析 由题意,==4,
==16.8,
回归直线=0.75x+过(,),
可得=13.8,
当x=7时,可得=0.75×7+13.8=19.05.
3.(2019·湖南衡阳联考)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙 C.丙 D.丁
答案 D
解析 r越大,m越小,线性相关性越强,故选D.
4.(2019·赣州模拟)以下五个命题:
①在匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③回归直线=x+必过点(,);
④在线性回归方程=0.2x+12中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位;
⑤分类变量X与Y,对它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.
其中假命题为( )
A.①④ B.①⑤ C.②③ D.③④
答案 B
解析 ①为系统抽样;⑤分类变量X与Y,对它们的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大.
5.(2020·广东省百校联盟联考)下表是我国某城市在2017年1月份至10月份期间各月最低温度与最高温度(单位:℃)的数据一览表.
月份
1
2
3
4
5
6
7
8
9
10
最高温度/℃
5
9
9
11
17
24
27
30
31
21
最低温度/℃
-12
-3
1
-2
7
17
19
23
25
10
已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是( )
A.最低温度与最高温度为正相关
B.每月最高温度与最低温度的平均值在前8个月逐月增加
C.月温差(最高温度减最低温度)的最大值出现在1月
D.1月至4月的月温差(最高温度减最低温度)相对于7月至10月,波动性更大
答案 B
解析 将最高温度、最低温度、温差列表如下:
月份
1
2
3
4
5
6
7
8
9
10
最高温度/℃
5
9
9
11
17
24
27
30
31
21
最低温度/℃
-12
-3
1
-2
7
17
19
23
25
10
温差度/℃
17
12
8
13
10
7
8
7
6
11
由表格可知,最低温度大致随最高温度的升高而升高,A正确;
每月最高温度与最低温度的平均值在前8个月不是逐月增加,B错误;
月温差的最大值出现在1月,C正确;
1月至4月的月温差相对于7月至10月,波动性更大,D正确.
6.(2019·合肥模拟)2018世界特色魅力城市200强新鲜出炉,包括黄山市在内的28个中国城市入选,美丽的黄山风景和人文景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在黄山旅游节期间,随机抽取了100人,得如下所示的列联表:
赞成“自助游”
不赞成“自助游”
总计
男性
30
15
45
女性
45
10
55
总计
75
25
100
参考公式:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参照公式,得到的正确结论是( )
A.有99.5%以上的把握认为“赞成‘自助游’与性别无关”
B.有99.5%以上的把握认为“赞成‘自助游’与性别有关”
C.在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别无关”
D.在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别有关”
答案 D
解析 将2×2列联表中的数据代入计算,得K2=≈3.030,∵2.706<3.030<3.841,∴在犯错误的概率不超过0.1的前提下,可以认为“赞成‘自助游’与性别有关”.
7.(2020·焦作期中)根据下表中的数据可以得到线性回归方程=0.7x+0.35,则实数m,n应满足( )
x
3
m
5
6
y
2.5
3
4
n
A.n-0.7m=1.7 B.n-0.7m=1.5
C.n+0.7m=1.7 D.n+0.7m=1.5
答案 A
解析 =(3+m+5+6)=(14+m),
=(2.5+3+4+n)=(9.5+n),
故(9.5+n)=0.7×(14+m)+0.35,
解得n-0.7m=1.7.
8.某市居民2015~2019年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:
年份
2015
2016
2017
2018
2019
收入x
11.5
12.1
13
13.3
15
支出y
6.8
8.8
9.8
10
12
根据统计资料,居民家庭年平均收入的中位数是______,家庭年平均收入与年平均支出有________相关关系.(填“正”或“负”)
答案 13 正
解析 中位数是13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.
9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:
理科
文科
总计
男
13
10
23
女
7
20
27
总计
20
30
50
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=≈4.844,则有________的把握认为选修文科与性别有关.
答案 95%
解析 由题意,K2=≈4.844,因为4.844>3.841,所以有95%的把握认为选修文科与性别有关.
10.(2020·成都模拟)某公司一种新产品的销售额y与宣传费用x之间的关系如下表:
x(单位:万元)
0
1
2
3
4
y(单位:万元)
10
15
20
30
35
已知销售额y与宣传费用x具有线性相关关系,并求得其线性回归方程为=x+9,则的值为________.
答案 6.5
解析 ==2,===22,由回归直线=x+9过点(2,22)得,22=2+9,解得==6.5.
11.(2020·西南大学附中月考)下表是某地一家超市在2017年一月份某一周内周2到周6的时间x与每天获得的利润y(单位:万元)的有关数据.
星期x
2
3
4
5
6
利润y
2
3
5
6
9
(1)根据上表提供的数据,用最小二乘法求线性回归方程=x+;
(2)估计星期日获得的利润为多少万元.
参考公式:线性回归方程是:=x+,
解 (1)由题意可得==4,==5,
因此==1.7,
所以=-=5-6.8=-1.8,所以=1.7x-1.8.
(2)由(1)可得,当x=7时,=1.7×7-1.8=10.1(万元),即估计星期日获得的利润为10.1万元.
12.某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现在消费金额不超过1 000元的消费者中男女比例为1∶4,该店按此比例抽取了100名消费者进行进一步分析,得到下表:
女性消费情况:
消费金额/元
(0,200)
[200,400)
[400,600)
[600,800)
[800,1 000]
人数
5
10
15
47
3
男性消费情况:
消费金额/元
(0,200)
[200,400)
[400,600)
[600,800)
[800,1 000]
人数
2
3
10
3
2
若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”.
(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?
(2)根据列表中统计数据填写如下2×2列联表,并判断能否在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.
女性
男性
总计
“网购达人”
“非网购达人”
总计
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
k0
2.706
3.841
5.024
6.635
7.879
解 (1)女性消费者消费的平均数为×(100×5+300×10+500×15+700×47+900×3)=582.5.
男性消费者消费的平均数为×(100×2+300×3+500×10+700×3+900×2)=500.
“女网购达人”消费的平均数为×(700×47+900×3)=712.
“男网购达人”消费的平均数为×(700×3+900×2)=780.
虽然女性消费者平均消费水平较高,但“女网购达人”平均消费水平低于“男网购达人”平均消费水平,所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰.
(2)2×2列联表如下所示:
女性
男性
总计
“网购达人”
50
5
55
“非网购达人”
30
15
45
总计
80
20
100
K2的观测值k=≈9.091,
因为9.091>7.879,
所以能在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.
13.(2019·福州四校联考)某汽车的使用年数x与所支出的维修总费用y的统计数据如表:
使用年数x/年
1
2
3
4
5
维修总费用y/万元
0.5
1.2
2.2
3.3
4.5
根据上表可得y关于x的线性回归方程=x-0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( )
A.8年 B.9年 C.10年 D.11年
答案 D
解析 由y关于x的线性回归直线=x-0.69过样本点的中心(3,2.34),得=1.01,即线性回归方程为=1.01x-0.69,由=1.01x-0.69=10得x≈10.6,所以预测该汽车最多可使用11年,故选D.
14.某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
4
5
6
7
8
9
销量y(件)
90
84
83
80
75
68
由表中数据,求得线性回归方程为=-4x+.若在这些样本点中任取一点,则它在回归直线左下方的概率为________.
答案
解析 由表中数据得=6.5,=80,由=-4+,得=106,故线性回归方程为=-4x+106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程,可知有6个基本事件,因84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在回归直线的左下方,满足条件的只有2个,故所求概率为=.
15.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=12,yi=14,x=23,则实数b的值为________.
答案
解析 令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,此时==,==,代入y=bt-,得=b×-,解得b=.
16.(2019·山西八校联考)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万台)的数据如下:
年份
2011
2012
2013
2014
2015
2016
2017
广告费支出x
1
2
4
6
11
13
19
销售量y
1.9
3.2
4.0
4.4
5.2
5.3
5.4
(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;
(2)若用y=c+d模型拟合y与x的关系,可得回归方程=1.63+0.99,经计算线性回归模型和该模型的R2分别为0.75和0.88,请用R2说明选择哪个回归模型更好;
(3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果回答下列问题:
①广告费x=20时,销售量及利润的预报值是多少?
②广告费x为何值时,利润的预报值最大?(精确到0.01)
参考公式:回归直线=+x的斜率和截距的最小二乘估计值分别为
==,=-.
参考数据:≈2.24.
解 (1)∵=8,=4.2,iyi=279.4,=708,
∴===0.17,
=-=4.2-0.17×8=2.84,
∴y关于x的线性回归方程为=0.17x+2.84.
(2)∵0.75<0.88且R2越大,反映残差平方和越小,模型的拟合效果越好,
∴选用=1.63+0.99更好.
(3)由(2)知,
①当x=20时,销售量的预报值=1.63+0.99
≈6.07(万台),
利润的预报值z=200×(1.63+0.99)-20
≈1 193.04(万元).
②z=200(1.63+0.99)-x=-x+198+326=-()2+198+326=-(-99)2+10 127,
∴当=99,即x=9 801时,利润的预报值最大,
故广告费为9 801万元时,利润的预报值最大.
最新考纲
考情考向分析
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.
3.了解独立性检验的基本思想、方法及其初步应用.
4.了解回归分析的基本思想、方法及其简单应用.
回归分析,独立性检验是高考考查的重点,以解答题为主,常与概率结合考查.难度中高档.
1.相关关系与回归方程
(1)相关关系的分类
①正相关
在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
②负相关
在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(2)线性相关关系
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(3)回归方程
①最小二乘法
求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
②回归方程
方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的回归方程,其中,是待定参数.
(4)回归分析
①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心
对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
③相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
2.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=,其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
概念方法微思考
1.变量的相关关系与变量的函数关系有什么区别?
提示 相同点:两者均是指两个变量的关系.
不同点:①函数关系是一种确定的关系,相关关系是一种非确定的关系.
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?
提示 (1)不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.
(2)根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.
题组一 思考辨析
1.判断下列结论是否正确(请在括号中打“√”或“×”)
(1)散点图是判断两个变量是否相关的一种重要方法和手段.( √ )
(2)线性回归方程=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( × )
(3)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( × )
(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( √ )
题组二 教材改编
2.为调查中学生近视情况,测得某校150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
答案 C
解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
3.下面是2×2列联表:
y1
y2
总计
x1
a
21
73
x2
22
25
47
总计
b
46
120
则表中a,b的值分别为( )
A.94,72 B.52,50
C.52,74 D.74,52
答案 C
解析 ∵a+21=73,∴a=52.又a+22=b,∴b=74.
4.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程=0.67x+54.9.
零件数x
(个)
10
20
30
40
50
加工时间y
(min)
62
75
81
89
现发现表中有一个数据看不清,请你推断出该数据的值为________.
答案 68
解析 由=30,得=0.67×30+54.9=75.
设表中的“模糊数字”为a,
则62+a+75+81+89=75×5,∴a=68.
题组三 易错自纠
5.某医疗机构通过抽样调查(样本容量n=1 000),利用2×2列联表和K2统计量研究患肺病是否与吸烟有关.计算得K2=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是( )
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,那么他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
答案 C
解析 由已知数据可得,有1-0.05=95%的把握认为“患肺病与吸烟有关”.
6.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是________.(填序号).
①y与x具有正的线性相关关系;
②回归直线过样本点的中心(,);
③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;
④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.
答案 ④
解析 ①正确;②正确;③正确.对于④,当x=170 cm时,=0.85×170-85.71=58.79,但这是预测值,不可断定其体重为58.79 kg.故不正确.
相关关系的判断
1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )
A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%
B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%
C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%
D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%
答案 B
解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.
2.(2020·云南昆明诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
答案 A
解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.
思维升华 判定两个变量正、负相关性的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:当r>0时,两个变量正相关;当r<0时,两个变量负相关.
(3)线性回归方程:当 >0时,两个变量正相关;当 <0时,两个变量负相关.
回归分析
命题点1 线性回归分析
例1 (2020·湖北部分重点中学联考)“精准扶贫”的重要思想最早在2013年11月提出,习近平到湘西考察时首次作出“实事求是,因地制宜,分类指导,精准扶贫”的重要指导.2015年习总书记在贵州调研时强调要科学谋划好“十三五”时期精准扶贫开发工作,确保贫困人口到2020年如期脱贫.某农科所实地考察,研究发现某贫困村适合种值A、B两种药材,可以通过种植这两种药材脱贫,通过大量考察研究得到如下统计数据:药材A的亩产量约为300公斤,其收购价格处于上涨趋势,最近五年的价格如下表:
编号
1
2
3
4
5
年份
2015
2016
2017
2018
2019
单价(元/公斤)
18
20
23
25
29
药材B的收购价格始终为20元/公斤,其亩产量的频率分布直方图如下:
(1)若药材A的单价y(单位:元/公斤)与年份编号x具有线性相关关系,请求出y关于x的线性回归方程,并估计2020年药材A的单价;
(2)用上述频率分布直方图估计药材B的平均亩产量,若不考虑其他因素,试判断2020年该村应种植药材A还是药材B?并说明理由.
附:==,=-.
解 (1)==3,==23,
所以=
=2.7,
又因为=+,即23=2.7×3+,解得=14.9,
所以=2.7x+14.9;
当x=6时,=31.1.
(2)360×0.1+380×0.2+400×0.35+420×0.25+440×0.1=401,
若种植A种药材每亩地的收入约为31.1×300=9 330,
若种植B种药材每亩地的收入约为401×20=8 020<9 330,
所以应该种植A种药材.
命题点2 非线性回归
例2 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
(xi-)2
(wi-)2
(xi-)·
(yi-)
(wi-)·
(yi-)
46.6
563
6.8
289.8
1.6
1 469
108.8
表中wi=,=i.
(1)根据散点图判断y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为
=,=-.
解 (1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程,由于
===68,
=-=563-68×6.8=100.6,
所以y关于w的线性回归方程为 =100.6+68w,
因此y关于x的回归方程为 =100.6+68.
(3)①由(2)知,当x=49时,
年销售量y的预报值 =100.6+68=576.6,
年利润z的预报值 =576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值
=0.2(100.6+68)-x=-x+13.6+20.12.
所以当==6.8,即x=46.24时, 取得最大值.
故年宣传费为46.24千元时,年利润的预报值最大.
思维升华 回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数.
③待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
跟踪训练1 (2018·全国Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①: = -30.4+13.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立模型②: =99+17.5t.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
解 (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为 =-30.4+13.5×19=226.1(亿元).
利用模型②,可得该地区2018年的环境基础设施投资额的预测值为 =99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型 =99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
独立性检验
例3 (2020·湖北荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1 200名学生)
(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
基础年级
高三
总计
优秀
非优秀
总计
300
附:K2=.
参考数据:
P(K2≥k0)
0.100
0.050
0.010
0.005
k0
2.706
3.841
6.635
7.879
解 (1)该校学生每周平均体育运动时间为=1×0.05+3×0.2+5×0.3+7×0.25+9×0.15+11×0.05=5.8.
样本中高一年级每周平均体育运动时间不足4小时的人数为300××(0.025×2+0.100×2)=30(人).
又样本中高一的人数有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数约为1 200×=300(人).
(2)列联表如下:
基础年级
高三
总计
优秀
105
30
135
非优秀
105
60
165
总计
210
90
300
假设该校学生的每周平均体育运动时间是否优秀与年级无关,
则K2的观测值k=
=≈7.071>6.635.
又P(K2≥6.635)=0.01.
所以有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”.
思维升华 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表.
(2)根据公式K2=计算K2的观测值k.
(3)比较k与临界值的大小关系,作统计推断.
跟踪训练2 (2017·全国Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较.
附:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
K2=.
解 (1)旧养殖法的箱产量低于50 kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表如下:
箱产量<50 kg
箱产量≥50 kg
旧养殖法
62
38
新养殖法
34
66
K2的观测值k=≈15.705.
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.
数据分析是指针对研究对象获得相关数据,运用统计方法对数据中的有用信息进行分析和推断,形成知识的过程.主要包括:收集数据、整理数据、提取信息、构建模型对信息进行分析、推断、获得结论.
例 (2019·全国Ⅲ)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
解 (1)由已知得0.70=a+0.20+0.15,
故a=0.35.
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05.
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
素养提升 考题从所给直方图中的数据来进行求甲、乙离子残留百分化的平均值的过程体现的就是数据分析素养.
1.已知变量x和y满足关系=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关 B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关
答案 C
解析 因为 =-0.1x+1,-0.1<0,所以x与y负相关.又y与z正相关,故可设 = y+ ( >0),所以 =-0.1 x+ + ,-0.1 <0,所以x与z负相关.故选C.
2.(2020·合肥检测)某公司一种型号的产品近期销售情况如下表:
月份x
2
3
4
5
6
销售额y/万元
15.1
16.3
17.0
17.2
18.4
根据上表可得到线性回归方程=0.75x+,据此估计,该公司7月份这种型号产品的销售额为( )
A.19.5万元 B.19.25万元
C.19.15万元 D.19.05万元
答案 D
解析 由题意,==4,
==16.8,
回归直线=0.75x+过(,),
可得=13.8,
当x=7时,可得=0.75×7+13.8=19.05.
3.(2019·湖南衡阳联考)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
则哪位同学的试验结果体现A,B两变量有更强的线性相关性( )
A.甲 B.乙 C.丙 D.丁
答案 D
解析 r越大,m越小,线性相关性越强,故选D.
4.(2019·赣州模拟)以下五个命题:
①在匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③回归直线=x+必过点(,);
④在线性回归方程=0.2x+12中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位;
⑤分类变量X与Y,对它们的随机变量K2的观测值k来说,k越小,“X与Y有关系”的把握程度越大.
其中假命题为( )
A.①④ B.①⑤ C.②③ D.③④
答案 B
解析 ①为系统抽样;⑤分类变量X与Y,对它们的随机变量K2的观测值k来说,k越大,“X与Y有关系”的把握程度越大.
5.(2020·广东省百校联盟联考)下表是我国某城市在2017年1月份至10月份期间各月最低温度与最高温度(单位:℃)的数据一览表.
月份
1
2
3
4
5
6
7
8
9
10
最高温度/℃
5
9
9
11
17
24
27
30
31
21
最低温度/℃
-12
-3
1
-2
7
17
19
23
25
10
已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是( )
A.最低温度与最高温度为正相关
B.每月最高温度与最低温度的平均值在前8个月逐月增加
C.月温差(最高温度减最低温度)的最大值出现在1月
D.1月至4月的月温差(最高温度减最低温度)相对于7月至10月,波动性更大
答案 B
解析 将最高温度、最低温度、温差列表如下:
月份
1
2
3
4
5
6
7
8
9
10
最高温度/℃
5
9
9
11
17
24
27
30
31
21
最低温度/℃
-12
-3
1
-2
7
17
19
23
25
10
温差度/℃
17
12
8
13
10
7
8
7
6
11
由表格可知,最低温度大致随最高温度的升高而升高,A正确;
每月最高温度与最低温度的平均值在前8个月不是逐月增加,B错误;
月温差的最大值出现在1月,C正确;
1月至4月的月温差相对于7月至10月,波动性更大,D正确.
6.(2019·合肥模拟)2018世界特色魅力城市200强新鲜出炉,包括黄山市在内的28个中国城市入选,美丽的黄山风景和人文景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在黄山旅游节期间,随机抽取了100人,得如下所示的列联表:
赞成“自助游”
不赞成“自助游”
总计
男性
30
15
45
女性
45
10
55
总计
75
25
100
参考公式:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参照公式,得到的正确结论是( )
A.有99.5%以上的把握认为“赞成‘自助游’与性别无关”
B.有99.5%以上的把握认为“赞成‘自助游’与性别有关”
C.在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别无关”
D.在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别有关”
答案 D
解析 将2×2列联表中的数据代入计算,得K2=≈3.030,∵2.706<3.030<3.841,∴在犯错误的概率不超过0.1的前提下,可以认为“赞成‘自助游’与性别有关”.
7.(2020·焦作期中)根据下表中的数据可以得到线性回归方程=0.7x+0.35,则实数m,n应满足( )
x
3
m
5
6
y
2.5
3
4
n
A.n-0.7m=1.7 B.n-0.7m=1.5
C.n+0.7m=1.7 D.n+0.7m=1.5
答案 A
解析 =(3+m+5+6)=(14+m),
=(2.5+3+4+n)=(9.5+n),
故(9.5+n)=0.7×(14+m)+0.35,
解得n-0.7m=1.7.
8.某市居民2015~2019年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:
年份
2015
2016
2017
2018
2019
收入x
11.5
12.1
13
13.3
15
支出y
6.8
8.8
9.8
10
12
根据统计资料,居民家庭年平均收入的中位数是______,家庭年平均收入与年平均支出有________相关关系.(填“正”或“负”)
答案 13 正
解析 中位数是13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.
9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2×2列联表:
理科
文科
总计
男
13
10
23
女
7
20
27
总计
20
30
50
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=≈4.844,则有________的把握认为选修文科与性别有关.
答案 95%
解析 由题意,K2=≈4.844,因为4.844>3.841,所以有95%的把握认为选修文科与性别有关.
10.(2020·成都模拟)某公司一种新产品的销售额y与宣传费用x之间的关系如下表:
x(单位:万元)
0
1
2
3
4
y(单位:万元)
10
15
20
30
35
已知销售额y与宣传费用x具有线性相关关系,并求得其线性回归方程为=x+9,则的值为________.
答案 6.5
解析 ==2,===22,由回归直线=x+9过点(2,22)得,22=2+9,解得==6.5.
11.(2020·西南大学附中月考)下表是某地一家超市在2017年一月份某一周内周2到周6的时间x与每天获得的利润y(单位:万元)的有关数据.
星期x
2
3
4
5
6
利润y
2
3
5
6
9
(1)根据上表提供的数据,用最小二乘法求线性回归方程=x+;
(2)估计星期日获得的利润为多少万元.
参考公式:线性回归方程是:=x+,
解 (1)由题意可得==4,==5,
因此==1.7,
所以=-=5-6.8=-1.8,所以=1.7x-1.8.
(2)由(1)可得,当x=7时,=1.7×7-1.8=10.1(万元),即估计星期日获得的利润为10.1万元.
12.某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现在消费金额不超过1 000元的消费者中男女比例为1∶4,该店按此比例抽取了100名消费者进行进一步分析,得到下表:
女性消费情况:
消费金额/元
(0,200)
[200,400)
[400,600)
[600,800)
[800,1 000]
人数
5
10
15
47
3
男性消费情况:
消费金额/元
(0,200)
[200,400)
[400,600)
[600,800)
[800,1 000]
人数
2
3
10
3
2
若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”.
(1)分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?
(2)根据列表中统计数据填写如下2×2列联表,并判断能否在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.
女性
男性
总计
“网购达人”
“非网购达人”
总计
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
k0
2.706
3.841
5.024
6.635
7.879
解 (1)女性消费者消费的平均数为×(100×5+300×10+500×15+700×47+900×3)=582.5.
男性消费者消费的平均数为×(100×2+300×3+500×10+700×3+900×2)=500.
“女网购达人”消费的平均数为×(700×47+900×3)=712.
“男网购达人”消费的平均数为×(700×3+900×2)=780.
虽然女性消费者平均消费水平较高,但“女网购达人”平均消费水平低于“男网购达人”平均消费水平,所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰.
(2)2×2列联表如下所示:
女性
男性
总计
“网购达人”
50
5
55
“非网购达人”
30
15
45
总计
80
20
100
K2的观测值k=≈9.091,
因为9.091>7.879,
所以能在犯错误的概率不超过0.005的前提下认为“是否为‘网购达人’与性别有关”.
13.(2019·福州四校联考)某汽车的使用年数x与所支出的维修总费用y的统计数据如表:
使用年数x/年
1
2
3
4
5
维修总费用y/万元
0.5
1.2
2.2
3.3
4.5
根据上表可得y关于x的线性回归方程=x-0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用(不足1年按1年计算)( )
A.8年 B.9年 C.10年 D.11年
答案 D
解析 由y关于x的线性回归直线=x-0.69过样本点的中心(3,2.34),得=1.01,即线性回归方程为=1.01x-0.69,由=1.01x-0.69=10得x≈10.6,所以预测该汽车最多可使用11年,故选D.
14.某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
4
5
6
7
8
9
销量y(件)
90
84
83
80
75
68
由表中数据,求得线性回归方程为=-4x+.若在这些样本点中任取一点,则它在回归直线左下方的概率为________.
答案
解析 由表中数据得=6.5,=80,由=-4+,得=106,故线性回归方程为=-4x+106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程,可知有6个基本事件,因84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在回归直线的左下方,满足条件的只有2个,故所求概率为=.
15.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=12,yi=14,x=23,则实数b的值为________.
答案
解析 令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,此时==,==,代入y=bt-,得=b×-,解得b=.
16.(2019·山西八校联考)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量y(万台)的数据如下:
年份
2011
2012
2013
2014
2015
2016
2017
广告费支出x
1
2
4
6
11
13
19
销售量y
1.9
3.2
4.0
4.4
5.2
5.3
5.4
(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;
(2)若用y=c+d模型拟合y与x的关系,可得回归方程=1.63+0.99,经计算线性回归模型和该模型的R2分别为0.75和0.88,请用R2说明选择哪个回归模型更好;
(3)已知利润z与x,y的关系为z=200y-x.根据(2)的结果回答下列问题:
①广告费x=20时,销售量及利润的预报值是多少?
②广告费x为何值时,利润的预报值最大?(精确到0.01)
参考公式:回归直线=+x的斜率和截距的最小二乘估计值分别为
==,=-.
参考数据:≈2.24.
解 (1)∵=8,=4.2,iyi=279.4,=708,
∴===0.17,
=-=4.2-0.17×8=2.84,
∴y关于x的线性回归方程为=0.17x+2.84.
(2)∵0.75<0.88且R2越大,反映残差平方和越小,模型的拟合效果越好,
∴选用=1.63+0.99更好.
(3)由(2)知,
①当x=20时,销售量的预报值=1.63+0.99
≈6.07(万台),
利润的预报值z=200×(1.63+0.99)-20
≈1 193.04(万元).
②z=200(1.63+0.99)-x=-x+198+326=-()2+198+326=-(-99)2+10 127,
∴当=99,即x=9 801时,利润的预报值最大,
故广告费为9 801万元时,利润的预报值最大.
相关资料
更多