还剩16页未读,
继续阅读
2021届二轮复习 提升篇专题四统计与概率 统计统计案例 学案(全国通用)
展开
第1讲 统计、统计案例
[东营模拟卷3年考情分析]
年份
济南高三期末
乌鲁木齐第一次诊断
安徽铜陵一中期末
2020
系统抽样·T6
样本平均数·T14
随机抽样、用样本估计总体·T4
独立性检验·T17(2)
用样本的频率分布估计总体分布样本的数字特征·T19
由频率分布直方图求参数平均值·T17
2020
统计图的识别与分析·T3
折线图、线性回归模型问题·T18
抽样方法·T14
茎叶图的应用及独立性检验·T18
2017
用样本的数字特征估计总体的数字特征·T2
折线图的识别与分析·T3
(1)统计与统计案例在选择题或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在2~4题的位置.
(2)统计与统计案例在解答题中多出现在第17、18或19题位置,考查茎叶图、直方图、数字特征及统计案例,多以计算为主.
抽样方法
[例1] (1)某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20000人,其中各种态度对应的人数如下表所示:
最喜爱
喜爱
一般
不喜欢
4800
7200
6400
1600
电视台为了了解观众的具体想法和意见,打算从中抽选100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选的人数分别为( )
A.25,25,25,25 B.48,72,64,16
C.20,40,30,10 D.24,36,32,8
(2)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为( )
A.7 B.9
C.10 D.15
[解析] (1)因为抽样比为=,
所以每类人中应抽选的人数分别为4800×=24,7200×=36,6400×=32,1600×=8.故选D.
(2)由题意知应将960人分成32组,每组30人.设每组选出的人的号码为30k+9(k=0,1,…,31).由451≤30k+9≤750,解得≤k≤,又k∈N,故k=15,16,…,24,共10人.
[答案] (1)D (2)C
[解题方略] 系统抽样和分层抽样中的计算
(1)系统抽样
①总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).
②若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n-1).
(2)分层抽样
按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.
[跟踪训练]
1.(2020·济南高三期末)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( )
A.8号学生 B.200号学生
C.616号学生 D.815号学生
解析:选C 根据题意,系统抽样是等距抽样,所以抽样间隔为=10.因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.故选C.
2.某中学有高中生3000人,初中生2000人,男、女生所占的比例如图所示.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取女生21人,则从初中生中抽取的男生人数是( )
A.12 B.15
C.20 D.21
解析:选A 因为抽样比为=,所以从初中生中抽取的男生人数为2000×60%×=12.故选A.
用样本估计总体
[例2] (2020·乌鲁木齐第一次诊断)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80)
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:≈8.602.
[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为=0.21.产值负增长的企业频率为=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)y=×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=i(yi-y)2
=×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]
=0.0296,
s==0.02×≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
[解题方略]
1.方差的计算与含义
(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.
(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.
2.从频率分布直方图中得出有关数据的方法
频率
频率分布直方图中横轴表示组数,纵轴表示,频率=组距×
频率比
频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比
众数
最高小长方形底边中点的横坐标
中位数
平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标
平均数
频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和
[跟踪训练]
1.(2020·石家庄市质量检测)甲、乙两人8次测评成绩的茎叶图如图,由茎叶图知甲的成绩的平均数和乙的成绩的中位数分别是( )
A.23,22 B.23,22.5
C.21,22 D.21,22.5
解析:选D 由茎叶图可得甲的成绩的平均数为=21.将乙的成绩按从小到大的顺序排列,中间的两个成绩分别是22,23,所以乙的成绩的中位数为=22.5.
2.为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量的数据(单位:克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示.
(1)求图中a的值;
(2)估计这种植物果实重量的平均数x和方差s2(同一组中的数据用该组区间的中点值作代表).
解:(1)由5×(0.020+0.040+0.075+a+0.015)=1,得a=0.050.
(2)各组中点值和相应的频率依次为
中点值
30
35
40
45
50
频率
0.1
0.2
0.375
0.25
0.075
x=30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40,
s2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75.
统计案例
题型一 回归分析在实际问题中的应用
[例3] 某省的一个气象站观测点在连续4天里记录的AQI指数M与当天的空气水平可见度y(单位:cm)的情况如表1:
M
900
700
300
100
y
0.5
3.5
6.5
9.5
该省某市2020年11月份AQI指数频数分布如表2:
M
[0,200)
[200,400)
[400,600)
[600,800)
[800,1000]
频数
(天)
3
6
12
6
3
(1)设x=,若x与y之间是线性关系,试根据表1的数据求出y关于x的线性回归方程.
(2)小李在该市开了一家洗车店,洗车店每天的平均收入与AQI指数存在相关关系如表3:
M
[0,200)
[200,400)
[400,600)
[600,800)
[800,1000]
日均收
入(元)
-2000
-1000
2000
6000
8000
根据表3估计小李的洗车店2020年11月份每天的平均收入.
附参考公式:=x+,其中=,=y-x.
[解] (1)x=(9+7+3+1)=5,
y=(0.5+3.5+6.5+9.5)=5,
∑4,i=1xiyi=9×0.5+7×3.5+3×6.5+1×9.5=58.
∑4,i=1x=92+72+32+12=140,
所以==-,=5-×5=,
所以y关于x的线性回归方程为=-x+.
(2)根据表3可知,该月30天中有3天每天亏损2000元,有6天每天亏损1000元,有12天每天收入2000元,有6天每天收入6000元,有3天每天收入8000元,估计小李洗车店2020年11月份每天的平均收入为×(-2000×3-1000×6+2000×12+6000×6+8000×3)=2400(元).
[解题方略] 求回归直线方程的方法
(1)若所求的回归直线方程是在选择题中,常利用回归直线=x+必经过样本点的中心(x,y)快速选择.
(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:
题型二 独立性检验在实际问题中的应用
[例4] (2020·济南高三期末)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:K2=.
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
[解] (1)由调查数据,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2的观测值k=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
[解题方略] 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=(其中n=a+b+c+d)计算出K2的观测值;
(3)比较K2的观测值与临界值的大小,作出统计推断.
[跟踪训练]
1.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:
同意限定区域停车
不同意限定区域停车
总计
男
20
5
25
女
10
15
25
总计
30
20
50
则认为“是否同意限定区域停车与家长的性别有关”的把握约为( )
A.0.1% B.0.5%
C.99.5% D.99.9%
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析:选C 因为K2=≈8.333>7.879,所以约有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.
2.2020年秋新学期开始,某市对全市中小学学生进行健康状况抽样调查,其中在某校调查得到了该校前五个年级近视率y的数据如下表:
年级号x
1
2
3
4
5
近视率y
0.05
0.09
0.16
0.20
0.25
根据前五个年级的数据,利用最小二乘法求出y关于x的线性回归方程,并根据方程预测六年级学生的近视率.
附:回归直线=x+的斜率和截距的最小二乘法估计公式分别为
得==0.051,=0.15-0.051×3=-0.003,
得线性回归方程为=0.051x-0.003.
当x=6时,代入得=0.051×6-0.003=0.303,
所以六年级学生的近视率在0.303左右.
数学建模——回归分析问题的求解
[典例] (2020·合肥市第二次质量检测)为了了解A地区足球特色学校的发展状况,某调查机构统计得到如下数据:
年份x
2014
2015
2016
2017
2020
足球特色学校数y/百个
0.30
0.60
1.00
1.40
1.70
(1)根据表中数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱(已知:0.75≤|r|≤1,则认为y与x线性相关性很强;0.3≤|r|<0.75,则认为y与x线性相关性一般;|r|≤0.25,则认为y与x线性相关性较弱);
(2)求y关于x的线性回归方程,并预测A地区2020年足球特色学校的个数(精确到个).
[解] (1)x=2016,y=1,r====0.9984>0.75,
∴y与x线性相关性很强.
=y-x=1-0.36×2016=-724.76,
∴y关于x的线性回归方程是=0.36x-724.76.
当x=2020时,=0.36×2020-724.76=2.08,
即A地区2020年足球特色学校约有208个.
[素养通路]
本题是典型的回归分析问题,在实际问题中收集数据,画散点图,用线性回归模型拟合变量关系,再用最小二乘法求出回归方程,进而用回归模型对实际问题进行预测,考查了数学建模这一核心素养.
[专题过关检测]
A组——“6+3+3”考点落实练
一、选择题
1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )
A.73 B.78
C.77 D.76
解析:选B 样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.
2.(2020·乌鲁木齐第一次诊断)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
解析:选A 中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.
3.(2020·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y(单位:kW·h)与气温x(单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:
x(单位:℃)
17
14
10
-1
y(单位:kW·h)
24
34
38
a
由表中数据得线性回归方程:=-2x+60,则a的值为( )
A.48 B.62
C.64 D.68
解析:选C 由题意,得x==10,y==.样本点的中心(x,y)在回归直线=-2x+60上,代入线性回归方程可得=-20+60,解得a=64,故选C.
4.如图是民航部门统计的2020年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )
A.深圳的变化幅度最小,北京的平均价格最高
B.深圳和厦门的春运期间往返机票价格同去年相比有所下降
C.平均价格从高到低居于前三位的城市为北京、深圳、广州
D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门
解析:选D 由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D错误,选D.
5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{an},若a3=8,且a1,a3,a7成等比数列,则此样本的平均数和中位数分别是( )
A.13,12 B.13,13
C.12,13 D.13,14
解析:选B 设等差数列{an}的公差为d(d≠0),a3=8,a1a7=a=64,(8-2d)(8+4d)=64,即2d-d2=0,又d≠0,故d=2,故样本数据为:4,6,8,10,12,14,16,18,20,22,平均数为=13,中位数为=13.
6.(2020·成都市第二次诊断性检测)为比较甲、乙两名篮球运动员的近期竞技状态,选取这两名球员最近五场比赛的得分,制成如图所示的茎叶图.有下列结论:
①甲最近五场比赛得分的中位数高于乙最近五场比赛得分的中位数;
②甲最近五场比赛得分的平均数低于乙最近五场比赛得分的平均数;
③从最近五场比赛的得分看,乙比甲更稳定;
④从最近五场比赛的得分看,甲比乙更稳定.
其中所有正确结论的编号为( )
A.①③ B.①④
C.②③ D.②④
解析:选C 对于①,甲得分的中位数为29,乙得分的中位数为30,错误;
对于②,甲得分的平均数为×(25+28+29+31+32)=29,乙得分的平均数为×(28+29+30+31+32)=30,正确;
对于③,甲得分的方差为×[(25-29)2+(28-29)2+(29-29)2+(31-29)2+(32-29)2]=×(16+1+0+4+9)=6,
乙得分的方差为×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=×(4+1+0+1+4)=2,所以乙比甲更稳定,③正确,④错误.所以正确结论的编号为②③.
二、填空题
7.(2020·乌鲁木齐第一次诊断)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.
解析:x==0.98.
则经停该站高铁列车所有车次的平均正点率的估计值为0.98.
答案:0.98
8.(2020·安徽五校联盟第二次质检)数据a1,a2,a3,…,an的方差为σ2,则数据2a1,2a2,2a3,…,2an的方差为________.
解析:设a1,a2,a3,…,an的平均数为a,则2a1,2a2,2a3,…,2an的平均数为2a,
σ2=.
则2a1,2a2,2a3,…,2an的方差为
=
4×=4σ2.
答案:4σ2
9.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:
女
男
总计
喜爱
40
20
60
不喜爱
20
30
50
总计
60
50
110
试根据样本估计总体的思想,估计在犯错误的概率不超过________的前提下(约有________的把握)认为“喜爱该节目与否和性别有关”.
参考附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解析:分析列联表中数据,可得K2的观测值k=≈7.822>6.635,所以在犯错误的概率不超过0.01的前提下(有99%的把握)认为“喜爱该节目与否和性别有关”.
答案:0.01 99%
三、解答题
10.(2020·安徽铜陵一中期末)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
解:(1)由已知得0.70=a+0.20+0.15,故a=0.35.
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05,
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
11.某市教育学院从参加市级高中数学竞赛的考生中随机抽取60名学生,将其竞赛成绩(均为整数)分成六段:[40,50),[50,60),[60,70),…,[90,100],得到如图所示的频率分布直方图.
(1)根据频率分布直方图,估计参加高中数学竞赛的考生的成绩的平均数、众数、中位数(小数点后保留一位有效数字);
(2)用分层抽样的方法在各分数段的考生中抽取一个容量为20的样本,则各分数段抽取的人数分别是多少?
解:(1)由频率分布直方图可知,
(0.010+0.015+0.015+a+0.025+0.005)×10=1,所以a=0.03.
所以参加高中数学竞赛的考生的成绩的平均数为
45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71,
成绩的众数为75.
设参加高中数学竞赛的考生的成绩的中位数为x,
则0.1+0.15+0.15+(x-70)×0.03=0.5,解得x≈73.3,
所以中位数为73.3.
(2)因为各层人数分别为6,9,9,18,15,3,各层抽取比例为=,
所以各分数段抽取人数依次为2,3,3,6,5,1.
12.(2020·沈阳市质量监测(一))某篮球运动员的投篮命中率为50%,他想提高自己的投篮水平,制定了一个夏季训练计划,为了了解训练效果,执行训练前,他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为46.3.执行训练后也统计了10场比赛的得分,茎叶图如图所示:
(1)请计算该篮球运动员执行训练后统计的10场比赛得分的中位数、平均得分与方差.
(2)如果仅从执行训练前后统计的各10场比赛得分数据分析,你认为训练计划对该运动员的投篮水平的提高是否有帮助?为什么?
解:(1)训练后得分的中位数为=14.5;
平均得分为=15;
方差为[(8-15)2+(9-15)2+(12-15)2+(14-15)2+(14-15)2+(15-15)2+(16-15)2+(18-15)2+(21-15)2+(23-15)2]=20.6.
(2)尽管中位数训练后比训练前稍小,但平均得分一样,训练后方差20.6小于训练前方差46.3,说明训练后得分稳定性提高了(阐述观点合理即可),这是投篮水平提高的表现.故此训练计划对该篮球运动员的投篮水平的提高有帮助.
B组——大题专攻强化练
1.(2020·武汉市调研测试)一个工厂在某年里连续10个月每月产品的总成本y(万元)与该月产量x(万件)之间有如下一组数据:
x
1.08
1.12
1.19
1.28
1.36
1.48
1.59
1.68
1.80
1.87
y
2.25
2.37
2.40
2.55
2.64
2.75
2.92
3.03
3.14
3.26
(1)通过画散点图,发现可用线性回归模型拟合y与x的关系,请用相关系数加以说明.
(2)①建立月总成本y与月产量x之间的回归方程;
②通过建立的y关于x的回归方程,估计某月产量为1.98万件时,产品的总成本为多少万元?(均精确到0.001)
附注:①参考数据:i=27.31,
≈0.850,≈1.042,≈1.223.
②参考公式:相关系数
回归直线=+x中斜率和截距的最小二乘估计公式分别为:
解:(1)由已知条件得,
r=·,
∴r=1.223×≈0.998,
这说明y与x正相关,且相关性很强.
(2)①由已知求得x=1.445,y=2.731,
=y-x=2.731-1.223×1.445≈0.964,
∴所求回归直线方程为=1.223x+0.964.
②当x=1.98时,y=1.223×1.98+0.964≈3.386(万元),
此时产品的总成本约为3.386万元.
2.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)估计旧养殖法的箱产量低于50kg的概率并估计新养殖法的箱产量的平均值;
(2)填写下面的2×2列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.
箱产量<50kg
箱产量≥50kg
总计
旧养殖法
新养殖法
总计
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解:(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,所以旧养殖法的箱产量低于50kg的概率估计值为0.62;新养殖法的箱产量的平均值为37.5×0.004×5+42.5×0.020×5+47.5×0.044×5+52.5×0.068×5+57.5×0.046×5+62.5×0.010×5+67.5×0.008×5=52.35.
(2)根据箱产量的频率分布直方图得2×2列联表如下:
箱产量<50kg
箱产量≥50kg
总计
旧养殖法
62
38
100
新养殖法
34
66
100
总计
96
104
200
由表中数据得K2=≈15.705,
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
3.(2020·长沙市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如下表:
月份
1
2
3
4
5
6
广告投入量/万元
2
4
6
8
10
12
收益/万元
14.21
20.31
31.8
31.18
37.83
44.67
他们用两种模型①y=bx+a,②y=aebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:
x
y
7
30
1464.24
364
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由.
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除:(ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程;(ⅱ)广告投入量x=18时,(1)中所选模型收益的预报值是多少?
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为:
解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.
(2)(ⅰ)剔除异常数据,即3月份的数据后,得
x=×(7×6-6)=7.2,
y=×(30×6-31.8)=29.64.
(ⅱ)把x=18代入(ⅰ)中所求回归方程得=3×18+8.04=62.04,故预报值为62.04万元.
4.每年10月中上旬是小麦的最佳种植时间,但小麦的发芽会受到土壤、气候等多方面因素的影响.某科技兴趣小组为了解昼夜温差的大小与小麦发芽的多少之间的关系,在不同的温差下统计了100颗小麦种子的发芽数,得到了如下数据:
温差x(℃)
8
10
11
13
12
发芽数y(颗)
79
81
85
90
86
(1)请根据统计的最后三组数据,求出y关于x的线性回归方程=x+;
(2)若由(1)中的线性回归方程得到的估计值与前两组数据的实际值误差均不超过两颗,则认为线性回归方程是可靠的,试判断(1)中得到的线性回归方程是否可靠;
(3)若100颗小麦种子的发芽数为n颗,则记n%的发芽率,当发芽率为n%时,平均每亩地的收益为10n元,某农场有土地10万亩,小麦种植期间昼夜温差大约为9℃,根据(1)中得到的线性回归方程估计该农场种植小麦所获得的收益.
附:在线性回归方程=x+中,=
解:(1)∵x==12,y==87,
∴==,
由x+=y,即×12+=87,得=57,
∴线性回归方程为=x+57.
(2)当x=8时,=×8+57=77,与实际值79比较,误差没有超过两颗;
当x=10时,=×10+57=82,与实际值81比较,误差也没有超过两颗.
所以(1)中得到的线性回归方程=x+57是可靠的.
(3)由=x+57得,当x=9时,=79.5,即每亩地的收益大约为795元,所以该农场种植小麦所获得的收益大约为7950万元.
[东营模拟卷3年考情分析]
年份
济南高三期末
乌鲁木齐第一次诊断
安徽铜陵一中期末
2020
系统抽样·T6
样本平均数·T14
随机抽样、用样本估计总体·T4
独立性检验·T17(2)
用样本的频率分布估计总体分布样本的数字特征·T19
由频率分布直方图求参数平均值·T17
2020
统计图的识别与分析·T3
折线图、线性回归模型问题·T18
抽样方法·T14
茎叶图的应用及独立性检验·T18
2017
用样本的数字特征估计总体的数字特征·T2
折线图的识别与分析·T3
(1)统计与统计案例在选择题或填空题中的命题热点主要集中在随机抽样、用样本估计总体以及变量间的相关性判断等,难度较低,常出现在2~4题的位置.
(2)统计与统计案例在解答题中多出现在第17、18或19题位置,考查茎叶图、直方图、数字特征及统计案例,多以计算为主.
抽样方法
[例1] (1)某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20000人,其中各种态度对应的人数如下表所示:
最喜爱
喜爱
一般
不喜欢
4800
7200
6400
1600
电视台为了了解观众的具体想法和意见,打算从中抽选100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选的人数分别为( )
A.25,25,25,25 B.48,72,64,16
C.20,40,30,10 D.24,36,32,8
(2)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为( )
A.7 B.9
C.10 D.15
[解析] (1)因为抽样比为=,
所以每类人中应抽选的人数分别为4800×=24,7200×=36,6400×=32,1600×=8.故选D.
(2)由题意知应将960人分成32组,每组30人.设每组选出的人的号码为30k+9(k=0,1,…,31).由451≤30k+9≤750,解得≤k≤,又k∈N,故k=15,16,…,24,共10人.
[答案] (1)D (2)C
[解题方略] 系统抽样和分层抽样中的计算
(1)系统抽样
①总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).
②若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n-1).
(2)分层抽样
按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.
[跟踪训练]
1.(2020·济南高三期末)某学校为了解1000名新生的身体素质,将这些学生编号为1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验.若46号学生被抽到,则下面4名学生中被抽到的是( )
A.8号学生 B.200号学生
C.616号学生 D.815号学生
解析:选C 根据题意,系统抽样是等距抽样,所以抽样间隔为=10.因为46除以10余6,所以抽到的号码都是除以10余6的数,结合选项知应为616.故选C.
2.某中学有高中生3000人,初中生2000人,男、女生所占的比例如图所示.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n的样本,已知从高中生中抽取女生21人,则从初中生中抽取的男生人数是( )
A.12 B.15
C.20 D.21
解析:选A 因为抽样比为=,所以从初中生中抽取的男生人数为2000×60%×=12.故选A.
用样本估计总体
[例2] (2020·乌鲁木齐第一次诊断)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
y的分组
[-0.20,0)
[0,0.20)
[0.20,0.40)
[0.40,0.60)
[0.60,0.80)
企业数
2
24
53
14
7
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:≈8.602.
[解] (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为=0.21.产值负增长的企业频率为=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2)y=×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,
s2=i(yi-y)2
=×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]
=0.0296,
s==0.02×≈0.17.
所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.
[解题方略]
1.方差的计算与含义
(1)计算:计算方差首先要计算平均数,然后再按照方差的计算公式进行计算.
(2)含义:方差是描述一个样本和总体的波动大小的特征数,方差大说明波动大.
2.从频率分布直方图中得出有关数据的方法
频率
频率分布直方图中横轴表示组数,纵轴表示,频率=组距×
频率比
频率分布直方图中各小长方形的面积之和为1,各小长方形高的比也就是频率比
众数
最高小长方形底边中点的横坐标
中位数
平分频率分布直方图的面积且垂直于横轴的直线与横轴交点的横坐标
平均数
频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和
[跟踪训练]
1.(2020·石家庄市质量检测)甲、乙两人8次测评成绩的茎叶图如图,由茎叶图知甲的成绩的平均数和乙的成绩的中位数分别是( )
A.23,22 B.23,22.5
C.21,22 D.21,22.5
解析:选D 由茎叶图可得甲的成绩的平均数为=21.将乙的成绩按从小到大的顺序排列,中间的两个成绩分别是22,23,所以乙的成绩的中位数为=22.5.
2.为了解一种植物果实的情况,随机抽取一批该植物果实样本测量重量的数据(单位:克),按照[27.5,32.5),[32.5,37.5),[37.5,42.5),[42.5,47.5),[47.5,52.5]分为5组,其频率分布直方图如图所示.
(1)求图中a的值;
(2)估计这种植物果实重量的平均数x和方差s2(同一组中的数据用该组区间的中点值作代表).
解:(1)由5×(0.020+0.040+0.075+a+0.015)=1,得a=0.050.
(2)各组中点值和相应的频率依次为
中点值
30
35
40
45
50
频率
0.1
0.2
0.375
0.25
0.075
x=30×0.1+35×0.2+40×0.375+45×0.25+50×0.075=40,
s2=(-10)2×0.1+(-5)2×0.2+02×0.375+52×0.25+102×0.075=28.75.
统计案例
题型一 回归分析在实际问题中的应用
[例3] 某省的一个气象站观测点在连续4天里记录的AQI指数M与当天的空气水平可见度y(单位:cm)的情况如表1:
M
900
700
300
100
y
0.5
3.5
6.5
9.5
该省某市2020年11月份AQI指数频数分布如表2:
M
[0,200)
[200,400)
[400,600)
[600,800)
[800,1000]
频数
(天)
3
6
12
6
3
(1)设x=,若x与y之间是线性关系,试根据表1的数据求出y关于x的线性回归方程.
(2)小李在该市开了一家洗车店,洗车店每天的平均收入与AQI指数存在相关关系如表3:
M
[0,200)
[200,400)
[400,600)
[600,800)
[800,1000]
日均收
入(元)
-2000
-1000
2000
6000
8000
根据表3估计小李的洗车店2020年11月份每天的平均收入.
附参考公式:=x+,其中=,=y-x.
[解] (1)x=(9+7+3+1)=5,
y=(0.5+3.5+6.5+9.5)=5,
∑4,i=1xiyi=9×0.5+7×3.5+3×6.5+1×9.5=58.
∑4,i=1x=92+72+32+12=140,
所以==-,=5-×5=,
所以y关于x的线性回归方程为=-x+.
(2)根据表3可知,该月30天中有3天每天亏损2000元,有6天每天亏损1000元,有12天每天收入2000元,有6天每天收入6000元,有3天每天收入8000元,估计小李洗车店2020年11月份每天的平均收入为×(-2000×3-1000×6+2000×12+6000×6+8000×3)=2400(元).
[解题方略] 求回归直线方程的方法
(1)若所求的回归直线方程是在选择题中,常利用回归直线=x+必经过样本点的中心(x,y)快速选择.
(2)若所求的回归直线方程是在解答题中,则求回归直线方程的一般步骤为:
题型二 独立性检验在实际问题中的应用
[例4] (2020·济南高三期末)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:K2=.
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
[解] (1)由调查数据,男顾客中对该商场服务满意的比率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.
(2)K2的观测值k=≈4.762.
由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.
[解题方略] 独立性检验的一般步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=(其中n=a+b+c+d)计算出K2的观测值;
(3)比较K2的观测值与临界值的大小,作出统计推断.
[跟踪训练]
1.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:
同意限定区域停车
不同意限定区域停车
总计
男
20
5
25
女
10
15
25
总计
30
20
50
则认为“是否同意限定区域停车与家长的性别有关”的把握约为( )
A.0.1% B.0.5%
C.99.5% D.99.9%
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析:选C 因为K2=≈8.333>7.879,所以约有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.
2.2020年秋新学期开始,某市对全市中小学学生进行健康状况抽样调查,其中在某校调查得到了该校前五个年级近视率y的数据如下表:
年级号x
1
2
3
4
5
近视率y
0.05
0.09
0.16
0.20
0.25
根据前五个年级的数据,利用最小二乘法求出y关于x的线性回归方程,并根据方程预测六年级学生的近视率.
附:回归直线=x+的斜率和截距的最小二乘法估计公式分别为
得==0.051,=0.15-0.051×3=-0.003,
得线性回归方程为=0.051x-0.003.
当x=6时,代入得=0.051×6-0.003=0.303,
所以六年级学生的近视率在0.303左右.
数学建模——回归分析问题的求解
[典例] (2020·合肥市第二次质量检测)为了了解A地区足球特色学校的发展状况,某调查机构统计得到如下数据:
年份x
2014
2015
2016
2017
2020
足球特色学校数y/百个
0.30
0.60
1.00
1.40
1.70
(1)根据表中数据,计算y与x的相关系数r,并说明y与x的线性相关性强弱(已知:0.75≤|r|≤1,则认为y与x线性相关性很强;0.3≤|r|<0.75,则认为y与x线性相关性一般;|r|≤0.25,则认为y与x线性相关性较弱);
(2)求y关于x的线性回归方程,并预测A地区2020年足球特色学校的个数(精确到个).
[解] (1)x=2016,y=1,r====0.9984>0.75,
∴y与x线性相关性很强.
=y-x=1-0.36×2016=-724.76,
∴y关于x的线性回归方程是=0.36x-724.76.
当x=2020时,=0.36×2020-724.76=2.08,
即A地区2020年足球特色学校约有208个.
[素养通路]
本题是典型的回归分析问题,在实际问题中收集数据,画散点图,用线性回归模型拟合变量关系,再用最小二乘法求出回归方程,进而用回归模型对实际问题进行预测,考查了数学建模这一核心素养.
[专题过关检测]
A组——“6+3+3”考点落实练
一、选择题
1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( )
A.73 B.78
C.77 D.76
解析:选B 样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-3)×5=78.故选B.
2.(2020·乌鲁木齐第一次诊断)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数
C.方差 D.极差
解析:选A 中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.故选A.
3.(2020·广东六校第一次联考)某单位为了落实“绿水青山就是金山银山”理念,制定节能减排的目标,先调查了用电量y(单位:kW·h)与气温x(单位:℃)之间的关系,随机选取了4天的用电量与当天气温,并制作了如下对照表:
x(单位:℃)
17
14
10
-1
y(单位:kW·h)
24
34
38
a
由表中数据得线性回归方程:=-2x+60,则a的值为( )
A.48 B.62
C.64 D.68
解析:选C 由题意,得x==10,y==.样本点的中心(x,y)在回归直线=-2x+60上,代入线性回归方程可得=-20+60,解得a=64,故选C.
4.如图是民航部门统计的2020年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是( )
A.深圳的变化幅度最小,北京的平均价格最高
B.深圳和厦门的春运期间往返机票价格同去年相比有所下降
C.平均价格从高到低居于前三位的城市为北京、深圳、广州
D.平均价格的涨幅从高到低居于前三位的城市为天津、西安、厦门
解析:选D 由图可知深圳对应的小黑点最接近0%,故变化幅度最小,北京对应的条形图最高,则北京的平均价格最高,故A正确;由图可知深圳和厦门对应的小黑点在0%以下,故深圳和厦门的价格同去年相比有所下降,故B正确;由图可知条形图由高到低居于前三位的城市为北京、深圳和广州,故C正确;由图可知平均价格的涨幅由高到低分别为天津、西安和南京,故D错误,选D.
5.一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{an},若a3=8,且a1,a3,a7成等比数列,则此样本的平均数和中位数分别是( )
A.13,12 B.13,13
C.12,13 D.13,14
解析:选B 设等差数列{an}的公差为d(d≠0),a3=8,a1a7=a=64,(8-2d)(8+4d)=64,即2d-d2=0,又d≠0,故d=2,故样本数据为:4,6,8,10,12,14,16,18,20,22,平均数为=13,中位数为=13.
6.(2020·成都市第二次诊断性检测)为比较甲、乙两名篮球运动员的近期竞技状态,选取这两名球员最近五场比赛的得分,制成如图所示的茎叶图.有下列结论:
①甲最近五场比赛得分的中位数高于乙最近五场比赛得分的中位数;
②甲最近五场比赛得分的平均数低于乙最近五场比赛得分的平均数;
③从最近五场比赛的得分看,乙比甲更稳定;
④从最近五场比赛的得分看,甲比乙更稳定.
其中所有正确结论的编号为( )
A.①③ B.①④
C.②③ D.②④
解析:选C 对于①,甲得分的中位数为29,乙得分的中位数为30,错误;
对于②,甲得分的平均数为×(25+28+29+31+32)=29,乙得分的平均数为×(28+29+30+31+32)=30,正确;
对于③,甲得分的方差为×[(25-29)2+(28-29)2+(29-29)2+(31-29)2+(32-29)2]=×(16+1+0+4+9)=6,
乙得分的方差为×[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=×(4+1+0+1+4)=2,所以乙比甲更稳定,③正确,④错误.所以正确结论的编号为②③.
二、填空题
7.(2020·乌鲁木齐第一次诊断)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为________.
解析:x==0.98.
则经停该站高铁列车所有车次的平均正点率的估计值为0.98.
答案:0.98
8.(2020·安徽五校联盟第二次质检)数据a1,a2,a3,…,an的方差为σ2,则数据2a1,2a2,2a3,…,2an的方差为________.
解析:设a1,a2,a3,…,an的平均数为a,则2a1,2a2,2a3,…,2an的平均数为2a,
σ2=.
则2a1,2a2,2a3,…,2an的方差为
=
4×=4σ2.
答案:4σ2
9.某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:
女
男
总计
喜爱
40
20
60
不喜爱
20
30
50
总计
60
50
110
试根据样本估计总体的思想,估计在犯错误的概率不超过________的前提下(约有________的把握)认为“喜爱该节目与否和性别有关”.
参考附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解析:分析列联表中数据,可得K2的观测值k=≈7.822>6.635,所以在犯错误的概率不超过0.01的前提下(有99%的把握)认为“喜爱该节目与否和性别有关”.
答案:0.01 99%
三、解答题
10.(2020·安徽铜陵一中期末)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.
(1)求乙离子残留百分比直方图中a,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
解:(1)由已知得0.70=a+0.20+0.15,故a=0.35.
b=1-0.05-0.15-0.70=0.10.
(2)甲离子残留百分比的平均值的估计值为
2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05,
乙离子残留百分比的平均值的估计值为
3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.
11.某市教育学院从参加市级高中数学竞赛的考生中随机抽取60名学生,将其竞赛成绩(均为整数)分成六段:[40,50),[50,60),[60,70),…,[90,100],得到如图所示的频率分布直方图.
(1)根据频率分布直方图,估计参加高中数学竞赛的考生的成绩的平均数、众数、中位数(小数点后保留一位有效数字);
(2)用分层抽样的方法在各分数段的考生中抽取一个容量为20的样本,则各分数段抽取的人数分别是多少?
解:(1)由频率分布直方图可知,
(0.010+0.015+0.015+a+0.025+0.005)×10=1,所以a=0.03.
所以参加高中数学竞赛的考生的成绩的平均数为
45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71,
成绩的众数为75.
设参加高中数学竞赛的考生的成绩的中位数为x,
则0.1+0.15+0.15+(x-70)×0.03=0.5,解得x≈73.3,
所以中位数为73.3.
(2)因为各层人数分别为6,9,9,18,15,3,各层抽取比例为=,
所以各分数段抽取人数依次为2,3,3,6,5,1.
12.(2020·沈阳市质量监测(一))某篮球运动员的投篮命中率为50%,他想提高自己的投篮水平,制定了一个夏季训练计划,为了了解训练效果,执行训练前,他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为46.3.执行训练后也统计了10场比赛的得分,茎叶图如图所示:
(1)请计算该篮球运动员执行训练后统计的10场比赛得分的中位数、平均得分与方差.
(2)如果仅从执行训练前后统计的各10场比赛得分数据分析,你认为训练计划对该运动员的投篮水平的提高是否有帮助?为什么?
解:(1)训练后得分的中位数为=14.5;
平均得分为=15;
方差为[(8-15)2+(9-15)2+(12-15)2+(14-15)2+(14-15)2+(15-15)2+(16-15)2+(18-15)2+(21-15)2+(23-15)2]=20.6.
(2)尽管中位数训练后比训练前稍小,但平均得分一样,训练后方差20.6小于训练前方差46.3,说明训练后得分稳定性提高了(阐述观点合理即可),这是投篮水平提高的表现.故此训练计划对该篮球运动员的投篮水平的提高有帮助.
B组——大题专攻强化练
1.(2020·武汉市调研测试)一个工厂在某年里连续10个月每月产品的总成本y(万元)与该月产量x(万件)之间有如下一组数据:
x
1.08
1.12
1.19
1.28
1.36
1.48
1.59
1.68
1.80
1.87
y
2.25
2.37
2.40
2.55
2.64
2.75
2.92
3.03
3.14
3.26
(1)通过画散点图,发现可用线性回归模型拟合y与x的关系,请用相关系数加以说明.
(2)①建立月总成本y与月产量x之间的回归方程;
②通过建立的y关于x的回归方程,估计某月产量为1.98万件时,产品的总成本为多少万元?(均精确到0.001)
附注:①参考数据:i=27.31,
≈0.850,≈1.042,≈1.223.
②参考公式:相关系数
回归直线=+x中斜率和截距的最小二乘估计公式分别为:
解:(1)由已知条件得,
r=·,
∴r=1.223×≈0.998,
这说明y与x正相关,且相关性很强.
(2)①由已知求得x=1.445,y=2.731,
=y-x=2.731-1.223×1.445≈0.964,
∴所求回归直线方程为=1.223x+0.964.
②当x=1.98时,y=1.223×1.98+0.964≈3.386(万元),
此时产品的总成本约为3.386万元.
2.海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:
(1)估计旧养殖法的箱产量低于50kg的概率并估计新养殖法的箱产量的平均值;
(2)填写下面的2×2列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.
箱产量<50kg
箱产量≥50kg
总计
旧养殖法
新养殖法
总计
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解:(1)旧养殖法的箱产量低于50kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,所以旧养殖法的箱产量低于50kg的概率估计值为0.62;新养殖法的箱产量的平均值为37.5×0.004×5+42.5×0.020×5+47.5×0.044×5+52.5×0.068×5+57.5×0.046×5+62.5×0.010×5+67.5×0.008×5=52.35.
(2)根据箱产量的频率分布直方图得2×2列联表如下:
箱产量<50kg
箱产量≥50kg
总计
旧养殖法
62
38
100
新养殖法
34
66
100
总计
96
104
200
由表中数据得K2=≈15.705,
由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.
3.(2020·长沙市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如下表:
月份
1
2
3
4
5
6
广告投入量/万元
2
4
6
8
10
12
收益/万元
14.21
20.31
31.8
31.18
37.83
44.67
他们用两种模型①y=bx+a,②y=aebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:
x
y
7
30
1464.24
364
(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由.
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除:(ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程;(ⅱ)广告投入量x=18时,(1)中所选模型收益的预报值是多少?
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为:
解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.
(2)(ⅰ)剔除异常数据,即3月份的数据后,得
x=×(7×6-6)=7.2,
y=×(30×6-31.8)=29.64.
(ⅱ)把x=18代入(ⅰ)中所求回归方程得=3×18+8.04=62.04,故预报值为62.04万元.
4.每年10月中上旬是小麦的最佳种植时间,但小麦的发芽会受到土壤、气候等多方面因素的影响.某科技兴趣小组为了解昼夜温差的大小与小麦发芽的多少之间的关系,在不同的温差下统计了100颗小麦种子的发芽数,得到了如下数据:
温差x(℃)
8
10
11
13
12
发芽数y(颗)
79
81
85
90
86
(1)请根据统计的最后三组数据,求出y关于x的线性回归方程=x+;
(2)若由(1)中的线性回归方程得到的估计值与前两组数据的实际值误差均不超过两颗,则认为线性回归方程是可靠的,试判断(1)中得到的线性回归方程是否可靠;
(3)若100颗小麦种子的发芽数为n颗,则记n%的发芽率,当发芽率为n%时,平均每亩地的收益为10n元,某农场有土地10万亩,小麦种植期间昼夜温差大约为9℃,根据(1)中得到的线性回归方程估计该农场种植小麦所获得的收益.
附:在线性回归方程=x+中,=
解:(1)∵x==12,y==87,
∴==,
由x+=y,即×12+=87,得=57,
∴线性回归方程为=x+57.
(2)当x=8时,=×8+57=77,与实际值79比较,误差没有超过两颗;
当x=10时,=×10+57=82,与实际值81比较,误差也没有超过两颗.
所以(1)中得到的线性回归方程=x+57是可靠的.
(3)由=x+57得,当x=9时,=79.5,即每亩地的收益大约为795元,所以该农场种植小麦所获得的收益大约为7950万元.
相关资料
更多