





【备战2023高考】数学考点全复习——第73讲《统计案例》精选题(新高考专用)
展开第73讲 统计案例
【基础知识回顾】
1. 变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2. 两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为y^=b^x+a^_,其中其中a^,b^是待定参数
(3)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3. 独立性检验
(1)2×2列联表
设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(2)独立性检验
利用随机变量K2(也可表示为χ2)的观测值k=(其中n=a+b+
c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
常用结论
(1)求解回归方程的关键是确定回归系数a^,b^,应充分利用回归直线过样本中心点 (x-,y-).
(2)根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
(3)根据回归方程计算的b^值,仅是一个预报值,不是真实发生的值.
1、根据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为y=bx+a,则( )
A. a>0,b>0 B. a>0,b<0
C. a<0,b>0 D. a<0,b<0
【答案】 B
【解析】 由表中数据画出散点图,如图.
由散点图可知b<0,a>0,选B.
2、为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:
收入x(万元)
8.2
8.6
10.0
11.3
11.9
支出y(万元)
6.2
7.5
8.0
8.5
9.8
根据上表可得回归直线方程y=bx+a,其中b=0.76,a=y--bx-.据此估计,该社区一户年收入为15万元家庭的年支出为( )
A. 11.4万元 B. 11.8万元
C. 12.0万元 D. 12.2万元
【答案】 B
【解析】 x-==10,y-==8,
∴a=8-0.76×10=0.4,
∴当x=15时,y=0.76×15+0.4=11.8(万元).
3、已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为y∧=0.95x+a∧,则a∧=
x
0
1
3
4
y
2.2
4.3
4.8
6.7
【答案】 2.6
【解析】 因为回归直线必过样本点的中心(x,y),又x=2,y=4.5,代入回归方程,得a∧=2.6.
4、为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025. 根据表中数据,得到K2的观测值k=≈4.844,则认为选修文科与性别有关系出错的可能性为
【答案】 5%
【解析】 K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
5、如表是2×2列联表,则表中的a,b的值分别为( )
y1
y2
总计
x1
a
8
35
x2
11
34
45
总计
b
42
80
A.27,38 B.28,38
C.27,37 D.28,37
【答案】A
【解析】a=35-8=27,b=a+11=27+11=38.
6、(2022·湘豫名校模拟)根据如表样本数据:
x
2
3
4
5
6
y
4
2.5
-0.5
-2
-3
得到的线性回归方程为=x+,则( )
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
【答案】B
【解析】由表中的数据可得,变量y随着x的增大而减小,则<0,
==4,
==0.2,
又线性回归方程=x+经过点(4,0.2),
可得>0.
7、某种产品的广告费支出x与销售额y(单位:万元)之间的关系如表:
x
2
4
5
6
8
y
30
40
60
50
70
y与x的线性回归方程为=6.5x+17.5,当广告支出6万元时,随机误差的残差为( )
A.-5 B.-5.5 C.-6 D.-6.5
【答案】 D
【解析】 由题意结合线性回归方程的预测作用可得,当x=6时,=6.5×6+17.5=56.5,则随机误差的残差为50-56.5=-6.5.
考向一 相关关系的判断
例1、观察图12 - 2 - 3所示的散点图,其中两个变量的相关关系判断正确的是( )
A.a为正相关,b为负相关,c为不相关
B.a为负相关,b为不相关,c为正相关
C.a为负相关,b为正相关,c为不相关
D.a为正相关,b为不相关,c为负相关
(2)下列命题中正确的为( )
A.相关系数r越大,两个变量的线性相关性越强
B.相关系数r越小,两个变量的线性相关性越弱
C.残差平方和越小的模型,拟合的效果越好
D.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
【答案】:(1)D (2)C
【解析】:(1)根据散点图,由相关性可知:
a中各点分布在从左下角到右上角的区域里,是正相关;
b中各点分布不是带状的,相关性不明确,所以不相关;
c中各点分布在从左上角到右下角的区域里,是负相关.
(2)相关系数的绝对值|r|越接近于1,两个变量的线性相关性越强,所以A,B错误;残差平方和越小的模型,拟合的效果就越好,所以C正确;用相关指数R2来刻画回归效果,R2越大(接近1),说明模型的拟合效果就越好,所以D错误.
变式1、利用独立性检验的方法调查大学生的性别与爱好某项运动是否有关,通过随机询问110名不同的大学生是否爱好某项运动,利用列联表,由计算可得,
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参照附表,得到的正确结论是( )
A.有99.5%以上的把握认为“爱好该项运动与性别无关”
B.有99.5%以上的把握认为“爱好该项运动与性别有关”
C.在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别有关”
D.在犯错误的概率不超过0.05%的前提下,认为“爱好该项运动与性别无关”
【答案】:B
变式2、(1)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )
A.x与y正相关,x与z负相关
B.x与y正相关,x与z正相关
C.x与y负相关,x与z负相关
D.x与y负相关,x与z正相关
【答案】 C
【解析】 因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.
(2)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2
【解析】 由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2
方法总结: (1)根据散点图确定.(2)用相关系数判断线性相关性的强弱;用残差平方和与相关指数判断拟合效果
考向二 线性回归方程
例2、已知变量与正相关,且由观测数据算得样本平均数,,则由该观测的数据算得的线性回归方程可能是
A. B.
C. D.
【答案】A
【解析】因为与正相关,排除选项C、D,又因为线性回归方程恒过样本点的中心,故排除选项B;故选A.
变式1、有下列数据:
下列四个函数中,模拟效果最好的为( )
A. B. C. D.
【答案】A
【解析】将,,代入四个选项,可得A模拟效果最好.
故选:A.
变式2、(2021·江苏常州市·高三期末)某公司在市场调查中,发现某产品的单位定价(单位:万元/吨)对月销售量(单位:吨)有影响.对不同定价和月销售量数据作了初步处理,
0.24
43
9
0.164
820
68
3956
表中.经过分析发现可以用来拟合与的关系.
(1)求关于的回归方程;
(2)若生产吨产品的成本为万元,那么预计价格定位多少时,该产品的月利润取最大值,求此时的月利润.
附:对于一组数据,,…,,其回归直线线的的斜率和截距的最小二乘估计分别为:,.
【解析】
(1)令,则,然后利用表中数据结合公式,分别求得即可.
(2)根据生产吨产品的成本为万元,建立月利润函数,利用基本不等式求解.
【详解】
(1)令,则,
则,
,
∴,
(2)月利润
(当且仅当即时取等号)
答:(1)关于的回归方程为;
(2)预计价格定位万元/吨时,该产品的月利润取最大值,最大值为万元.
变式3、(2021·重庆八中高三其他模拟)某机构为研究考生物理成绩与数学成绩之间的关系,从一次考试中随机抽取名考生的数据,统计如下表:
数学成绩
物理成绩
(1)由表中数据可知,有一位考生因物理缺考导致数据出现异常,剔除该组数据后发现,考生物理成绩与数学成绩之间具有线性相关关系,请根据这组数据建立关于的回归直线方程,并估计缺考考生如果参加物理考试可能取得的成绩;
(2)已知参加该次考试的名考生的物理成绩服从正态分布,用剔除异常数据后的样本平均值作为的估计值,用剔除异常数据后的样本标准差作为的估计值,估计物理成绩不低于分的人数的期望.
附:参考数据:
上表中的;表示样本中第名考生的数学成绩,;表示样本中第名考生的物理成绩,.参考公式:①对于一组数据:,其方差:.②对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为:,.③若随机变量服从,则,,.
【解析】
(1)设根据剔除后数据建立的关于的回归直线方程为,
剔除异常数据后的数学平均分为,
剔除异常数据后的物理平均分为,
则,
则,
所以所求回归直线方程为.
又物理缺考考生的数学成绩为,
所以估计其可能取得的物理成绩为.
(2)由题意知,
因为,
所以,
所以参加该次考试的名考生的物理成绩服从正态分布,
则物理成绩不低于分的概率为,
由题意可知,
所以物理成绩不低于分的人数的期望
.
方法总结:数据处理,要求结合散点图,初步建立线性回归的直观感知;
(1)依托数据,结合公式准确计算线性回归方程的相关系数值;
(2)根据线性回归方程,正确使用回归方程进行估计.
考向三 独立性检验
例3、在对人们休闲方式的一次调查中,根据数据建立如下的列联表:
看书
运动
合计
男
8
20
28
女
16
12
28
合计
24
32
56
根据表中数据,得到,所以我们至少有( )的把握判定休闲方式与性别有关系.(参考数据:,)
A.99% B.95% C.1% D.5%
【答案】B
【解析】结合题意和独立性检验的结论,由
,,
故这种判断出错的可能性至多为,即,
故我们至少有95%的把握判定休闲方式与性别有关系.
故选:B
变式1、某研究性学习小组调查研究学生使用智能手机对学习的影响,部分统计数据如表
(参考公式:,其中.)
附表:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
则下列选项正确的是( )
A.有的把握认为使用智能手机对学习有影响
B.有的把握认为使用智能手机对学习无影响
C.有的把握认为使用智能手机对学习有影响
D.有的把握认为使用智能手机对学习无影响
【答案】A
【解析】根据卡方公式求得,
,
该研究小组有的把握认为中学生使用智能手机对学生有影响,故选A.
变式2、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )
A.若的观测值为=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;
B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;
C.若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;
D.以上三种说法都不正确.
【答案】C
【解析】要正确认识观测值的意义,观测值同临界值进行比较得到一个概率,这个概率是推断出错误的概率,若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推判出现错误,故选C.
变式3、(2022·太原模拟)为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度(单位:μg/m3),整理数据得到下表:
SO2的浓度
空气质量等级
[0,50]
(50,150]
(150,475]
1(优)
28
6
2
2(良)
5
7
8
3(轻度污染)
3
8
9
4(中度污染)
1
12
11
若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”,根据上述数据,回答以下问题.
(1)估计事件“该市一天的空气质量好,且SO2的浓度不超过150”的概率;
(2)完成下面的2×2列联表,
SO2的浓度
空气质量
[0,150]
(150,475]
总计
空气质量好
空气质量不好
总计
根据(2)中的列联表,能否有99%的把握认为该市一天的空气质量与当天SO2的浓度有关?
【解析】(1)由表格可知,该市一天的空气质量好,且SO2的浓度不超过150的天数为28+6+5+7=46,则“该市一天的空气质量好,且SO2的浓度不超过150”的概率P==0.46.
(2)由表格数据可得列联表如下,
SO2的浓度
空气质量
[0,150]
(150,475]
总计
空气质量好
46
10
56
空气质量不好
24
20
44
总计
70
30
100
(3)K2=
≈8.936>6.635,
所以有99%的把握认为该市一天的空气质量与当天SO2的浓度有关.
方法总结:(1)根据题意完善2×2列联表,再计算观测值K2,对照临界值表即可得出结论;
(2)理解K2的运算过程以及在实际问题中的统计学意义.
考向四 统计案例与线性回归分析的综合
例4、某大学餐饮中心为了了解新生的饮食习惯,在某学院大一年级名学生中进行了抽样调查,发现喜欢甜品的占.这名学生中南方学生共人。南方学生中有人不喜欢甜品.(1)完成下列列联表:
喜欢甜品
不喜欢甜品
合计
南方学生
北方学生
合计
(2)根据表中数据,问是否有的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”;
(3)已知在被调查的南方学生中有名数学系的学生,其中名不喜欢甜品;有名物理系的学生,其中名不喜欢甜品.现从这两个系的学生中,各随机抽取人,记抽出的人中不喜欢甜品的人数为,求的分布列和数学期望.
附:.
0.15
0.100
0.050
0.025
0.010
2.072
2.706
3.841
5.024
6.635
【解析】(1)
喜欢甜品
不喜欢甜品
合计
南方学生
60
20
80
北方学生
10
10
20
合计
70
30
100
(2)由题意,
,
∴有的把握认为“南方学生和北方学生在选甜品的饮食习惯方面有差异”.
(3)的所有可能取值为0,1,2,3,
,
,
,
,
则的分布列为
0
1
2
3
所以的数学期望.
变式1、【吉林省梅河口市第五中学2017-2018学年高二下学期期末】某中学一名数学老师对全班50名学生某次考试成绩分男女生进行统计,其中120分(含120分)以上为优秀,绘制了如图所示的两个频率分布直方图:
(1)根据以上两个直方图完成下面的列联表:
性别 成绩
优秀
不优秀
总计
男生
女生
总计
(2)根据(1)中表格的数据计算,你有多大把握认为学生的数学成绩与性别之间有关系?
2.072
2.706
3.841
5.024
6.635
7.879
10.828
0.15
0.10
0.05
0.025
0.010
0.005
0.001
附:,其中.
【解析】(1)
性别 成绩
优秀
不优秀
总计
男生
13
10
23
女生
7
20
27
总计
20
30
50
(2)由(1)中表格的数据知,,
∵ ,∴ 有95%的把握认为学生的数学成绩与性别之间有关系.
方法总结:统计案例与线性回归分析的综合往往涉及到直方图、概率等综合性问题,对于此类问题可以从以下两个方面入手:1、理解直方图具体时间频率与概率的对应关系,独立事件的概率计算过程;理解列联表的数据生成,以及使用公式进行基本运算,学会利用运算结果进行简单的数据分析;2、数学期望是离散型随机变量中重要的数学概念,反映随机变量取值的平均水平.求解离散型随机变量的分布列、数学期望时,首先要分清事件的构成与性质,确定离散型随机变量的所有取值,然后根据概率类型选择公式,计算每个变量取每个值的概率,列出对应的分布列,最后求出数学期望.正态分布是一种重要的分布,之前考过一次,尤其是正态分布的3σ原则.
1、【2020年新课标1卷理科】某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:°C)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据得到下面的散点图:
由此散点图,在10°C至40°C之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A. B.
C. D.
【答案】D
【解析】
【分析】
根据散点图的分布可选择合适的函数模型.
【详解】
由散点图分布可知,散点图分布在一个对数函数的图象附近,
因此,最适合作为发芽率和温度的回归方程类型的是.
故选:D.
2、(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品
二级品
总计
甲机床
150
50
200
乙机床
120
80
200
总计
270
130
400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:K2=,n=a+b+c+d.
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解 (1)根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床生产的产品中一级品的频率是=0.6.
(2)根据题表中的数据可得
K2==≈10.256.
因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.
3、(2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400
人次>400
空气质量好
空气质量不好
附:K2=,
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
解 (1)由频数分布表可知,该市一天的空气质量等级为1的概率为=0.43;
空气质量等级为2的概率为=0.27;
空气质量等级为3的概率为=0.21;
空气质量等级为4的概率为=0.09.
(2)由频数分布表可知,一天中到该公园锻炼的平均人次的估计值为
=350.
(3)2×2列联表如下:
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
K2=≈5.820>3.841,
所以有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
4、【2020年新课标2卷理科】某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
【答案】(1);(2);(3)详见解析
【解析】
【分析】
(1)利用野生动物数量的估计值等于样区野生动物平均数乘以地块数,代入数据即可;
(2)利用公式计算即可;
(3)各地块间植物覆盖面积差异较大,为提高样本数据的代表性,应采用分层抽样.
【详解】
(1)样区野生动物平均数为,
地块数为200,该地区这种野生动物的估计值为
(2)样本(i=1,2,…,20)的相关系数为
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
5、【2020年新高考1卷(山东卷)】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了天空气中的和浓度(单位:),得下表:
(1)估计事件“该市一天空气中浓度不超过,且浓度不超过”的概率;
(2)根据所给数据,完成下面的列联表:
(3)根据(2)中的列联表,判断是否有的把握认为该市一天空气中浓度与浓度有关?
附:,
【答案】(1);(2)答案见解析;(3)有.
【解析】
【分析】
(1)根据表格中数据以及古典概型的概率公式可求得结果;
(2)根据表格中数据可得列联表;
(3)计算出,结合临界值表可得结论.
【详解】
(1)由表格可知,该市100天中,空气中的浓度不超过75,且浓度不超过150的天数有天,
所以该市一天中,空气中的浓度不超过75,且浓度不超过150的概率为;
(2)由所给数据,可得列联表为:
合计
64
16
80
10
10
20
合计
74
26
100
(3)根据列联表中的数据可得
,
因为根据临界值表可知,有的把握认为该市一天空气中浓度与浓度有关.
【备战2023高考】数学考点全复习——第64讲《章末检测九》精选题(新高考专用): 这是一份【备战2023高考】数学考点全复习——第64讲《章末检测九》精选题(新高考专用),文件包含备战2023高考数学考点全复习第64讲《章末检测九》精选题解析版docx、备战2023高考数学考点全复习第64讲《章末检测九》精选题原卷版docx等2份试卷配套教学资源,其中试卷共17页, 欢迎下载使用。
【备战2023高考】数学考点全复习——第72讲《正态分布》精选题(新高考专用): 这是一份【备战2023高考】数学考点全复习——第72讲《正态分布》精选题(新高考专用),文件包含备战2023高考数学考点全复习第72讲《正态分布》精选题解析版docx、备战2023高考数学考点全复习第72讲《正态分布》精选题原卷版docx等2份试卷配套教学资源,其中试卷共25页, 欢迎下载使用。
【备战2023高考】数学考点全复习——第65讲《排列与组合》精选题(新高考专用): 这是一份【备战2023高考】数学考点全复习——第65讲《排列与组合》精选题(新高考专用),文件包含备战2023高考数学考点全复习第65讲《排列与组合》精选题解析版docx、备战2023高考数学考点全复习第65讲《排列与组合》精选题原卷版docx等2份试卷配套教学资源,其中试卷共15页, 欢迎下载使用。