所属成套资源:2025版高考数学一轮总复习考点突破训练全套
2025高考数学一轮考点突破训练第九章概率与统计9.2成对数据的统计分析
展开
这是一份2025高考数学一轮考点突破训练第九章概率与统计9.2成对数据的统计分析,共12页。试卷主要包含了成对数据的统计相关性,一元线性回归模型及其应用,独立性检验等内容,欢迎下载使用。
例1
(1) 【多选题】已知变量,之间的经验回归方程为,且变量,之间的一组相关数据如下表所示,则下列说法正确的是( ABC )
A.
B. 由表格数据知该经验回归直线必过
C. 变量,呈正相关
D. 可预测当时,约为9.05
解:由题设,知,则.又,所以,正确.样本中心为,回归直线必过该点,正确.由回归方程,知,呈正相关,正确.,错误.故选.
(2) [2020年全国Ⅱ卷]某沙漠经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到成对样本数据,其中和分别表示第个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
①求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘地块数);
②求成对样本数据的样本相关系数(精确到);
③根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:样本相关系数,
解:①由已知,得样区这种野生动物数量的平均数,地块数为200.从而该地区这种野生动物数量的估计值为.
②成对样本数据 的样本相关系数
③分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.理由如下:由②知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
【点拨】①用样本相关系数可以衡量两个变量之间的相关关系的强弱,的绝对值越接近于1,表示两个变量的线性相关性越强,且的正负即表示两个变量相关性的正负.样本相关系数的取值范围是.②除了样本相关系数外,散点图也可以判断两个变量的相关关系.点分布在从左下角到右上角的区域时,两个变量呈正相关;点分布在从左上角到右下角的区域时,两个变量呈负相关.
变式1
(1) [教材题改编]如图是两个变量,的散点图,现对这两个变量进行样本数据分析.方案一:根据图中所有数据,得到经验回归方程,样本相关系数为.方案二:剔除点,根据剩下数据得到经验回归方程,样本相关系数为,则( D )
A. B.
C. D.
解:根据变量,的散点图,知变量,具有负线性相关关系,且点 异常.方案一中,没有剔除点,线性相关性弱些,成负相关;方案二中,剔除点,线性相关性强些,也是负相关.所以.故选.
(2) [2022年全国乙卷]某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
并计算得,,.
① 估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量.
解:设这棵树木平均一棵的根部横截面积为,平均一棵的材积量为.
根据题中数据,得,
② 求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到).
[答案]
由题意,知
.
③ 现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:样本相关系数,.
[答案]
设总根部面积和,总材积量为,则,故.
故该林区这种树木的总材积量的估计值为.
考点二 一元线性回归模型及其应用
命题角度1 经验回归方程及其应用
例2 某中学的数学课堂教改采用了“探究题型—强化训练—检测效果”的模式,并记录了某学生的探究题型时间(单位:)与检测效果的数据如表所示.
(1) 据统计表明,与之间具有线性相关关系,请用样本相关系数加以说明(若,则认为与有很强的线性相关关系,否则认为没有很强的线性相关关系);
解:因为,所以
.
所以
,
所以 与 之间具有较强的线性相关关系.
(2) 建立关于的经验回归方程,并预测该学生探究题型的检测效果.
附:经验回归直线中斜率和截距的最小二乘估计分别为,.
样本相关系数.
,,, 14.08.
[答案]
由题意,设,
则.
又,
所以关于的经验回归方程为.
当时,,即学生探究题型时间为的检测效果为6.3.
【点拨】①线性经验回归方程的重要应用是进行估计.②牢记求线性经验回归方程的步骤:第一步,列表;第二步,计算,,,或,;第三步,代入公式求,再利用求;第四步,写出经验回归方程.③求非线性经验回归方程的步骤:第一步,确定变量,作出散点图;第二步,根据散点图,选择恰当的拟合函数;第三步,变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出经验回归方程;第四步,分析拟合效果,通过计算决定系数或画残差图来判断拟合效果;第五步,根据相应的变换,写出非线性经验回归方程.
变式2 某科技公司对近十年来高科技研发投入情况分析调研,其研发投入(单位:亿元)的统计图如图1所示,其中年份代码,2, ,10分别指2013年,2014年, ,2022年.
图1
图2
现用两种模型A:,B:分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下值:
表中,.
(1) 根据图2,比较模型A,B的拟合效果,应选择哪个模型?并说明理由.
解:应选择模型B.理由如下:
由于模型B的残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型A的带状区域宽度窄,所以模型B的拟合精度更高,经验回归方程的预报精度相应越高,故选模型B比较合适.
(2) 根据(1)中所选模型,求关于的经验回归方程及该公司2028年高科技研发投入的预报值(回归系数精确到).
附:对于一组数据,, ,,其经验回归直线的斜率和截距的最小二乘估计分别为,.
[答案]
根据模型B,令,研发投入 与 可用线性回归来拟合,有.
则,所以.
则关于的经验回归方程为,
所以关于的经验回归方程为.
2028年,即当时,.
所以该公司2028年高科技研发投入的预报值为86.15亿元.
命题角度2 决定系数与残差
例3 某种农作物可以生长在滩涂和盐碱地,它的灌溉是将海水稀释后进行灌溉.某实验基地为了研究海水浓度对亩产量的影响,通过在试验田的种植实验,测得了该农作物的亩产量与海水浓度的数据如下表.
绘制散点图发现,可以用一元线性回归模型拟合亩产量与海水浓度之间的相关关系,用最小二乘法计算得与之间的经验回归方程为
.
(1) 求,,的值;
解:因为,
,
所以,即.
所以经验回归方程为.
所以,
.
,
(2) 统计学中常用决定系数来刻画回归效果,越大,回归效果越好,如假设,就说明预报变量的差异有是解释变量引起的.请计算决定系数(精确到),并指出亩产量的变化多大程度上是由浇灌海水浓度引起的?
附:残差,决定系数,其中.
[答案]
.
所以决定系数.
故亩产量的变化有是由海水浓度引起的.
【点拨】用决定系数来刻画回归效果,越大,说明模型拟合的效果越好.另外,计算也不能出错.
变式3
(1) 【多选题】在实际应用中,用经验回归方程中的估计一元线性回归模型中的,下列说法正确的有( BCD )
A. 随机误差的方差越小,用预报真实值的精度越低
B. 决定系数越接近于1,一元线性回归模型的拟合效果越好
C. 残差平方和越大,一元线性回归模型的拟合效果越差
D. 对于个成对样本数据,, ,,经验回归直线过成对样本数据的中心点
解:随机误差 的方差 越小,用 预报真实值 的精度越高,所以 错误.越接近于1,一元线性回归模型的拟合效果越好,所以正确.残差平方和越大,越小,一元线性回归模型的拟合效果越差,所以正确.经验回归直线过成对样本数据的中心点,即,所以正确.故选.
(2) 【多选题】某种产品的广告支出费用(单位:万元)与销售量(单位:万件)之间的对应数据如下表所示.
根据表中的数据,可得经验回归方程,,以下说法正确的是( AC )
A. 第三个样本点对应的残差
B. 在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
C. 该模型拟合效果较好
D. 用该经验回归方程可以很准确地预测广告费用为20万元时的销售量
解:由题意,得,.代入中,得,解得,故.所以,正确.由于,所以该回归模型拟合的效果比较好,故对应的残差图中残差点应该比较均匀地分布在水平的带状区域中,错误,正确.由于样本的取值范围会影响回归方程的使用范围,而广告费用20万元远大于表格中广告费用值,故用该经验回归方程不能准确地预测广告费用为20万元时的销售量,故错误.故选.
考点三 独立性检验
例4 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的列联表:
已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.
(1) 请将上面的列联表补充完整(不用写计算过程);
解:依题意,得喜欢打篮球的学生人数为.补全 列联表如下.
(2) 根据小概率值的独立性检验,能否推断喜爱打篮球与性别有关?
附:,其中.
[答案]
零假设为喜爱打篮球与性别无关.
由(1)得.
根据小概率值的独立性检验,我们推断不成立,即认为喜爱打篮球与性别有关,此推断犯错误的概率不大于0.05.
【点拨】①独立性检验的一般步骤:第一步,假设两个分类变量与没有关系;第二步,计算出的值;第三步,把的值与临界值比较,作出合理的判断.②独立性检验的注意事项:一是在列联表中注意事件的对应及相关值的确定,不可混淆;二是在实际问题中,独立性检验的结论仅是一种数学关系表述,得到的结论有一定的概率出错;三是对判断结果进行描述时,注意对象的选取要准确无误.
变式4 [2022年全国甲卷]甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
(1) 根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
解:根据表中数据,A共有班次260次,准点班次有240次.设“A公司长途客车准点”为事件,
则.
B共有班次240次,准点班次有210次.
设“B公司长途客车准点”为事件,
则.
估计A公司长途客车准点的概率为;B公司长途客车准点的概率为.
(2) 根据小概率值的独立性检验,能否推断客车是否准点与客车所属公司有关?
附:.
[答案]
零假设为 客车是否准点与客车所属公司无关.列联表如下.
.
根据小概率值的独立性检验,我们推断不成立,即认为客车是否准点与客车所属公司有关,此推论犯错误的概率不大于0.1.
2
3
4
5
2.5
3
4.5
样本号
1
2
3
4
5
6
7
8
9
10
总和
根部横截 面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
探究题型时间
1
2
3
4
5
6
7
检测效果
2.9
3.3
3.6
4.4
4.8
5.2
5.9
75
2.25
82.5
4.5
120
28.67
海水浓度
3
4
5
6
7
亩产量
0.57
0.53
0.44
0.36
0.30
残差
0.02
0
广告支出费用
2.2
2.6
4.0
5.3
5.9
销售量
3.8
5.4
7.0
11.6
12.2
性别
打篮球
合计
喜爱
不喜爱
男生
6
女生
10
合计
48
性别
打篮球
合计
喜爱
不喜爱
男生
22
6
28
女生
10
10
20
合计
32
16
48
0.100
0.050
0.010
0.001
2.706
3.841
6.635
10.828
公司
是否准点
准点班次数
未准点班次数
A
240
20
B
210
30
0.100
0.050
0.010
2.706
3.841
6.635
公司
是否准点
合计
准点班次数
未准点班次数
A
240
20
260
B
210
30
240
合计
450
50
500
相关试卷
这是一份2025版高考数学全程一轮复习练习第九章统计与成对数据的统计分析第三节成对数据的统计分析,共19页。试卷主要包含了了解样本相关系数的统计意义.,8 20,3 34,2 11,971 B.5,775 D.9,8+9等内容,欢迎下载使用。
这是一份2025高考数学一轮知识必备练习第九章概率与统计9.2成对数据的统计分析,共5页。试卷主要包含了通过实例,理解列联表的统计意义,1B,879等内容,欢迎下载使用。
这是一份2025高考数学一轮课时作业第九章概率与统计9.2成对数据的统计分析(附解析),共9页。