高考数学一轮复习 专题10.1 统计与统计案例(讲)
展开高考数学一轮复习策略
1、揣摩例题。
课本上和老师讲解的例题,一般都具有一定的典型性和代表性。要认真研究,深刻理解,要透过“样板”,学会通过逻辑思维,灵活运用所学知识去分析问题和解决问题,特别是要学习分析问题的思路、解决问题的方法,并能总结出解题的规律。
2、精练习题
复习时不要搞“题海战术”,应在老师的指导下,选一些源于课本的变式题,或体现基本概念、基本方法的基本题,通过解题来提高思维能力和解题技巧,加深对所学知识的深入理解。在解题时,要独立思考,一题多思,一题多解,反复玩味,悟出道理。
3、加强审题的规范性
每每大考过后,总有同学抱怨没考好,纠其原因是考试时没有注意审题。审题决定了成功与否,不解决这个问题势必影响到高考的成败。那么怎么审题呢? 应找出题目中的已知条件 ;善于挖掘题目中的隐含条件 ;认真分析条件与目标的联系,确定解题思路 。
4、重视错题
“错误是最好的老师”,但更重要的是寻找错因,及时进行总结,三五个字,一两句话都行,言简意赅,切中要害,以利于吸取教训,力求相同的错误不犯第二次。
专题10.1 统计与统计案例
新课程考试要求 | 1.抽样 (1)简单随机抽样 通过实例,了解简单随机抽样的含义及其解决问题的过程,掌握两种简单随机抽样方法:抽签法和随机数法.会计算样本均值和样本方差,了解样本与总体的关系. (2)分层随机抽样 通过实例,了解分层随机抽样的特点和适用范围,了解分层随机抽样的必要性,掌握各层样本量比例分配的方法.结合具体实例,掌握分层随机抽样的样本均值和样本方差. (3)抽样方法的选择 在简单的实际情境中,能根据实际问题的特点,设计恰当的抽样方法解决问题. 2.统计图表 能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性. 3.用样本估计总体 (1)结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义. (2)结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义. (3)结合实例,能用样本估计总体的取值规律. 4.成对数据的统计相关性 (1)结合实例,了解样本相关系数的统计含义. (2)结合实例,会通过相关系数比较多组成对数据的相关性. 5.一元线性回归模型 (1)结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法. (2)针对实际问题,会用一元线性回归模型进行预测. 6.2×2列联表 (1)通过实例,理解2×2列联表的统计意义. (2)通过实例,了解2×2列联表独立性检验及其应用. |
核心素养 | 本节涉及数学运算、数学建模、逻辑推理、数学抽象等核心数学素养. |
高考预测 | 命题的考查重点有: (1)统计图表; (2)频率分布图、表及其应用; (3)回归分析; (4)独立性检验的应用 |
【知识清单】
知识点一.随机抽样与用样本估计总体
1.简单随机抽样
(1)定义:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)常用方法:抽签法和随机数法.
2.分层抽样
(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围
当总体是由差异明显的几个部分组成时,往往选用分层抽样.
3.频率分布直方图
(1)纵轴表示,即小长方形的高=;
(2)小长方形的面积=组距×=频率;
(3)各个小方形的面积总和等于1.
4.频率分布表的画法
第一步:求极差,决定组数和组距,组距=;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;
第三步:登记频数,计算频率,列出频率分布表.
5.条形图、折线图及扇形图
(1)条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图.
(2)折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图.
(3)扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图.
6.中位数、众数、平均数的定义
(1)中位数
将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(2)众数
一组数据中出现次数最多的数据叫做这组数据的众数.
(3)平均数
一组数据的算术平均数即为这组数据的平均数,n个数据x1,x2,…,xn的平均数=(x1+x2+…+xn).
7.样本的数字特征
如果有n个数据x1,x2,…,xn,那么这n个数的
(1)标准差.
(2)方差.
[常用结论]
1.频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.
2.平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,则mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.
(2)若数据x1,x2,…,xn的方差为s2,则数据ax1+b,ax2+b,…,axn+b的方差为a2s2.
知识点二.变量间的相关关系与统计案例
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程为=x+,其中
,
(3)通过求的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
(1)2×2列联表
设X,Y为两个变量,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)如下:
| y1 | y2 | 总计 |
x1 | a | b | a+b |
x2 | c | d | c+d |
总计 | a+c | b+d | a+b+c+d |
(2)独立性检验
利用随机变量K2(也可表示为χ2)的观测值 (其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
[常用结论]
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
【考点分类剖析】
考点一 抽样方法
【典例1】(2020·上海·南汇县泥城中学高三月考)某校为了解学生学习数学的情况,采用分层抽样的方法从高一人、高二人、高三人中,抽取人进行问卷调查,则高一、高二、高三抽取的人数分别是( )
A.,, B.,, C.,, D.,,
【答案】B
【分析】
结合已知条件首先求出三个年级的总人数,然后利用样本容量分别乘以各个年级的抽样比即可求解.
【详解】
由题意可知,三个年级共有(人),
则高一抽取的人数为,
高二抽取的人数为,
高三抽取的人数为.
故选:B.
【典例2】(2019·山东省泰安实验中学高一开学考试)总体由编号为01,02,,29,30的30个个体组成,现从中9抽取一个容量为6的样本,请以随机数表第1行第3列开始,向右读取,则选出来的第6个个体的编号为( )
70 29 17 12 13 40 33 12 38 26 13 89 51 03
56 62 18 37 35 96 83 50 87 75 97 12 55 93
A.12 B.13 C.03 D.40
【答案】C
【解析】
从随机数表第行第列开始由左到右依次选取两个数字中小于30的编号依次为29,17,12,13,26,03,
则第6个个体的编号为26.
故选C.
【总结提升】
1.不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
2. 分层抽样的前提和遵循的两条原则
(1)前提:分层抽样使用的前提是总体可以分层,层与层之间有明显区别,而层内个体间差异较小,每层中所抽取的个体数可按各层个体数在总体的个体数中所占比例抽取.
(2)遵循的两条原则:
①将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;
②分层抽样为保证每个个体等可能入样,需遵循在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.
3. 两种抽样方法的特点、联系及适用范围
类别 | 共同点 | 各自特点 | 联系 | 适用范围 |
简单随机抽样 | ①抽样过程中每个个体被抽到的可能性相等; ②每次抽出个体后不再将它放回,即不放回抽样 | 从总体中逐个抽取 |
| 总体个数较少 |
分层 抽样 | 将总体分成几层,分层进行抽取 | 各层抽样时,采用简单随机抽样 | 总体由差异明显的几部分组成 |
【变式探究】
1.(2020·横峰中学高三其他(理))某中学高二年级共有学生2400人,为了解他们的身体状况,用分层抽样的方法从中抽取一个容量为80的样本,若样本中共有男生42人,则该校高二年级共有女生( )
A.1260 B.1230 C.1200 D.1140
【答案】D
【解析】
设女生总人数为:人,由分层抽样的方法可得:
抽取女生人数为:人,
所以,解得:
故选:D
2.下列抽取样本的方式属于简单随机抽样的个数为( )
①从无限多个个体中抽取100个个体作为样本.
②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.
③从20件玩具中一次性抽取3件进行质量检验.
④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.
A.0 B.1 C.2 D.3
【答案】A
【解析】
①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样.因为它是有放回抽样;③不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取;④不是简单随机抽样.因为不是等可能抽样.故选A.
【易错提醒】
1.应用简单随机抽样应注意的问题
(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.
(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.
2.分层抽样问题的类型及解题思路
(1)求某层应抽个体数量:按该层所占总体的比例计算.
(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算.
(3)分层抽样的计算应根据抽样比构造方程求解,其中“抽样比==”.
考点二 频率分布直方图的应用
【典例3】(2020·天津高考真题)从一批零件中抽取80个,测量其直径(单位:),将所得数据分为9组:,并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间内的个数为( )
A.10 B.18 C.20 D.36
【答案】B
【解析】
根据直方图,直径落在区间之间的零件频率为:,
则区间内零件的个数为:.
故选:B.
【例4】(2019·全国高考真题(理))为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成两组,每组100只,其中组小鼠给服甲离子溶液,组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记为事件:“乙离子残留在体内的百分比不低于”,根据直方图得到的估计值为.
(1)求乙离子残留百分比直方图中的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).
【答案】(1) ,;(2) ,.
【解析】
(1)由题得,解得,由,解得.
(2)由甲离子的直方图可得,甲离子残留百分比的平均值为,
乙离子残留百分比的平均值为
【规律方法】
(1)在频率分布直方图中,各小长方形的面积表示相应各组的频率,所有小长方形的面积的和等于1;
(2)×组距=频率;
(3)=频率,此关系式的变形为=样本容量,样本容量×频率=频数
【变式探究】
1.(2020·海南高三期中)为了评估某家快递公司的服务质量,某评估小组进行了客户满意度调查,从该公司参与调查的客户中随机抽取500名客户的评分,评分均在区间上,分组为,,,,,其频率分布直方图如图所示.规定评分在60分以下表示对该公司的服务质量不满意,则这500名客户中对该公司的服务质量不满意的客户的人数为( )
A.15 B.16 C.17 D.18
【答案】A
【解析】
由频率分布直方图可知,评分在区间上的频率为
,
所以评分在区间上的客户有(人),
即对该公司的服务质量不满意的客户有15人.
故选:A
2.(2017北京,文17)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),┄,[80,90],并整理得到如下频率分布直方图:
(Ⅰ)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;
(Ⅱ)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数;
(Ⅲ)已知样本中有一半男生的分数学.科网不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.
【答案】(Ⅰ)0.4;(Ⅱ)5人;(Ⅲ).
【解析】
(Ⅰ)根据频率分布直方图可知,样本中分数不小于70的频率为,所以样本中分数小于70的频率为.
所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.
(Ⅱ)根据题意,样本中分数不小于50的频率为,分数在区间内的人数为.学科%网
所以总体中分数在区间内的人数估计为.
【易错提醒】
频率分布直方图的纵坐标是,而不是频率
考点三 用样本的数字特征估计总体的数字特征
【典例5】【多选题】(2021·全国高考真题)有一组样本数据,,…,,由这组数据得到新样本数据,,…,,其中(为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样数据的样本极差相同
【答案】CD
【解析】
A、C利用两组数据的线性关系有、,即可判断正误;根据中位数、极差的定义,结合已知线性关系可判断B、D的正误.
【详解】
A:且,故平均数不相同,错误;
B:若第一组中位数为,则第二组的中位数为,显然不相同,错误;
C:,故方差相同,正确;
D:由极差的定义知:若第一组的极差为,则第二组的极差为,故极差相同,正确;
故选:CD
【典例6】(2019年高考全国Ⅱ卷文)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.
的分组 | |||||
企业数 | 2 | 24 | 53 | 14 | 7 |
(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;
(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)
附:.
【答案】(1)产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%;(2)这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.
【解析】(1)根据产值增长率频数分布表得,
所调查的100个企业中产值增长率不低于40%的企业频率为.
产值负增长的企业频率为.
用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.
(2),
,
,
所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.
【总结提升】
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
【变式探究】
1.(2019·全国高考真题(理))演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是
A.中位数 B.平均数
C.方差 D.极差
【答案】A
【解析】
设9位评委评分按从小到大排列为.
则①原始中位数为,去掉最低分,最高分,后剩余,
中位数仍为,A正确.
②原始平均数,后来平均数
平均数受极端值影响较大,与不一定相同,B不正确
③
由②易知,C不正确.
④原极差,后来极差可能相等可能变小,D不正确.
2.(2020·全国高考真题(文))设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为( )
A.0.01 B.0.1 C.1 D.10
【答案】C
【解析】
因为数据的方差是数据的方差的倍,
所以所求数据方差为
故选:C
【总结提升】
1.众数、中位数、平均数、方差的意义及常用结论
(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.
(2)方差的简化计算公式:s2=[(x+x+…+x)-n 2]或写成s2=(x+x+…+x)-2,即方差等于原数据平方的平均数减去平均数的平方.
2.主要命题角度:
(1)样本的数字特征与频率分布直方图交汇
(2)样本的数字特征与茎叶图交汇
①在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.
②茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据,因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数)等.
(3)样本的数字特征与优化决策问题交汇:利用样本的数字特征解决优化决策问题的依据
①平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
②用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
考点四 相关关系的判断
【典例7】【多选题】(2021·重庆巴蜀中学高三月考)中国茶文化博大精深,茶水的口感与茶叶类型和水的温度有关为了建立茶水温度随时间变化的函数模型,小明每隔1分钟测量一次茶水温度,得到若干组数据,,,,绘制了如图所示的散点图.小明选择了如下2个函数模型来拟合茶水温度随时间的变化情况,函数模型一:;函数模型二:,下列说法正确的是( )
A.变量与具有负的相关关系
B.由于水温开始降得快,后面降得慢,最后趋于平缓,因此模型二能更好的拟合茶水温度随时间的变化情况
C.若选择函数模型二,利用最小二乘法求得到的图象一定经过点
D.当时,通过函数模型二计算得,用温度计测得实际茶水温度为65.2,则残差为0.1
【答案】ABD
【分析】
根据题中所给散点图,根据正负相关的概念即可判断选项A;根据水温的变化情况,以及指数函数的单调性,即可判断B是否正确;根据最小二乘法可求出的回归方程一定经过,即可判断选项C是否正确;根据“残差=真实值-预测值”即可判断选项D是否正确.
【详解】
观察散点图,变量与具有负的相关关系,A正确;
由于函数模型二中的函数,在时,函数单调递减,可得B正确;
若选择函数模型二,利用最小二乘法求出的回归方程一定经过,C错误;
由于残差=真实值-预测值,因此残差为,故D正确.
故选: ABD.
【总结提升】
判断相关关系的2种方法
(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.
【变式探究】
(2019·郑州市第一次质量预测)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份 | 1 | 2 | 3 | 4 | 5 | 6 |
人均销售额 | 6 | 5 | 8 | 3 | 4 | 7 |
利润率(%) | 12.6 | 10.4 | 18.5 | 3.0 | 8.1 | 16.3 |
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
【答案】A
【解析】画出利润率与人均销售额的散点图,如图.由图可知利润率与人均销售额成正相关关系,故选A.
考点五 线性回归方程、回归分析
【典例8】(2021·河北·藁城新冀明中学高三月考)某设备的使用年限x与所支出的维修费用y呈线性相关,部分统计数据如下表:
使用年限x(单位:年) | 2.5 | 3 | 4 | 5 | 5.5 |
维修费用y(单位:万元) | 2 | 4 | 5.5 | 6.5 | 7
|
(1)根据上表可得y关于x的回归直线方程
(2)据此模型预测,若使用年限为16年,估计维修费用为多少万元.
【答案】
(1)
(2)23.5
【分析】
(1)先求得,写出回归直线方程;
(2)将代入回归方程求解.
(1)
解:,
则,,
所以回归直线方程为;
(2)
将代入回归方程得:.
【典例9】(2020·全国高考真题(理))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
【答案】(1);(2);(3)详见解析
【解析】
(1)样区野生动物平均数为,
地块数为200,该地区这种野生动物的估计值为
(2)样本(i=1,2,…,20)的相关系数为
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从俄各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构得以执行,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
【总结提升】
一、线性回归分析问题的类型及解题方法
1.求线性回归方程
(1)利用公式,求出回归系数,.
(2)待定系数法:利用回归直线过样本点的中心求系数.
2.利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
3.利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
二、模型拟合效果的判断
(1)残差平方和越小,模型的拟合效果越好.
(2)相关指数R2越大,模型的拟合效果越好.
(3)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
【变式探究】
1. (2017·山东高考真题(理))为了研究某班学生的脚长(单位厘米)和身高(单位厘米)的关系,从该班随机抽取名学生,根据测量数据的散点图可以看出与之间有线性相关关系,设其回归直线方程为.已知,,.该班某学生的脚长为,据此估计其身高为( )
A. B. C. D.
【答案】C
【解析】
由已知,
, 故选C.
2. (2020·河南郑州一中高三期中(文))新型冠状病毒肺炎COVID-19疫情发生以来,在世界各地逐渐蔓延.在全国人民的共同努力和各级部门的严格管控下,我国的疫情已经得到了很好的控制.然而,小王同学发现,每个国家在疫情发生的初期,由于认识不足和措施不到位,感染人数都会出现快速的增长.下表是小王同学记录的某国连续8天每日新型冠状病毒感染确诊的累计人数.
日期代码x | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
累计确诊人数y . | 4 | 8 | 16 | 31 | 51 | 71 | 97 | 122 |
为了分析该国累计感染人数的变化趋势,小王同学分别用两杆模型:①,②对变量x和y的关系进行拟合,得到相应的回归方程并进行残差分析,残差图如下(注:残差):经过计算得,,,,其中,.
(1)根据残差图,比较模型①,②的拟合效果,应该选择哪个模型?并简要说明理由;
(2)根据(1)问选定的模型求出相应的回归方程(系数均保留两位小数);
(3)由于时差,该国截止第9天新型冠状病毒感染确诊的累计人数尚未公布.小王同学认为,如果防疫形势没有得到明显改善,在数据公布之前可以根据他在(2)问求出的回归方程来对感染人数做出预测,那么估计该地区第9天新型冠状病毒感染确诊的累计人数是多少?
附:回归直线的斜率和截距的最小二乘估计公式分别为:
,
【答案】(1)选择模型①,理由见解析;(2);(3)157人.
【解析】
(1)选择模型①.理由如下:根据残差图可以看出,模型①的估计值和真实值相对比较接近,模型②的残差相对较大一些,所以模型①的拟合效果相对较好
(2)由(1),知y关于x的回归方程为,令,则.
由所给数据得:,
.
,
∴y关于x的回归方程为
(3)将代入上式,得(人)
所以预测该地区第9天新型冠状病毒感染确诊的累计人数为157人.
【总结提升】
一般地,建立回归模型的基本步骤为:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程).
(4)按一定规则(如最小二乘法)估计回归方程中的参数.
(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.
考点六 独立性检验
【典例10】(2021·全国高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
| 一级品 | 二级品 | 合计 |
甲机床 | 150 | 50 | 200 |
乙机床 | 120 | 80 | 200 |
合计 | 270 | 130 | 400 |
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050 | 0.010 | 0.001 | |
k | 3.841 | 6.635 | 10.828 |
【答案】(1)75%;60%;
(2)能.
【解析】
本题考查频率统计和独立性检验,属基础题,根据给出公式计算即可
【详解】
(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
(2),
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
【规律方法】
1.2个明确
(1)明确两类主体;
(2)明确研究的两个问题.
2. 2个关键
(1)准确画出2×2列联表;
(2)准确求解K2
3. 3个步骤
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=,计算K2的值;
(3)查表比较K2与临界值的大小关系,作统计判断
【变式探究】
(2020·安徽高三其他模拟(文))某市一隧道由于机动车常在隧道内变道、超速,进而引发交通事故,交管部门在该隧道内安装了监控测速装置,并将该隧道某日所有车辆的通行速度进行统计,如图所示.已知通过该隧道车辆的平均速度为.
(1)求,的值,并估计这一天通过该隧道车辆速度的中位数;
(2)为了调查在该隧道内安装监控测速装置的必要性,研究人员随机抽查了通过该隧道的200名司机,得到的答复统计如表所示,判断是否有的把握认为对安装监控测速装置的态度与司机的性别相关.
| 认为安装监控测速装置十分必要 | 认为安装监控测速装置没有必要 |
男司机 | 70 | 30 |
女司机 | 50 | 50 |
附:,其中.
0.100 | 0.050 | 0.010 | 0.001 | |
2.706 | 3.841 | 6.635 | 10.828 |
【答案】(1),,中位数为;(2)有的把握认为对安装监控测速装置的态度与司机的性别相关.
【解析】
(1)根据频率和为以及平均数为可以建立起关于,的二元一次方程,从而可以求出,的值,进而可以由频率分布直方图求出中位数;
(2)根据的计算公式计算出的值,与临界值比较,即可得出结论.
详解:
(1)根据频率和为可得:,
化简为,①
又,
所以,②
由①②联立得,,;
由于前两块矩形的面积分别为和,
故所求的中位数为;
(2)根据表中数据,计算,
所以有的把握认为对安装监控测速装置的态度与司机的性别相关.
考点六 统计数据与图表在实际问题中的应用
【典例11】(2018·全国高考真题(文))某地区经过一年的新农村建设,农村的经济收入增加了一倍.实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下饼图:
则下面结论中不正确的是
A.新农村建设后,种植收入减少
B.新农村建设后,其他收入增加了一倍以上
C.新农村建设后,养殖收入增加了一倍
D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
【答案】A
【解析】
首先设出新农村建设前的经济收入为M,根据题意,得到新农村建设后的经济收入为2M,之后从图中各项收入所占的比例,得到其对应的收入是多少,从而可以比较其大小,并且得到其相应的关系,从而得出正确的选项.
详解:
设新农村建设前的收入为M,而新农村建设后的收入为2M,
则新农村建设前种植收入为0.6M,而新农村建设后的种植收入为0.74M,所以种植收入增加了,所以A项不正确;
新农村建设前其他收入我0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B项正确;
新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,所以增加了一倍,所以C项正确;
新农村建设后,养殖收入与第三产业收入的综合占经济收入的,所以超过了经济收入的一半,所以D正确;
故选A.
【典例12】(2021·河南·高三月考(文))随着互联网和物流行业的快速发展,快递业务已经成为人们日常生活当中不可或缺的重要组成部分.下图是2012—2020年我国快递业务量变化情况统计图,则这9年我国快递业务量同比增速的中位数为( )
A.30.5% B.48.0%
C.51.4% D.51.9%
【答案】B
【分析】
将各年我国快递业务量同比增速按从小到大排列,结合中位数的概念即可求出结果.
【详解】
将各年我国快递业务量同比增速按从小到大排列得
%,%,%,%,%,%,%,%,%,
故中位数为第5个数%.
故选:B.
【规律方法】
条形图、折线图及扇形图
(1)条形图:建立直角坐标系,用横轴(横轴上的数字)表示样本数据类型,用纵轴上的单位长度表示一定的数量,根据每个样本(或某个范围内的样本)的数量多少画出长短不同的等宽矩形,然后把这些矩形按照一定的顺序排列起来,这样一种表达和分析数据的统计图称为条形图.
(2)折线图:建立直角坐标系,用横轴上的数字表示样本值,用纵轴上的单位长度表示一定的数量,根据样本值和数量的多少描出相应各点,然后把各点用线段顺次连接,得到一条折线,用这种折线表示出样本数据的情况,这样的一种表示和分析数据的统计图称为折线图.
(3)扇形图:用一个圆表示总体,圆中各扇形分别代表总体中的不同部分,每个扇形的大小反映所表示的那部分占总体的百分比的大小,这样的一种表示和分析数据的统计图称为扇形图.
【变式探究】
1.(2020·西城·北京铁路二中高三期中)我国新冠肺炎疫情进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,给出下列四个结论:
① 第3天至第11天复工复产指数均超过80%;
② 这11天期间,复产指数增量大于复工指数的增量;
③ 第9天至第11天复产指数增量大于复工指数的增量;
④ 第1天至第3天复工指数的方差大于第2天至第4天复工指数的方差.
其中所有正确结论的序号是____________________.
【答案】①③
【解析】
由图像可得,第3天至第11天复工复产指数均超过80%,故①正确;
由图像可得,第1天复产指数与复工指数的差大于第11天复产指数与复工指数的差,所以这11天期间,复产指数增量小于复工指数的增量,故②错误;
由图像可得,第9天至第11天复产指数增量大于复工指数的增量;故③正确;
由图像可得,第1天至第3天复工指数波动较小,第2天至第4天复工指数波动较大,所以第1天至第3天复工指数的方差小于第2天至第4天复工指数的方差,故④错误.
故答案为:①③
2.(多选) (2021·全国·高三月考)在新冠疫情期间,全国人民万众一心,众志成城,在抓防控疫情同时,又能促进复工复产.为了响应政府号召,积极恢复生产,某市相关部门对本市个大型企业的复工情况进行了调查,调查结果如图所示,则下列说法正确的是( )
A.其他情况的企业比例为
B.从调查的大型企业中任选一个,该企业是暂未全面恢复生产的概率为
C.不超过个企业倾向于部分岗位恢复生产
D.部分岗位恢复生产或暂未复工的企业超过个
【答案】AD
【分析】
根据饼图中的数据逐项判断即可.
【详解】
解:对A,,故A正确;
对B,暂未全面恢复生产包括部分岗位恢复生产和暂未复工以及其他,占比为,故对应概率为,故B错误;
对C,倾向于部分岗位恢复生产的企业个数为(个),故C错误;
对D,部分岗位恢复生产或暂未复工的企业个数为(个),故D正确.
故选:AD.
新高考数学一轮复习题型归纳讲义专题16统计与统计案例 16.2统计案例(含解析): 这是一份新高考数学一轮复习题型归纳讲义专题16统计与统计案例 16.2统计案例(含解析),共24页。试卷主要包含了2 统计案例,7x+0,5,2,85,5t,,32,tiyi=40,33﹣0,83,76等内容,欢迎下载使用。
2024届高考数学复习第一轮讲练测专题10.1 统计与统计案例 学生版: 这是一份2024届高考数学复习第一轮讲练测专题10.1 统计与统计案例 学生版,共11页。
高考数学一轮复习 专题10.1 统计与统计案例(练): 这是一份高考数学一轮复习 专题10.1 统计与统计案例(练),文件包含专题101统计与统计案例练教师版docx、专题101统计与统计案例练学生版docx等2份试卷配套教学资源,其中试卷共38页, 欢迎下载使用。