考向38统计与统计案例(重点)-备战2023年高考数学一轮复习考点微专题(全国通用)(解析版)
展开
这是一份考向38统计与统计案例(重点)-备战2023年高考数学一轮复习考点微专题(全国通用)(解析版),共63页。试卷主要包含了,得如下茎叶图,下列说法正确的序号是等内容,欢迎下载使用。
考向38 统计与统计案例
1.(2022·全国甲(文T2)(理T2))某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则( )
A.讲座前问卷答题的正确率的中位数小于
B.讲座后问卷答题的正确率的平均数大于
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
【答案】B
【解析】讲座前中位数为,所以错;
讲座后问卷答题的正确率只有一个是个,剩下全部大于等于,所以讲座后问卷答题的正确率的平均数大于,所以B对;
讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,所以C错;
讲座后问卷答题的正确率的极差为,
讲座前问卷答题的正确率的极差为,所以错.
故选:B.
2.(2022·北京·高考真题)在北京冬奥会上,国家速滑馆“冰丝带”使用高效环保的二氧化碳跨临界直冷制冰技术,为实现绿色冬奥作出了贡献.如图描述了一定条件下二氧化碳所处的状态与T和的关系,其中T表示温度,单位是K;P表示压强,单位是.下列结论中正确的是( )
A.当,时,二氧化碳处于液态
B.当,时,二氧化碳处于气态
C.当,时,二氧化碳处于超临界状态
D.当,时,二氧化碳处于超临界状态
【答案】D
【解析】当,时,,此时二氧化碳处于固态,故A错误.
当,时,,此时二氧化碳处于液态,故B错误.
当,时,与4非常接近,故此时二氧化碳处于固态,对应的是非超临界状态,故C错误.
当,时,因, 故此时二氧化碳处于超临界状态,故D正确.
故选:D
3.(2022·全国甲(文)T)(2022·全国甲(文)T17)甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数
未准点班次数
A
240
20
B
210
30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
0.100
0.050
0.010
2.706
3.841
6.635
【答案】(1)A,B两家公司长途客车准点的概率分别为, (2)有
【解析】(1)根据表中数据,A共有班次260次,准点班次有240次,
设A家公司长途客车准点事件为M,则;
B共有班次240次,准点班次有210次,设B家公司长途客车准点事件为N,
则.
A家公司长途客车准点的概率为;B家公司长途客车准点的概率为.
(2)列联表
准点班次数
未准点班次数
合计
A
240
20
260
B
210
30
240
合计
450
50
500
=,
根据临界值表可知,有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
4.(2022·全国乙文T4)分别统计了甲、乙两位同学周的各周课外体育运动时长(单位:),得如下茎叶图:
则下列结论中错误的是
A.甲同学周课外体育运动时长的样本中位数为
B.乙同学周课外体育运动时长的样本平均数大于
C.甲同学周课外体育运动时长大于的概率的估计值大于
D.乙同学周课外体育运动时长大于的概率的估计值大于
【答案】C
【解析】令甲、乙的数据代表符号分别为,,
则甲同学的样本中位数为,A正确;
以为参考值,乙同学的样本平均数为
,B正确;
由茎叶图中数据可知,所以C错误;
,所以D正确.
5.(2022·全国乙(文T19)(理T19) 某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截面积
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
【答案】(1);(2)(3)
【解析】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)
则
(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为
6.(2022·新高考Ⅰ卷T20)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:
不够良好
良好
病例组
40
60
对照组
10
90
(1)能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?
(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”.与的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.
(ⅰ)证明:;
(ⅱ)利用该调查数据,给出的估计值,并利用(ⅰ)的结果给出R的估计值.
附,
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)答案见解析 (2)(i)证明见解析;(ii);
【解析】(1)由已知,
又,,
所以有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异.
(2)(i)因为,
所以
所以,
(ii) 由已知,,
又,,
所以
7.(2022·全国·高考真题)在某地区进行流行病学调查,随机调查了100位某种疾病患者的年龄,得到如下的样本数据的频率分布直方图:
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值为代表);
(2)估计该地区一位这种疾病患者的年龄位于区间的概率;
(3)已知该地区这种疾病的患病率为,该地区年龄位于区间的人口占该地区总人口的.从该地区中任选一人,若此人的年龄位于区间,求此人患这种疾病的概率.(以样本数据中患者的年龄位于各区间的频率作为患者的年龄位于该区间的概率,精确到0.0001).
【答案】(1)岁;(2);(3).
【解析】(1)平均年龄
(岁).
(2)设{一人患这种疾病的年龄在区间},所以
.
(3)设“任选一人年龄位于区间[40,50)”,“从该地区中任选一人患这种疾病”,
则由已知得:
,
则由条件概率公式可得
从该地区中任选一人,若此人的年龄位于区间,此人患这种疾病的概率为.
1.分层抽样的操作步骤:
①将总体按一定标准进行分层;
②计算各层的个体数与总体数的比,按各层个体数占总体数的比确定各层应抽取的样本容量;
③在每一层进行抽样(可用简单随机抽样或系统抽样)。
2.进行分层抽样的相关计算时,常利用以下关系式巧解:
①=;
②总体中某两层的个体数之比等于样本中这两层抽取的个体数之比。
3.频率分布直方图是表达和分析数据的重要工具,破解此类频率分布直方图与数列相交汇题的关键:一是会求频率,即会观图、读数据,利用频率分布直方图中每一个小矩形的高乘以组距求出这一组的频率;二是会求频数,利用频率乘以样本容量,即可求出样本数据落在对应区间上的频数。
4.茎叶图的应用
(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据。通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等。
(2)给定两组数据的茎叶图,比较数字特征时,“重心”下移者平均数较大,数据集中者方差较小。
5.样本方差的计算依据是方差的计算公式s2=[(x1-)2+(x2-)2+…+(xn-)2]。
6.用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似值。实际应用时,需先计算样本数据的平均数,分析平均水平,再计算方差(标准差)分析稳定情况。
7.若给出图形,一方面可以由图形得到相应的样本数据,再计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性大小比较方差(标准差)的大小。
8.判定相关关系的两种方法:
(1)散点图法:如果所有的样本点都落在某一曲线附近,变量之间就有相关关系。如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系。
(2)相关系数法:利用相关系数判定,当|r|越趋近于1时线性相关性越强。
9.回归分析题的关键:
(1)会利用相关系数的公式,求出相关系数,并明晰相关系数r的意义;
(2)会利用回归直线的斜率与截距的公式,求出回归系数,,从而得线性回归方程=x+;三是会预测预报变量的值,只需读懂题意,把x取的某一个值代入回归方程=x+中,即可求出y的估计值。
10独立性检验的一般步骤
(1)根据样本数据制成2×2列联表。
(2)根据公式K2=计算K2的观测值k。
(3)比较k与临界值的大小关系,作统计推断。
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,).
2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
1.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
2.注意线性回归方程中一次项系数为,常数项为,这与一次函数的习惯表示不同.
3.应明确R2越接近于1,表示回归效果越好.
一、单选题
1.甲乙两工厂生产某种产品,抽取连续5个月的产品生产产量(单位:件)情况如下:甲:80、70、100、50、90;乙:60、70、80、55、95,则下列说法中正确的是( )
A.甲平均产量高,甲产量稳定 B.甲平均产量高,乙产量稳定
C.乙平均产量高,甲产量稳定 D.乙平均产量高,乙产量稳定
【答案】B
【解析】对于甲:可得平均数
方差
同理对于乙:可得平均数,方差
∵
∴甲平均产量高,乙产量稳定
故选:B.
2.2021年,面对复杂严峻的国际环境和国内疫情散发等多重考验,在以习近平同志为核心的党中央坚强领导下,各地区各部门认真贯彻落实党中央、国务院决策部署,坚持稳中求进工作总基调,科学统筹疫情防控和经济社会发展,扎实做好“六稳”工作,全面落实“六保”任务,加强宏观政策跨周期调节,加大实体经济支持力度,国民经济持续恢复发展,改革开放创新深入推进,民生保障有力有效,构建新发展格局迈出新步伐,高质量发展取得新成效,实现“十四五”良好开局.据图1、图2判断,下列说法正确的是( )
A.2021年3月至9月的社会消费品零售总额逐步下降
B.2021年3月至9月的社会消费品零售总额增速逐月递减
C.2021年第1季度至第4季度国内生产总值逐渐减少
D.2021年第1季度至第4季度国内生产总值增速(季度同比)逐步放缓
【答案】D
【解析】根据社会消费品零售总额增速折线图可知,2021年3月至9月的社会消费品零售总额相比去年同期涨幅下降,不能得出社会消费品零售总额逐步下降,故A错误;
2021年8月的社会消费品零售总额增速(季度同比)是2.5%而9月的社会消费品零售总额增速(季度同比)是4.4%,因此说2021年3月至9月的社会消费品零售总额增速逐月递减是不对的,故B错误;
由国内生产总值增速折线图可知,2021年第1季度至第4季度国内生产总值增速(季度同比)逐步放缓,但不能判断2021年第1季度至第4季度国内生产总值逐渐减少,故C错D正确.
故选:D.
3.某学校举行诗歌朗诵比赛,10位评委对甲、乙两位同学的表现打分,满分为10分,将两位同学的得分制成如下茎叶图,其中茎叶图茎部分是得分的个位数,叶部分是得分的小数,则下列说法错误的是( )
A.甲同学的平均分大于乙同学的平均分
B.甲、乙两位同学得分的极差分别为2.4和1
C.甲、乙两位同学得分的中位数相同
D.甲同学得分的方差更小
【答案】D
【解析】对于甲,
对于乙,故正确.
甲的极差,乙的极差故正确.
甲得分的中位数,乙得分的中位数,故正确.
对于甲,,
对于乙,
故错误.
故选.
4.变量之间有如下对应数据:
3
4
5
6
7
13
11
10
8
7
已知变量与呈线性相关关系,且回归方程为,则的值是( )A. B. C. D.
【答案】D
【解析】由题意可知,,,
则样本点的中心,代入,即,解得.
所以的值是.
故选:D.
5.下列说法正确的序号是( )
①在回归直线方程中,当解释变量每增加一个单位时,预报变量平均增加0.8个单位;
②利用最小二乘法求回归直线方程,就是使得最小的原理;
③已知,是两个分类变量,若它们的随机变量的观测值越大,则“与有关系”的把握程度越小;
④在一组样本数据,,…,(,,,…,不全相等)的散点图中,若所有样本都在直线上,则这组样本数据的线性相关系数为.
A.①③ B.①② C.②④ D.③④
【答案】B
【解析】对于①,在回归直线方程 中, 当解释变量 每增加一个单位时, 预报变量平均增加 0.8个单位,故①正确;
对于②,用离差的平方和,即:作为总离差, 并使之达到最小;这样回归直线就是所有直线中取最小值的那一条。由于平方又叫二乘方, 所以这种使 “离差平方和为最小”的方法叫做最小二乘法;所以利用最小二乘法求回归直线方程,就是使得最小的原理;故②正确;
对于③,对分类变量 与 , 对它们的随机变量 的观测值 来说,越小,则“与 有 关系”的把握程度越小,故③错误;
对于④,相关系数反映的是两变量之间线性相关程度的强弱,与回归直线斜率无关,题中样本数据的线性相关系数为, 故④错误.
故选:B.
6.如图1为某省2019年1~4月份快递业务量统计图,图2为该省2019年1~4月份快递业务收入统计图,对统计图理解不正确的是( )
A.2019年1~4月份快递业务量3月份最高,2月份最低,差值接近2000万件
B.从1~4月份来看,业务量与业务收入有波动,但整体保持高速增长
C.从两图中看,增量与增长速度并不完全一致,但业务量与业务收入变化高度一致
D.2019年1~4月份快递业务量同比增长率均超过50%,在3月份最高,和春节后网购迎来喷涨有关
【答案】B
【解析】从图(1)的柱形图可得2019年1~4月份快递业务量3月份最高,2月份最低,
3月份比2月份高4397-2411=1986,差值接近2000万件,故A正确.
从1~4月份来看,业务量与业务收入有波动,结合图(1)(2)中的柱形图可得业务量与业务收入在2月份和4月份均下降,故B错误.
从两图中柱状图可得业务量与业务收入变化高度一致,但业务量2月份同比增长,而业务收入2月份同比增长,因此增量与增长速度并不完全一致,故C正确.
从图(1)中可得2019年1~4月份快递业务量同比增长率均超过50%,在3月份最高,这的确和春节后网购迎来喷涨有关,故D正确.
故选:B.
7.某市教育局为得到高三年级学生身高的数据,对高三年级学生进行抽样调查,随机抽取了名学生,他们的身高都在,,,,五个层次内,分男、女生统计得到以下样本分布统计图,则( )
A.样本中层次的女生比相应层次的男生人数多
B.估计样本中男生身高的中位数比女生身高的中位数大
C.层次的女生和层次的男生在整个样本中频率相等
D.样本中层次的学生数和层次的学生数一样多
【答案】B
【解析】设样本中女生有人,则男生有人,
设女生身高频率分布直方图中的组距为
由频率分布直方图的性质可得,
所以,
所以女生身高频率分布直方图中层次频率为20%,层次频率为30%,层次频率为25%,层次频率为15%,层次频率为10%
所以样本中层次的女生人数为,男生人数为,由于的取值未知,所以无法比较层次中男,女生人数,A错误;
层次女生在女生样本数中频率为15%,所以在整个样本中频率为,
层次男生在男生样本数中频率为15%,所以在整个样本中频率为,
由于的取值未知,所以无法比较层次的女生和层次的男生在整个样本中频率,C错误;
样本中层次的学生数为,
样本中层次的学生数为,
由于的取值未知,所以无法比较样本中层次的学生数和层次的学生数的大小,D错,
女生中,两个层次的频率之和为50%,所以女生的样本身高中位数为,层次的分界点,而男生,两个层次的频率之和为35%,,,两个层次的频率之和为65%,显然中位数落在C层次内,所以样本中男生身高的中位数比女生身高的中位数大,B正确;
故选:B.
8.从某中学甲、乙两班各随机抽取10名同学,测量他们的身高(单位:),所得数据用茎叶图表示如下,由此可估计甲、乙两班同学的身高情况,则下列结论正确的是( )
A.甲乙两班同学身高的极差不相等 B.甲班同学身高的平均值较大
C.甲班同学身高的中位数较大 D.甲班同学身高在175以上的人数较多
【答案】A
【解析】对于A,甲班同学身高的极差为182−157=25,乙班同学身高的极差为183−159=24,所以甲乙两班同学身高的极差不相等,故A正确;
对于B,甲班同学身高的平均值为,乙班同学身高的平均值为,所以甲班同学身高的平均值较小,故B错误;
对于C,甲班同学身高的中位数为=168,乙班同学身高的中位数为=171.5,所以甲班同学身高的中位数较小,故C错误;
对于D,甲班同学身高在175cm以上的有3人,乙班同学身高在175cm以上的有4人,所以甲班同学身高在175cm以上的人数较少,故D错误.
故选:A.
二、多选题
9.下图为2022年8月5日通报的14天内31省区市疫情趋势,则下列说法正确的是( )
A.无症状感染者的极差大于 B.确诊病例的方差大于无症状感染者的方差
C.实际新增感染者的平均数小于 D.实际新增感染者的第80百分位数为641
【答案】AD
【解析】由图表知无症状感染者的极差大于,故A正确;
由图表知无症状感染者的波动幅度明显大于确诊病例的波动幅度,
故B错误;
由图表数据计算实际新增感染者的平均数为471.2,故C错误;
,故实际新增感染者的第80百分位数为641,故D正确.
故选:AD.
10.某学校为调查学生迷恋电子游戏情况,设计如下调查方案,每个被调查者先投掷一枚骰子,若出现向上的点数为3的倍数,则如实回答问题“投掷点数是不是奇数?”,反之,如实回答问题“你是不是迷恋电子游戏?”.已知被调查的150名学生中,共有30人回答“是”,则下列结论正确的是( )
A.这150名学生中,约有50人回答问题“投掷点数是不是奇数?”
B.这150名学生中,必有5人迷恋电子游戏
C.该校约有5%的学生迷恋电子游戏
D.该校约有2%的学生迷恋电子游戏
【答案】AC
【解析】由题意可知掷出点数为3的倍数的情况为3,6,故掷出点数为3的倍数的概率为,故理论上回答问题一的人数为人.掷出点数为奇数的概率为,理论上回答问题一的50人中有25人回答“是”,故回答问题二的学生中回答“是”的人数为30-25=5人.
对于A, 抽样调查的这150名学生中,约有50人回答问题一,故A正确.
对于B, 抽样调查的这150名学生中,约有5人迷恋电子游戏,“必有”过于绝对,故B错.
对于C,抽样调查的150名学生中,50名学生回答问题一,故有100名学生回答问题二,有5名学生回答“是”, 故该校迷恋电子游戏的学生约为,故C正确.
对于D,由C可知该校迷恋电子游戏的学生约为,故D错.
故选:AC.
11.最近几个月,新冠肺炎疫情又出现反复,各学校均加强了疫情防控要求,学生在进校时必须走测温通道,每天早中晚都要进行体温检测并将结果上报主管部门.某班级体温检测员对一周内甲乙两名同学的体温进行了统计,其结果如图所示,则下列结论正确的是( )
A.甲同学体温的极差为0.4℃
B.乙同学体温的众数为36.4℃,中位数与平均数相等
C.乙同学的体温比甲同学的体温稳定
D.甲同学体温的第60百分位数为36.4℃
【答案】ABC
【解析】观察折线图知,甲同学体温的极差为0.4℃,A正确;
乙同学体温从小到大排成一列:36.3℃,36.3℃,36.4℃,36.4℃,36.4℃,36.5℃,36.5℃,
乙同学体温的众数为36.4℃,中位数为36.4℃,平均数℃,B正确;
乙同学的体温波动较甲同学的小,极差为0.2℃,也比甲同学的小,因此乙同学的体温比甲同学的体温稳定,C正确;
将甲同学的体温从小到大排成一列:36.2℃,36.2℃,36.4℃,36.4℃,36.5℃,36.5℃,36.6℃,
因,则甲同学体温的第60百分位数为36.5℃,D不正确.
故选:ABC
12.下列结论正确的是( )
A.数据20,21,7,31,14,16的50%分位数为16
B.若随机变量服从正态分布,则
C.在线性回归分析中决定系数用来刻画回归的效果,若值越小,则模型的拟合效果越好
D.以拟合一组数据,经代换后的线性回归方程为,则
【答案】BD
【解析】对于A:将数据按照从小到大的顺序排列得到:7,14,16,20,21,31,因为6×50%=3,所以50%分位数为,故A错误;
对于B:随机变量服从正态分布,正态曲线关于直线对称,则,故B正确;
对于C:线性回归分析中决定系数用来刻画回归的效果,若值越大,则模型的拟合效果越好,故C错误;
对于D:对两边取对数得到:,令得到,因为经代换后的线性回归方程为,所以,故D正确.
故选:BD.
三、填空题
13.某种产品的广告支出费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:
广告支出费用x
2.2
2.6
4.0
5.3
5.9
销售量y
3.8
5.4
7.0
11.6
12.2
根据表中的数据可得回归直线方程2.27x,R2≈0.96,则
①第三个样本点对应的残差1
②在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中
③销售量的多少有96%是由广告支出费用引起的
上述结论判断中有一个是错误的,其序号为 _____________
【答案】②
【解析】由表可知,
4,8.
∴样本中心点为(4,8),
将其代入线性回归方程2.27x,有8=2.27×4,解得1.08,
故线性回归方程为2.27x﹣1.08.
当x=4时,2.27×4﹣1.08=8,所以残差y7﹣8=﹣1,即选项正确;
当x=2.2时,3.914,3.8﹣3.914=﹣0.114,
当x=2.6时,4.822,5.4﹣4.822=0.578,
当x=5.3时,10.951,11.6﹣10.951=0.649,
当x=5.9时,12.313,12.2﹣12.313=﹣0.113.
可知在该回归模型对应的残差图中,残差点比较均匀地落在水平的带状区域中,故错误;
∵R2≈0.96,∴销售量的多少有96%是由广告支出费用引起的,故正确;
故答案为:②.
14.小明从雪糕店购买了10种不同的雪糕,这些雪糕的价格(单位:元)如茎叶图所示,则小明购买的雪糕价格的中位数为_____.
【答案】5
【解析】由茎叶图可知,中间两个数据为4,6,故中位数为,故答案为:5
15.如表是降耗技术改造后生产某产品过程中记录的产量(吨)与相应的生产能耗(吨标准煤)的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程,那么表中m的值为___________.
x
3
4
5
6
y
2.9
m
4
4.1
【答案】
【解析】由已知中的数据可得:,
∵数据中心点一定在回归直线上,
∴,解得.
故答案为:
16.已知样本数据的平均数与方差满足如下关系式:,若已知15个数的平均数为6,方差为9;现从原15个数中剔除这5个数,且剔除的这5个数的平均数为8,方差为5,则剩余的10个数的方差为___________.
【答案】
【解析】根据题目所给的条件,
,所以,
所以剩余10个数的平均数为5.
,
,所以,
所以这10个数的方差为.
故答案为:
四、解答题
17.某工厂共有甲、乙两个车间,为了比较两个车间的生产水平,分别从两个车间生产的同一种零件中各随机抽取了100件,它们的质量指标值统计如下:
质量指标值
甲车间(件)
15
20
25
31
9
乙车间(件)
5
10
15
39
31
(1)估计该工厂生产这种零件的质量指标值的平均数;(同一组中的数据用该组区间的中点值作代表)
(2)根据所给数据,完成下面的列联表(表中数据单位:件),并判断是否有的把握认为甲、乙两个车间的生产水平有差异.
合计
甲车间
乙车间
合计
附:,其中.
0.05
0.01
0.001
k
3.841
6.635
10.828
【答案】(1)58;
(2)列联表见解析,有99%把握认为甲乙两个车间的生产水平有差异.
【解析】(1)由所给数据,各组的频率分别为 0.1,0.15,0.2,0.35,0.2 ,
所以该工厂生产这种零件的质量指标值的平均数的估计值为 :
.
(2)
列联表如下:
合计
甲车间
60
40
100
乙车间
30
70
100
合计
90
110
200
所以
因为18.182大于6.635,所以有99%把握认为甲乙两个车间的生产水平有差异.
18.某收费APP(手机应用程序)自上架以来,凭借简洁的界面设计、方便的操作方式和强大的实用功能深得用户的喜爱.该APP所在的公司统计了用户一个月月租减免的费用(单位:元)及该月对应的用户数量(单位:万人),得到如下数据表格:
用户一个月月租减免
的费用(元)
3
4
5
6
7
用户数量(万人)
1
1.1
1.5
1.9
2.2
已知与线性相关.
(1)求关于的线性回归方程;
(2)据此预测,当月租减免费用为10元时,该月用户数量为多少?
参考公式:对于一组具有线性相关关系的数据,其回归直线的斜率和截距的最小二乘估计公式分别为,
【答案】(1)(2)万人
【解析】(1)解:由
有,
故关于的线性回归方程为;
(2)解:由(1)知回归方程为,当时,,
所以预测该月的用户数量为万人.
19.某学校在寒假期间安排了“垃圾分类知识普及实践活动”.为了解学生的学习成果,该校从全校学生中随机抽取了100名学生作为样本进行测试,记录他们的成绩,测试卷满分100分,并将得分分成以下6组:、、、…、,统计结果如图所示:
(1)试估计这100名学生得分的平均数;
(2)从样本中得分不低于70分的学生中,用分层抽样的方法选取11人进行座谈,若从座谈名单中随机抽取3人,记其得分在的人数为,试求的分布列和数学期望;
(3)以样本估计总体,根据频率分布直方图,可以认为参加知识竞赛的学生的得分X近似地服从正态分布,其中近似为样本平均数,近似为样本方差,经计算.所有参加知识竞赛的2000名学生中,试问得分高于77分的人数最有可能是多少?
参考数据:,,.
【答案】(1)(2)分布列见解析,(3)
【解析】由频率分布直方图可得这100名学生得分的平均数
.
(2)
解:参加座谈的11人中,得分在的有人,
所以的可能取值为,,,
所以,,.
所以的分布列为
0
1
2
∴.
(3)解:由(1)知,,
所以.
得分高于77分的人数最有可能是.
20.我国航空事业的发展,离不开航天器上精密的零件.某车间使用数控机床制造一种圆形齿轮零件.由于零件的高精度要求,该车间负责人需要每隔一个生产周期对所生产零件的直径进行统计,排查机床可能存在的问题并及时调试维修.已知该负责人在两个相邻生产周期(分别记为周期Ⅰ和周期Ⅱ)中分别随机检查了枚零件,测量得到的直径(单位:)如下表所示:
周期Ⅰ
4.9
5.1
5.0
5.0
5.1
5.0
4.9
5.2
5.0
4.8
周期Ⅱ
4.8
5.2
5.0
5.0
4.8
4.8
5.2
5.1
5.0
5.1
周期Ⅰ和周期Ⅱ中所生产零件直径的样本平均数分别记为和,样本方差分别记为和.
(1)求,,,;
(2)判断机床在周期Ⅱ是否出现了比周期Ⅰ更严重的问题(如果,则认为机床在周期Ⅱ出现了比周期Ⅰ更严重的问题,否则不认为出现了更严重的问题).
【答案】(1)5.0;5.0;0.012;0.022
(2)无法推测机床在周期Ⅱ出现了比周期Ⅰ更严重的问题.
【解析】(1)由表可知
(2)由(1)可知
,
因此在的显著性水平下,无法推测机床在周期Ⅱ出现了比周期Ⅰ更严重的问题.
一、单选题
1.(2022·广西桂林·模拟预测(文))已知全国农产品批发价格200指数月度变化情况如图所示,下列正确的选项是( )
A.全国农产品夏季价格比冬季低
B.全国农产品价格指数2022年每个月逐渐增加
C.全国农产品价格指数2022年菜篮子产品价格批发指数与农产品价格指数趋势基本保持一致
D.2022年6月农产品批发价格指数大于116.
【答案】C
【解析】图中给的是批发价格200指数,所以并不能确定农产品的价格变化,故A错,全国农产品价格指数2022年4-6月呈下降趋势,并未增加,故B错,根据图中曲线的变化趋势可发现全国农产品价格指数2022年菜篮子产品价格批发指数与农产品价格指数趋势基本保持一致,故C对,2022年6月农产品批发价格指数在115附近,故D错误.
故选:C
2.(2022·青海·海东市第一中学模拟预测(文))研究与试验发展(research and development,R&D)指为增加知识存量(也包括有关人类、文化和社会的知识)以及设计已有知识的新应用而进行的创造性、系统性工作.国际上通常采用研究与试验发展(R&D)活动的规模和强度指标反映一国的科技实力和核心竞争力.据国家统计局公告,下图是2016-2021年全国R&D经费总量(指报告期为实施研究与试验发展(R&D)活动而实际发生的全部经费支出)及投入强度(R&D经费投入与国内生产总值(GDP)之比)情况统计图表,则下列四个说法,所有正确说法的序号是( )
①2016-2021年全国R&D经费支出数据中,中位数大于20000;
②2016-2021年全国R&D经费投入强度的平均值未达到2.30;
③2016-2021年全国R&D经费支出数据中,极差为0.34;
④2016-2021年全国R&D经费支出及投入强度均与年份成正相关.
A.①③ B.②④ C.①②④ D.①③④
【答案】C
【解析】由图可知,2016-2021年全国R&D经费支出的中位数为,①正确;
,②正确;③0.34为全国R&D经费投入强度的极差,故③不正确;④正确.
故选:C
3.(2022·吉林·长春十一高模拟预测)在北京冬奥会上,国家速滑馆“冰丝带”使用高效环保的二氧化碳跨临界直冷制冰技术,为实现绿色冬奥作出了贡献.如图描述了一定条件下二氧化碳所处的状态与T和的关系,其中T表示温度,单位是K;P表示压强,单位是.下列结论中正确的是( )
A.当,时,二氧化碳处于液态
B.当,时,二氧化碳处于气态
C.当,时,二氧化碳处于超临界状态
D.当,时,二氧化碳处于超临界状态
【答案】D
【解析】当,时,,此时二氧化碳处于固态,故A错误.
当,时,,此时二氧化碳处于液态,故B错误.
当,时,与4非常接近,故此时二氧化碳处于固态,对应的是非超临界状态,故C错误.
当,时,因, 故此时二氧化碳处于超临界状态,故D正确.
故选:D
4.(2022·福建省福州格致中学模拟预测)某工厂有甲、乙、丙三条独立的生产线,生产同款产品,为调查该月生产的18000个零件的质量,通过分层抽样的方法得到一个容量为20的样本,测量某项质量指数(如下表):( )
甲
21
22.5
24
25.5
27
乙
22
24
25
27
29
30
32
丙
24
26
28
30
32
42
48
54
A.该月丙生产线生产的零件数约为7200
B.表格中的数据的中位数为30
C.若乙生产线正常状态下生产的零件的质量指数,那么根据样本的数据,作出“乙生产线出现异常情况”的推断是合理的;
D.再从甲、乙、丙三条独立的生产线生产的产品中各取一件,其质量指数分别是24,27,30,这三个数据与表格中的数据构成的新样本的平均数记为,表格中的数据平均数记为,则有,以上选项正确的是:()
【答案】A
【解析】对于A,按照分层抽样的原理,丙类的样本数为8,占总样本数的 ,
所以丙生产线生产的零件总数为 ,故A正确;
对于B,将表中的数据重新从小到大排列如下:
,
可知中位数为 ,故B错误;
对于C,由于没有给出“生产线出现异常情况”的标准,无法判断,故错误;
对于D, , , ,
故D错误;
故选:A
5.(2022·云南师大附中模拟预测(理))某中学有学生近600人,要求学生在每天上午7:30之前进校,现有一个调查小组调查某天7:00~7:30进校人数的情况,得到如下表格(其中纵坐标表示第分钟至第分钟到校人数,,,如当时,纵坐标表示在7:08~7:09这一分钟内进校的人数为4人).根据调查所得数据,甲同学得到的回归方程是(图中的实线表示),乙同学得到的回归方程是(图中的虚线表示),则下列结论中错误的是( )
1
5
9
15
19
21
24
27
28
29
30
1
3
4
4
11
21
36
66
94
101
106
A.7:00~7:30内,每分钟的进校人数与相应时间呈正相关
B.乙同学的回归方程拟合效果更好
C.根据甲同学得到的回归方程可知该校当天7:09~7:10这一分钟内的进校人数一定是9人
D.该校超过半数的学生都选择在规定到校时间的前5分钟内进校
【答案】C
【解析】对于A,根据散点图知,7:00~7:30内,每分钟的进校人数与相应时间呈正相关,故A正确;
对于B,由图知,曲线的拟合效果更好,故乙同学的回归方程拟合效果更好,故B正确;
对于C,表格中并未给出对应的值,而由甲的回归方程得到的只能是估计值,不一定就是实际值,故C错误;
对于D,全校学生近600人,从表格中的数据知,7:26~7:30进校的人数超过300,故D正确,
故选:C.
6.(2022·河北唐山·三模)下列说法正确的是( )
A.数据的方差是0.1,则有数据的方差为9
B.将4名学生分配到2间宿舍,每间宿舍2人,则不同的分配方法共有种
C.从4名男医生和5名女医生中选出3名医生组成一个医疗小分队,既有男医生又有女医生的组队方案共有种
D.在回归直线方程中,相对于样本点的残差为
【答案】D
【解析】对于A,由已知得,,则对于,可得,,A错误;
对于B,将4名学生分配到2间宿舍,每间宿舍2人,则不同分配方法有种,B错误;
对于C,从4名男医生和5名女医生中选出3名医生组成一个医疗小分队,既有男医生又有女医生的组队方案共有种,而种,故C错误;
对于D,残差,故D正确;
故选:D
7.(2022·天津·一模)下列说法正确的是( )
A.若随机变量,,则
B.数据7,4,2,9,1,5,8,6的第50百分位数为5
C.将一组数据中的每一个数据加上同一个常数后,方差不变
D.设具有线性相关关系的两个变量x,y的相关系数为r,则越接近于0,x和y之间的线性相关程度越强
【答案】C
【解析】A.因为随机变量,所以,因为,所以,则,所以,故错误;
B.数据7,4,2,9,1,5,8,6的第50百分位数为5.5,故错误;
C. 设一组数据为,则平均数为,方差为,将数据中的每一个数据加上同一个常数后为,则平均数为,方差为,
,所以将一组数据中的每一个数据加上同一个常数后,方差不变,故正确;
D. 设具有线性相关关系的两个变量x,y的相关系数为r,则越接近于1,x和y之间的线性相关程度越强,故错误;
故选:C
8.(2021·山西·三模(理))某公交公司推出扫码支付乘车优惠活动,活动为期两周,活动的前五天数据如下表:
第天
1
2
3
4
5
使用人数()
15
173
457
842
1333
由表中数据可得y关于x的回归方程为,则据此回归模型相应于点(2,173)的残差为( )A. B. C.3 D.2
【答案】B
【解析】令,则,
1
4
9
16
25
使用人数()
15
173
457
842
1333
,,
所以,
所以,
当时,,
所以残差为.
故选:B
二、多选题
9.(2022·辽宁实验中学模拟预测)下列说法正确的是( )
A.已知一组数据的平均数为4,则a的值为1
B.若随机变量,且,则
C.某人每次射击击中靶心的概率为,现射击10次,设击中次数为随机变量Y,则
D.“三个臭皮匠,顶个诸葛亮”是一句流行的俗话,假设每个“臭皮匠”单独解决某个问题的概率均为0.5,现让三个“臭皮匠”分别独立解决此问题.则至少有一个人解决该问题的概率为0.875.
【答案】BCD
【解析】对于A:根据平均数的定义,得,解得,故A错误;
对于B:因为随机变量,所以正态曲线关于直线对称,
又,所以,
所以,故B正确;
对于C:该事件服从二项分布,即,
则,,则,故C正确;
对于D:“至少有一个人解决该问题”的对立事件为“三人都未解决该问题”,
故所求概率为,故正确;
故选:BCD
10.(2022·山东济南·三模)进入21世纪以来,全球二氧化碳排放量增长迅速,自2000年至今,全球二氧化碳排放量增加了约40%,我国作为发展中国家,经济发展仍需要大量的煤炭能源消耗.下图是2016—2020年中国二氧化碳排放量的统计图表(以2016年为第1年).利用图表中数据计算可得,采用某非线性回归模型拟合时,;采用一元线性回归模型拟合时,线性回归方程为,.则下列说法正确的是( )
A.由图表可知,二氧化碳排放量y与时间x正相关
B.由决定系数可以看出,线性回归模型的拟合程度更好
C.利用线性回归方程计算2019年所对应的样本点的残差为-0.30
D.利用线性回归方程预计2025年中国二氧化碳排放量为107.24亿吨
【答案】ABD
【解析】由散点图可得二氧化碳排放量y与时间x正相关,故A正确;
因为,所以线性回归模型的拟合程度更好,故B正确;
当时,,
而,故C错误;
当时,,
即利用线性回归方程预计2025年中国二氧化碳排放量为107.24亿吨,故D正确.
故选:ABD.
11.(2022·湖南师大附中三模)下列命题中的真命题是( )
A.用分层抽样法从1000名学生(男、女生分别占60%、40%)中抽取100人,则每位男生被抽中的概率为
B.从含有5件次品的100件产品中,任取8件,则取到次品的件数X的期望是
C.若,则
D.在线性回归模型拟合中,若相关系数r越大,则样本的线性相关性越强
【答案】ABC
【解析】A选项,分层抽样时,每个个体被抽到的概率均要相等,A正确;
B选项,由超几何分布知,,B正确;
C选项,因为,所以,C正确;
D选项,在线性回归模型中,若相关系数r的绝对值越大,则样本的线性相关性越强,D错误.
故选:ABC.
12.(2022·全国·模拟预测)下列说法正确的是( )
A.甲袋中有5个红球,2个白球和3个黑球,乙袋中有4个红球,3个白球和3个黑球.先从甲袋中随机取出1个球放入乙袋,再从乙袋中随机取出1个球.设事件A表示由从甲袋中取出的球是红球,事件B表示从乙袋中取出的球是红球,则事件A与事件B相互独立
B.某班有50名学生,一次数学考试的成绩服从正态分布,已知,则该班学生此次数学考试的成绩在115分以上的有3人
C.已知事件A与B相互独立,当时,若,则
D.指数曲线进行线性变换后得到的经验回归方程为,则函数的最小值为
【答案】BCD
【解析】对于A,因为,,,,所以事件A与事件B不相互独立,故A错误.
对于B,因为数学考试的成绩服从正态分布,所以正态曲线关于直线对称,
因为,所以,
所以该班学生此次数学考试的成绩在115分以上的有(人),故B正确.
对于C,因为事件A与B相互独立,且,
则,即,由对立事件的概率公式得,故C正确.
对于D,将两边同时取对数,得,由于指数曲线进行线性变换后得到的经验回归方程为,则,,,即,则,当且仅当时,等号成立,故D正确.
故选:BCD.
三、填空题
13.(2021·辽宁·沈阳二中模拟预测)下列说法正确的是______________
① 函数与函数关于直线对称
②若两两独立,则
③方程(其中为复数集)的解集为
④,角的外角分线交的延长线于点,则
⑤通过最小二乘法以模型去拟合一组数据时,可知过点
⑥通过最小二乘法以模型去拟合一组数据时,为了求出回归方程,设,将其变换后得到线性方程,则的值分别是和0.3.
⑦已知点,且为原点,则向量在向量上的投影的数量为
【答案】④⑥⑦
【解析】对于①:函数与关于直线对称. 故①错误;
对于②:成立的前提条件是“、、相互独立”,而由、、两两独立不能得出、、相互独立. 故②错误;
对于③:方程的解有三个:,,.故③错误;
对于④:在中,由正弦定理得,在中,由正弦定理得,依题意知,所以,即. 故④正确;
对于⑤:设,则,由最小二乘法原理知过点,而. 故⑤错误;
对于⑥:设,则,依题意可知,即.故⑥正确;
对于⑦:,,则在上的投影为.故⑦正确.
故答案为:④⑥⑦.
14.(2022·广西桂林·模拟预测(文))一只红铃虫产卵数和温度有关,现测得一组数据,可用模型拟合,设,其变换后的线性回归方程为,若,,为自然常数,则________.
【答案】
【解析】经过变换后,得到,根据题意,故,又,故,,故,于是回归方程为一定经过,故,解得,即,于是.
故答案为:.
15.(2022·吉林·模拟预测(理))中国于2022年2月在北京成功地举办了第二十四届冬季奥林匹克运动会.共赴冰雪之约,共享冬奥机遇,“冰雪经济”逐渐升温,“带动三亿人参与冰雪运动”已从愿景变为现实,中国各地滑雪场的数量也由2015年的1255家增加到2021年的3100家.下面是2016年至2021年中国滑雪场新增数量和滑雪场类型统计图,下列说法中正确的序号是______.
①2021年中国滑雪场产业中大众娱乐型滑雪场占比最高
②2016年至2021年中国滑雪场数量逐年上升
③2016年至2021年中国滑雪场新增数量逐年增加
④2021年业余玩家型滑雪场比2020年大众娱乐型滑雪场数量多
【答案】①②④
【解析】由扇形统计图可知,2021年中国滑雪场产业中大众娱乐型滑雪场占比最高,故①正确;
由柱状图可知,2016年至2021年中国滑雪场数量逐年上升,故②正确;
由柱状图可知,2020年比2019年下降了,故③不正确;
由图可知,2021年业余玩家型滑雪场比2020年大众娱乐型滑雪场数量多,故④正确.
故答案为:①②④
16.(2021·北京·清华附中模拟预测)下图是国家统计局发布的2020年2月至2021年2月全国居民消费价格涨跌幅折线图.
说明:(1)在统计学中,同比是指本期统计数据与上一年同期统计数据相比较,例如2021年2月与2020年2月相比较:环比是指本期统计数据与上期统计数据相比较,例如2020年4月与2020年3月相比较.
(2)同比增长率环比增长率.
给出下列四个结论:
①2020年11月居民消费价格低于2019年同期;
②2020年3月至7月居民的消费价格持续增长;
③2020年3月的消费价格低于2020年4月的消费价格;
④2020年7月的消费价格低于2020年3月的消费价格.
其中所正确结论的序号是____________.
【答案】①④
【解析】①:由国居民消费价格涨跌幅折线图可知:同比增长率为,由题中说明所给同比增长率定义可知:2020年11月居民消费价格低于2019年同期,故本结论正确;
②:由国居民消费价格涨跌幅折线图可知:2020年3月至6月环比增长率为负值,由题中所给的环比增长率定义可知:2020年3月至6月居民的消费价格持续下降,所以本结论不正确;
③:设2020年3月的消费价格为,2020年4月的消费价格为,
根据题中所给的环比增长率公式可得:,
所以,因此本结论不正确;
④:设2020年5月的消费价格为,2020年6月的消费价格为,2020年7月的消费价格为,
根据题中所给的环比增长率公式可得:
,,
,所以,因此本结论正确;
故答案为:①④
四、解答题
17.(2022·安徽·芜湖一中模拟预测)华容道是古老的中国民间益智游戏,以其变化多端、百玩不厌的特点与魔方、独立钻石一起被国外智力专家并称为“智力游戏界的三个不可思议”.据《资治通鉴》注释中说“从此道可至华容也”.通过移动各个棋子,帮助曹操从初始位置移到棋盘最下方中部,从出口逃走.不允许跨越棋子,还要设法用最少的步数把曹操移到出口.2021年12月23日,在厦门莲坂外图书城四楼佳希魔方,厦门市新翔小学六年级学生胡宇帆现场挑战“最快时间解数字华容道”世界纪录,并以4.877秒打破了“最快时间解数字华容道”世界纪录,成为了该项目新的世界纪录保持者.
(1)小明一周训练成绩如表所示,现用作为经验回归方程类型,求出该回归方程.
第x(天)
1
2
3
4
5
6
7
用时y(秒)
105
84
49
39
35
23
15
(2)小明和小华比赛破解华容道,首局比赛小明获得胜利的概率是0.6,在后面的比赛中,若小明前一局胜利,则他赢下后一局的概率是0.7,若小明前一局失利,则他赢下后一局比赛的概率为0.5,比赛实行“五局三胜”,求小明最终赢下比赛的概率是多少.
参考公式:对于一组数据,其回归直线的斜率和截距的最小
二乘估计公式分别为:,
参考数据:,
【答案】(1)(2)0.6855
【解析】(1)由题意,根据表格中的数据,可得,
可得
所以,因此y关于x的回归方程为:.
(2)记小明获胜时比赛的局数为X,则X的可能取值为3、4、5.
,
.
.
18.(2022·山东烟台·三模)当下,大量的青少年沉迷于各种网络游戏,极大地毒害了青少年的身心健康.为了引导青少年抵制不良游戏,适度参与益脑游戏,某游戏公司开发了一款益脑游戏,在内测时收集了玩家对每一关的平均过关时间,如下表:
关卡
1
2
3
4
5
6
平均过关时间(单位:秒)
50
78
124
121
137
352
计算得到一些统计量的值为:,其中,.
(1)若用模型拟合与的关系,根据提供的数据,求出与的经验回归方程;
(2)制定游戏规则如下:玩家在每关的平均过关时间内通过可获得积分2分并进入下一关,否则获得分且该轮游戏结束.甲通过练习,前3关都能在平均时间内过关,后面3关能在平均时间内通过的概率均为,若甲玩一轮此款益脑游戏,求“甲获得的积分”的分布列和数学期望.
参考公式:对于一组数据(),其经验回归直线的斜率和截距的最小二乘估计分别为,.
【答案】(1)(2)分布列答案见解析,数学期望:
【解析】(1)解:因为两边取对数可得,即,
令,所以,由,
,.
所以,
又,即,
所以,所以.
所以关于的经验回归方程为.
(2)解:由题知,甲获得的积分的所有可能取值为5,7,9,12,
所以,,
,,
所以的分布列为
5
7
9
12
所以
19.(2022·吉林·东北师大附中模拟预测)某兴趣小组为了解某城市不同年龄段的市民每周的阅读时长情况,在市民中随机抽取了人进行调查,并按市民的年龄是否低于岁及周平均阅读时间是否少于小时将调查结果整理成列联表,现统计得出样本中周平均阅读时间少于小时的人数占样本总数的.岁以上(含岁)的样本占样本总数的,岁以下且周平均阅读时间少于小时的样本有人.
周平均阅读时间少于小时
周平均阅读时间不少于小时
合计
岁以下
岁以上(含岁)
合计
(1)请根据已知条件将上述列联表补充完整,并依据小概率值的独立性检验,分析周平均阅读时间长短与年龄是否有关联.如果有关联,解释它们之间如何相互影响.
(2)现从岁以上(含岁)的样本中按周平均阅读时间是否少于小时用分层抽样法抽取人做进一步访谈,然后从这人中随机抽取人填写调查问卷,记抽取的人中周平均阅读时间不少于小时的人数为,求的分布列及数学期望.
参考公式及数据:,.
【答案】(1)列联表见解析;周平均阅读时间长短与年龄有关联;随着年龄的增长,周平均阅读时间也会有所增长.
(2)分布列见解析;数学期望
【解析】(1)样本中周平均阅读时间少于小时的人数占样本总数的,
样本中周平均阅读时间少于小时的人数为人,
则其中年龄在岁以上(含岁)的人数为人;
岁以上(含岁)的样本占样本总数的,
岁以上(含岁)的人数为人,
则其中周平均阅读时间不少于小时的人数为人;
岁以下周平均阅读时间不少于小时的人数为人;
则补充列联表如下:
周平均阅读时间少于小时
周平均阅读时间不少于小时
合计
岁以下
岁以上(含岁)
合计
假设:周平均阅读时间长短与年龄无关联,
,
依据小概率值的独立性检验分析判断不成立,即周平均阅读时间长短与年龄有关联.
二者之间的相互影响为:随着年龄的增长,周平均阅读时间也会有所增长.
(2)
由题意可知:抽取的人中,周平均阅读时间少于小时的有人,不少于小时的有人;
则所有可能的取值为,
;;;;
的分布列为:
数学期望.
20.(2022·吉林·东北师大附中模拟预测(文))2015年7月31日,在吉隆坡举行的国际奥委会第128次全会上,北京获得2022年冬奥会举办权.在申冬奥过程中,中国正式向国际社会作出“带动三亿人参与冰雪运动”的庄严承诺.这一承诺,既是我国为国际奥林匹克运动做出重大贡献的大国担当展现,也是根据我国经济水平和全民健身需求做出的群众性运动的战略部署.从北京冬奥会申办成功到2021年10月,全国参与冰雪运动人数累计达到3.46亿,实现了“带动三亿人参与冰雪运动”的目标,这是北京冬奥会给予全球冬季体育运动和奥林匹克运动的最为重要的遗产,可以说是2022年北京冬奥会的第一块金牌.“冬奥热”带动“冰雪热”,也带动了冰雪经济,以冰雪运动为主要内容的冰雪旅游近年来发展迅速,2016至2022六个冰雪季的旅游人次y(单位亿)的数据如下表:
年度
2016—2017
2017—2018
2018—2019
2019—2020
2020—2021
2021—2022
年度代号t
1
2
3
4
5
6
旅游人次y
1.7
1.97
2.24
0.94
2.54
3.15
(1)求y与t的相关系数(精确到0.01),并回答y与t的线性相关关系的强弱;
(2)因受疫情影响,现将2019—2020年度的异常数据剔除,用剩下的5个年度数据(年度代号不变),求y关于t的线性回归方程(系数精确到0.01),并推测没有疫情情况下,2019—2020年度冰雪旅游人次的估计值.
附注:参考数据:,,,,.参考公式:相关系数,回归直线的斜率和截距的最小二乘估计公式分别为:,
【答案】(1),线性相关性不强(2),亿
【解析】(1)由参考数据计算得
所以,
因为,所以线性相关性不强.
(2)五组数据的均值分别为,
,
关于的线性回归方程为
令,则,
因此,在没有疫情情况下,2019-2020年度冰雪旅游人次的估计值为亿.
1.(2021·全国·高考真题(文))为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
【答案】C
【解析】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.
该地农户家庭年收入低于4.5万元的农户的比率估计值为,故A正确;
该地农户家庭年收入不低于10.5万元的农户比率估计值为,故B正确;
该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为,故D正确;
该地农户家庭年收入的平均值的估计值为(万元),超过6.5万元,故C错误.
综上,给出结论中不正确的是C.
故选:C.
【点睛】本题考查利用样本频率直方图估计总体频率和平均值,属基础题,样本的频率可作为总体的频率的估计值,样本的平均值的估计值是各组的中间值乘以其相应频率然后求和所得值,可以作为总体的平均值的估计值.注意各组的频率等于.
2.(2021·天津·高考真题[多选题])从某网络平台推荐的影视作品中抽取部,统计其评分数据,将所得个评分数据分为组:、、、,并整理得到如下的频率分布直方图,则评分在区间内的影视作品数量是( )
A. B. C. D.
【答案】D
【解析】由频率分布直方图可知,评分在区间内的影视作品数量为.
故选:D.
3.(2021·全国·高考真题[多选题])有一组样本数据,,…,,由这组数据得到新样本数据,,…,,其中(为非零常数,则( )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
【答案】CD
【解析】A:且,故平均数不相同,错误;
B:若第一组中位数为,则第二组的中位数为,显然不相同,错误;
C:,故方差相同,正确;
D:由极差的定义知:若第一组的极差为,则第二组的极差为,故极差相同,正确;
故选:CD
4.(2021·全国·高考真题【多选题】)下列统计量中,能度量样本的离散程度的是( )
A.样本的标准差 B.样本的中位数
C.样本的极差 D.样本的平均数
【答案】AC
【解析】由标准差的定义可知,标准差考查的是数据的离散程度;
由中位数的定义可知,中位数考查的是数据的集中趋势;
由极差的定义可知,极差考查的是数据的离散程度;
由平均数的定义可知,平均数考查的是数据的集中趋势;
故选:AC.
5.(2022·北京·高考真题)在校运动会上,只有甲、乙、丙三名同学参加铅球比赛,比赛成绩达到以上(含)的同学将获得优秀奖.为预测获得优秀奖的人数及冠军得主,收集了甲、乙、丙以往的比赛成绩,并整理得到如下数据(单位:m):
甲:9.80,9.70,9.55,9.54,9.48,9.42,9.40,9.35,9.30,9.25;
乙:9.78,9.56,9.51,9.36,9.32,9.23;
丙:9.85,9.65,9.20,9.16.
假设用频率估计概率,且甲、乙、丙的比赛成绩相互独立.
(1)估计甲在校运动会铅球比赛中获得优秀奖的概率;
(2)设X是甲、乙、丙在校运动会铅球比赛中获得优秀奖的总人数,估计X的数学期望E(X);
(3)在校运动会铅球比赛中,甲、乙、丙谁获得冠军的概率估计值最大?(结论不要求证明)
【答案】(1)0.4(2)(3)丙
【解析】(1)由频率估计概率可得
甲获得优秀的概率为0.4,乙获得优秀的概率为0.5,丙获得优秀的概率为0.5,
故答案为0.4
(2)设甲获得优秀为事件A1,乙获得优秀为事件A2,丙获得优秀为事件A3
,
,
,
.
∴X的分布列为
X
0
1
2
3
P
∴
(3)丙夺冠概率估计值最大.
因为铅球比赛无论比赛几次就取最高成绩.比赛一次,丙获得9.85的概率为,甲获得9.80的概率为,乙获得9.78的概率为.并且丙的最高成绩是所有成绩中最高的,比赛次数越多,对丙越有利.
6.(2021·全国·高考真题(理))某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备
9.8
10.3
10.0
10.2
9.9
9.8
10.0
10.1
10.2
9.7
新设备
10.1
10.4
10.1
10.0
10.1
10.3
10.6
10.5
10.4
10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为和.
(1)求,,,;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).
【答案】(1);(2)新设备生产产品的该项指标的均值较旧设备有显著提高.
【解析】(1),
,
,
.
(2)依题意,,,
,所以新设备生产产品的该项指标的均值较旧设备有显著提高.
7.(2022·全国·高考真题(文))甲、乙两城之间的长途客车均由A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
准点班次数
未准点班次数
A
240
20
B
210
30
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:,
0.100
0.050
0.010
2.706
3.841
6.635
【答案】(1)A,B两家公司长途客车准点的概率分别为,(2)有
【解析】(1)根据表中数据,A共有班次260次,准点班次有240次,
设A家公司长途客车准点事件为M,则;
B共有班次240次,准点班次有210次,
设B家公司长途客车准点事件为N,则.
A家公司长途客车准点的概率为;
B家公司长途客车准点的概率为.
(2)列联表
准点班次数
未准点班次数
合计
A
240
20
260
B
210
30
240
合计
450
50
500
=,
根据临界值表可知,有的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
8.(2021·全国·高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:
一级品
二级品
合计
甲机床
150
50
200
乙机床
120
80
200
合计
270
130
400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?
(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?
附:
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)75%;60%;(2)能.
【解析】(1)甲机床生产的产品中的一级品的频率为,
乙机床生产的产品中的一级品的频率为.
(2),
故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.
9.(2020·海南·高考真题)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了天空气中的和浓度(单位:),得下表:
32
18
4
6
8
12
3
7
10
(1)估计事件“该市一天空气中浓度不超过,且浓度不超过”的概率;
(2)根据所给数据,完成下面的列联表:
(3)根据(2)中的列联表,判断是否有的把握认为该市一天空气中浓度与浓度有关?
附:,
0.050
0.010
0.001
3.841
6.635
10.828
【答案】(1);(2)答案见解析;(3)有.
【解析】(1)由表格可知,该市100天中,空气中的浓度不超过75,且浓度不超过150的天数有天,
所以该市一天中,空气中的浓度不超过75,且浓度不超过150的概率为;
(2)由所给数据,可得列联表为:
合计
64
16
80
10
10
20
合计
74
26
100
(3)根据列联表中的数据可得
,
因为根据临界值表可知,有的把握认为该市一天空气中浓度与浓度有关.
10.(2020·海南·高考真题)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了天空气中的和浓度(单位:),得下表:
(1)估计事件“该市一天空气中浓度不超过,且浓度不超过”的概率;
(2)根据所给数据,完成下面的列联表:
(3)根据(2)中的列联表,判断是否有的把握认为该市一天空气中浓度与浓度有关?
附:,
【答案】(1);(2)答案见解析;(3)有.
【解析】(1)由表格可知,该市100天中,空气中的浓度不超过75,且浓度不超过150的天数有天,
所以该市一天中,空气中的浓度不超过75,且浓度不超过150的概率为;
(2)由所给数据,可得列联表为:
合计
64
16
80
10
10
20
合计
74
26
100
(3)根据列联表中的数据可得
,
因为根据临界值表可知,有的把握认为该市一天空气中浓度与浓度有关.
11.(2020·全国·高考真题(文))某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400
人次>400
空气质量好
空气质量不好
附:,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)该市一天的空气质量等级分别为、、、的概率分别为、、、;(2);(3)有,理由见解析.
【解析】(1)由频数分布表可知,该市一天的空气质量等级为的概率为,等级为的概率为,等级为的概率为,等级为的概率为;
(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为
(3)列联表如下:
人次
人次
空气质量好
空气质量不好
,
因此,有的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
12.(2020·全国·高考真题(理))某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得,,,,.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
【答案】(1);(2);(3)详见解析
【解析】(1)样区野生动物平均数为,
地块数为200,该地区这种野生动物的估计值为
(2)样本(i=1,2,…,20)的相关系数为
(3)由(2)知各样区的这种野生动物的数量与植物覆盖面积有很强的正相关性,
由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物的数量差异很大,
采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,
从而可以获得该地区这种野生动物数量更准确的估计.
13.(2019·全国·高考真题(文))某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:
满意
不满意
男顾客
40
10
女顾客
30
20
(1)分别估计男、女顾客对该商场服务满意的概率;
(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?
附:.
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1);
(2)能有的把握认为男、女顾客对该商场服务的评价有差异.
【解析】(1)由题中表格可知,50名男顾客对商场服务满意的有40人,
所以男顾客对商场服务满意率估计为,
50名女顾客对商场满意的有30人,
所以女顾客对商场服务满意率估计为,
(2)由列联表可知,
所以能有的把握认为男、女顾客对该商场服务的评价有差异.
15.(2018·全国·高考真题(理))某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:
超过
不超过
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?
附:,
【答案】(1)第二种生产方式的效率更高. 理由见解析(2)80(3)能
【解析】(1)第二种生产方式的效率更高.
理由如下:
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.
以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.
(2)由茎叶图知.
列联表如下:
超过
不超过
第一种生产方式
15
5
第二种生产方式
5
15
(3)由于,所以有99%的把握认为两种生产方式的效率有差异.
点睛:本题主要考查了茎叶图和独立性检验,考察学生的计算能力和分析问题的能力,贴近生活.
16.(2017·全国·高考真题(文))为了监控某种零件的一条生产线的生产过程,检验员每隔从该生产线上随机抽取一个零件,并测量其尺寸(单位:).下面是检验员在一天内依次抽取的16个零件的尺寸:
抽取次序
1
2
3
4
5
6
7
8
零件尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取次序
9
10
11
12
13
14
15
16
零件尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95
经计算得,,
,其中为抽取的第个零件的尺寸,.
(1)求的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到)附:样本的相关系数
,.
【答案】(1)可以;(2)(ⅰ)需要;(ⅱ),.
【解析】(1)由样本数据得的相关系数为
.
由于,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(i)由于,
由样本数据可以看出抽取的第13个零件的尺寸在以外,
因此需对当天的生产过程进行检查.
(ii)剔除离群值,即第13个数据,
剩下数据的平均数为,
这条生产线当天生产的零件尺寸的均值的估计值为10.02.
,
剔除第13个数据,剩下数据的样本方差为
,
这条生产线当天生产的零件尺寸的标准差的估计值为.
17.(2017·全国·高考真题(理))海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg), 其频率分布直方图如下:
(1)记A表示事件“旧养殖法的箱产量低于50kg”,估计A的概率;
(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:
箱产量<50kg
箱产量≥50kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较.附:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
【答案】(1)0.62(2)有99%的把握 (3)新养殖法优于旧养殖法
【解析】(1)旧养殖法的箱产量低于50kg的频率为
(0.012+0.014+0.024+0.034+0.040)×5=0.62.
因此,事件A的概率估计值为0.62.
(2)根据箱产量的频率分布直方图得列联表
箱产量
相关试卷
这是一份考向41随机事件的概率(重点)-备战2023年高考数学一轮复习考点微专题(全国通用)(解析版),共28页。试卷主要包含了概率加法公式的推广等内容,欢迎下载使用。
这是一份考向34抛物线(重点)-备战2023年高考数学一轮复习考点微专题(全国通用)(学生版),共37页。
这是一份考向39排列与组合(重点)-备战2023年高考数学一轮复习考点微专题(全国通用)(解析版),共18页。