2023届高考数学二轮复习专题五概率与统计第3讲统计、成对数据的统计分析学案
展开第3讲 统计、成对数据的统计分析
1.[样本的数字特征] (2022·全国甲卷,T2)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如图,则( B )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
解析:对于A,讲座前问卷答题的正确率的中位数是=72.5%,所以A错误;对于B,讲座后问卷答题的正确率分别是80%,85%,85%,85%,85%,90%,90%,95%,100%,100%,其平均数显然大于85%,所以B正确;对于C,由题图可知,讲座前问卷答题的正确率波动较大,讲座后问卷答题的正确率波动较小,所以讲座前问卷答题的正确率的标准差大于讲座后问卷答题的正确率的标准差,所以C错误;对于D,讲座前问卷答题的正确率的极差是95%-60%=35%,讲座后问卷答题的正确率的极差是100%-80%=20%,所以讲座前问卷答题的正确率的极差大于讲座后问卷答题的正确率的极差,所以D错误.故选B.
2.[频率分布直方图] (2021·全国甲卷,T2)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:
根据此频率分布直方图,下面结论中不正确的是( C )
A.该地农户家庭年收入低于4.5万元的农户比率估计为6%
B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%
C.估计该地农户家庭年收入的平均值不超过6.5万元
D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间
解析:对于A,该地农户家庭年收入低于4.5万元的农户比率估计为(0.02+0.04)×1=0.06=6%,故选项A正确;
对于B,该地农户家庭年收入不低于10.5万元的农户比率估计为(0.04+0.02×3)×1=0.1=10%,故选项B正确;
对于C,估计该地农户家庭年收入的平均值为3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=7.68>6.5万元,故选项C错误;
对于D,该地农户家庭年收入介于4.5万元至8.5万元之间的比率为(0.10+0.14+0.20+0.20)×1=0.64>0.5,故估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间,故选项D正确.故选C.
3.[回归分析] (2022·全国乙卷,T19)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
样本号i | 根部横截面积xi | 材积量yi |
1 | 0.04 | 0.25 |
2 | 0.06 | 0.40 |
3 | 0.04 | 0.22 |
4 | 0.08 | 0.54 |
5 | 0.08 | 0.51 |
6 | 0.05 | 0.34 |
7 | 0.05 | 0.36 |
8 | 0.07 | 0.46 |
9 | 0.07 | 0.42 |
10 | 0.06 | 0.40 |
总和 | 0.6 | 3.9 |
并计算得=0.038,=1.615 8,xiyi=0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=,≈1.377.
解:(1)估计该林区这种树木平均一棵的根部横截面积===0.06,
估计该林区这种树木平均一棵的材积量===0.39.
(2)(xi-)(yi-)=xiyi-10 =0.013 4,
(xi-)2=-10=0.002,
(yi-)2=-10=0.094 8,
所以==≈0.01×1.377=0.013 77,
所以样本相关系数r=≈≈0.97.
(3)设该林区这种树木总材积量的估计值为Y m3,由题意可知,该种树木的材积量与其根部横截面积近似成正比,所以=,
所以Y==1 209,即该林区这种树木的总材积量的估计值为1 209 m3.
4.[独立性检验] (2022·全国甲卷,T17)甲、乙两城之间的长途客车均由A和B两家公司运营.为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:
| 准点班次数 | 未准点班次数 |
A | 240 | 20 |
B | 210 | 30 |
(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;
(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?
附:K2=,
P(K2≥k) | 0.100 | 0.050 | 0.010 |
k | 2.706 | 3.841 | 6.635 |
解:(1)由题意可得A公司甲、乙两城之间的长途客车准点的概率为=,
B公司甲、乙两城之间的长途客车准点的概率为=.
(2)K2=≈3.205>2.706,
所以有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.
统计知识主要考查:抽样方法、样本数字特征、统计图表等.以选择题、填空题形式命题,难度较小;回归分析与独立性检验常与概率交汇命题,也是近年的热点,常出现在第19或20题的位置,以中档题为主.此类题目重在考查考生的数学抽象、逻辑推理、数学建模、数学运算、数据分析等核心素养.
热点一 回归分析在实际问题中的应用
1.方程=x+是两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn)的经验回归方程,其中,是待定参数,经验回归方程的斜率和截距分别为=,=-,(,)是样本中心点,经验回归直线过样本中心点.
2.(1)正相关与负相关就看经验回归直线的斜率,斜率为正则为正相关,斜率为负则为负相关.
(2)样本相关系数r具有以下性质:r>0表示两个变量正相关,r<0表示两个变量负相关;|r|≤1,且|r|越接近于1,线性相关程度越强,|r|越接近于0,线性相关程度越弱.
典例1 (2022·四川绵阳三模)随着科技进步,近来年,我国新能源汽车产业迅速发展.以下是中国汽车工业协会2022年2月公布的近六年我国新能源乘用车的年销售量数据:
年份 | 2016 | 2017 | 2018 | 2019 | 2020 | 2021 |
年份代 码x | 1 | 2 | 3 | 4 | 5 | 6 |
新能源 乘用车 年销售 Y(万辆) | 50 | 78 | 126 | 121 | 137 | 352 |
(1)根据表中数据,求出Y关于x的经验回归方程;(结果保留整数)
(2)若用y=menx模型拟合Y与x的关系,可得回归方程为=37.71e0.33x,经计算该模型和第(1)问中模型的R2(R2为决定系数)分别为0.87和 0.71,请分别利用这两个模型,求2022年我国新能源乘用车的年销售量的预测值;
(3)你认为(2)中用哪个模型得到的预测值更可靠?请说明理由.
参考数据:设u=ln y,其中ui=ln yi.
(xi-)· (yi-) | (xi-)· (ui-) | e3.63 | e5.94 | e6.27 | ||
144 | 4.78 | 841 | 5.70 | 37.71 | 380 | 528 |
参考公式:对于一组具有线性相关关系的数据(xi,yi)(i=1,2,3,…,n),其经验回归方程=x+的斜率和截距的最小二乘估计公式分别为=,=- .
解:(1)由表中数据得,==3.5,=144,
(xi-)(yi-)=841,(xi-)2=(x1-)2+(x2-)2+(x3-)2+(x4-)2+(x5-)2+(x6-)2
=(1-3.5)2+(2-3.5)2+(3-3.5)2+(4-3.5)2+(5-3.5)2+(6-3.5)2=17.5,
所以==≈48,
=-=144-48×3.5=-24,所以Y关于x的经验回归方程为=48x-24.
(2)由(1)知,Y关于x的经验回归方程为=48x-24,
当x=7时,2022年我国新能源乘用车的年销售量的预测值=48×7-24=312(万辆);
对于回归方程=37.71e0.33x,当x=7时,2022年我国新能源乘用车的年销售量的预测值=37.71e0.33×7=e3.63×e2.31=e5.94=380(万辆).
(3)依题意,=37.71e0.33x模型和第(1)问中模型的R2(R2为决定系数)分别为0.87和0.71,
由于决定系数越接近于1,两个变量之间的关系就越强,相应的拟合程度也越好,
所以=37.71e0.33x模型得到的预测值更可靠.
(1)对于非线性回归分析问题,应先进行变量代换,求出代换后的经验回归直线方程,再求经验回归曲线方程.
(2)成对样本数据之间线性相关的程度,可以利用样本相关系数判断,|r|越趋近于1,两变量的线性相关程度越强.
热点训练1 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量Y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到散点图及一些统计量的值.
(xi-)2 | (ωi-)2 | (xi-)·(yi- ) | (ωi- )·(yi- ) | |||
46.6 | 563 | 6.8 | 289.8 | 1.6 | 1 469 | 108.8 |
表中ωi=,=ωi.
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量Y关于年宣传费x的经验回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立Y关于x的经验回归方程;
(3)已知这种产品的年利润z与x,Y的关系为z=0.2Y-x,根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程=+u的斜率和截距的最小二乘估计分别为:=,=- .
解:(1)由散点图知,各点呈非线性递增趋势,所以y=c+d作为经验回归方程比较合适.
(2)由ωi=,则===68,
由=6.8,=563,得=- =563-68×6.8=100.6,所以=100.6+68.
(3)①当x=49时,年销售量y=100.6+68×=576.6(t).此时年利润z=0.2×576.6-49=66.32(千元).
②由题意,z=0.2×(100.6+68)-x=20.12+13.6-()2=-(-6.8)2+66.36,
所以当=6.8,即x=46.24时,年利润的预报值最大.
热点二 独立性检验
“卡方公式”:χ2=,n=a+b+c+d.
典例2 (2021·山东济南期末)为了研究某种疾病的治愈率,某医院从过往病例中随机抽取了100名患者,其中一部分患者采用了外科疗法,另一部分患者采用了化学疗法,并根据两种治疗方法的治愈情况绘制了等高堆积条形图,如图.
(1)根据图表完善以下关于治疗方法和治愈情况的2×2列联表:
疗法 | 疗效 | 合计 | |
未治愈 | 治愈 | ||
外科疗法 |
|
|
|
化学疗法 |
| 18 |
|
合计 |
|
| 100 |
(2)依据小概率值α=0.05的独立性检验,分析此种疾病治愈率是否与治疗方法有关.
附:χ2=(如需计算χ2,结果精确到0.001),
χ2独立性检验中常用的小概率值和相应的临界值
α | 0.1 | 0.05 | 0.01 | 0.005 | 0.001 |
xα | 2.706 | 3.841 | 6.635 | 7.879 | 10.828 |
解:(1)由题意及等高堆积条形图可得,2×2列联表如表.
疗法 | 疗效 | 合计 | |
未治愈 | 治愈 | ||
外科疗法 | 20 | 20 | 40 |
化学疗法 | 42 | 18 | 60 |
合计 | 62 | 38 | 100 |
(2)零假设为H0:是否治愈与治疗方法无关联.
由列联表中的数据可得,χ2=≈4.075>3.841,
根据小概率值α=0.05的独立性检验,我们能推断H0不成立,即认为是否治愈与治疗方法有关联,此推断犯错误的概率不大于0.05.
独立性检验的具体做法
(1)根据实际问题的需要确定容许推断“两个随机事件有关系”犯错误概率的小概率值α,然后查表确定临界值.
(2)利用公式,计算χ2.
(3)如果χ2>xα,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.
热点训练2 为进一步做好新冠肺炎疫情防控工作,某社区以网上调查问卷的形式对辖区内部分居民做了新冠疫苗免费接种的宣传和调查.调查数据如下:共95份有效问卷,40名男性中有10名不愿意接种疫苗,55名女性中有5名不愿意接种疫苗.
(1)根据所给数据,完成下面的2×2列联表,并根据列联表,根据小概率值α=0.050的χ2独立性检验,判断是否有95%的把握认为是否愿意接种疫苗与性别有关?
性别 | 态度 | 合计 | |
愿意接种 | 不愿意接种 | ||
男 |
|
|
|
女 |
|
|
|
合计 |
|
|
|
(2)从不愿意接种的15份调查问卷中得到拒绝接种新冠疫苗的原因:有3份身体原因不能接种;有2份认为新冠肺炎已得到控制,无需接种;有4份担心疫苗的有效性;有6份担心疫苗的安全性.求从这15份问卷中随机选出2份,在已知至少有一份担心疫苗安全性的条件下,另一份是担心疫苗有效性的概率.
附:χ2=.
α | 0.050 | 0.010 | 0.005 |
xα | 3.841 | 6.635 | 7.879 |
解:(1)补全2×2列联表如表.
性别 | 态度 | 合计 | |
愿意接种 | 不愿意接种 | ||
男 | 30 | 10 | 40 |
女 | 50 | 5 | 55 |
合计 | 80 | 15 | 95 |
χ2==≈4.408>3.841=x0.050.
根据小概率值α=0.050的χ2独立性检验,有95%的把握认为是否愿意接种疫苗与性别有关.
(2)设事件A为“至少有一份担心疫苗安全性”,事件B为“另一份担心疫苗有效性”,
则P(A)=1-=,则P(AB)==,所以P(B|A)===.
热点三 概率与统计的综合问题
典例3 (2022·山东济南高三期末)某机构为了解市民对交通的满意度,随机抽取了100位市民进行调查,结果如下:回答“满意”的人数占总人数的一半,在回答“满意”的人中,“上班族”的人数是“非上班族”人数的;在回答“不满意”的人中,“非上班族”占.
(1)请根据以上数据填写下面2×2列联表,并依据小概率值α=0.001的独立性检验,分析能否认为市民对于交通的满意度与是否为上班族存在关联?
| 满意 | 不满意 | 合计 |
上班族 |
|
|
|
非上班族 |
|
|
|
合计 |
|
|
|
(2)此机构欲随机抽取部分市民进一步调查.规定:抽样的次数不超过n(n∈N*),若随机抽取的市民属于不满意群体,则抽样结束;若随机抽取的市民属于满意群体,则继续抽样,直到抽到不满意市民或抽样次数达到n时,抽样结束.
①若n=5,写出X5的分布列和数学期望;
②请写出Xn的数学期望的表达式(不需证明),根据你的理解说明Xn的数学期望的实际意义.
附:
χ2=,其中n=a+b+c+d.
α | 0.1 | 0.05 | 0.01 | 0.005 | 0.001 |
xα | 2.706 | 3.841 | 6.635 | 7.879 | 10.828 |
解:(1)由题意可知,2×2列联表如表,
| 满意 | 不满意 | 合计 |
上班族 | 15 | 40 | 55 |
非上班族 | 35 | 10 | 45 |
合计 | 50 | 50 | 100 |
零假设为H0:市民对交通的满意度与是否上班独立.因为χ2==≈25.253>10.828.
根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为市民对交通的满意度与是否上班有关,此推断犯错误的概率不大于0.001.
(2)①当n=5时,X5的可能取值为1,2,3,4,5,由(1)可知市民的满意度和不满意度均为,
所以P(X5=1)=,P(X5=2)=,P(X5=3)=,P(X5=4)=,P(X5=5)=,
所以X5的分布列为
X5 | 1 | 2 | 3 | 4 | 5 |
P |
所以E(X5)=1×+2×+3×+4×+5×=.
②E(Xn)=1×+2×+3×+…+(n-1)·+n·=2-,
当n趋向于正无穷大时,E(Xn)趋向于2,此时 E(Xn) 恰好为不满意度的倒数,
也可以理解为平均每抽取2个人,就会有一个不满意的市民.
解决概率与统计综合问题的一般步骤
热点训练3 (2021·重庆渝中区期末)某中学成功地举办了一年一度的大型学生社团文化节,吸引了众多学生.该中学目前共有社团近40个,由高一和高二学生组成,参加社团的学生有四百人左右.已知该中学高一和高二的所有学生中男生与女生人数比为6∶4,为了解学生参加社团活动的情况,按性别采用分层抽样的方法抽取部分学生,统计得到如图等高堆积条形图.
(1)求该中学参加社团的学生中,任选1人是男生的概率;
(2)若抽取了100名学生,完成下列2×2列联表,并依据小概率值α=0.05的独立性检验,能否认为该中学高一和高二学生的性别与参加学生社团有关联?请说明理由.
| 参加社团 | 未参加社团 | 合计 |
男生 |
|
|
|
女生 |
|
|
|
合计 |
|
|
|
附:χ2=,n=a+b+c+d.
α | 0.1 | 0.05 | 0.01 |
xα | 2.706 | 3.841 | 6.635 |
解:(1)设高一和高二的所有学生中任选一人是男生、是女生分别为事件A,,
设高一和高二的所有学生中任选一人参加社团为事件B,则P(A)=60%,P()=40%,
则P(A|B)=====.
(2)2×2列联表如表,
| 参加社团 | 未参加社团 | 合计 |
男生 | 6 | 54 | 60 |
女生 | 8 | 32 | 40 |
合计 | 14 | 86 | 100 |
零假设为H0:性别与参加社团独立,即性别与参加社团无关.
根据列联表中的数据,经计算得到χ2=≈1.993<3.841=α0.05,
依据小概率值α=0.05的独立性检验,没有充分的证据推断H0不成立,
因此可以认为H0成立,即性别与参加社团无关.
2024年高考数学重难点突破讲义:学案 第1讲 数据分析——成对数据的统计分析: 这是一份2024年高考数学重难点突破讲义:学案 第1讲 数据分析——成对数据的统计分析,共12页。
备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析: 这是一份备考2024届高考数学一轮复习讲义第九章统计与成对数据的统计分析第3讲成对数据的统计分析,共11页。
高考数学一轮复习第10章第3课时成对数据的统计分析学案: 这是一份高考数学一轮复习第10章第3课时成对数据的统计分析学案,共32页。