高考数学一轮复习第10章第3课时成对数据的统计分析学案

展开

这是一份高考数学一轮复习第10章第3课时成对数据的统计分析学案，共32页。

2．理解一元线性回归模型和2×2列联表，会运用这些方法解决简单的实际问题.
3．会利用统计知识进行数据分析．
1．变量的相关关系
两个变量有关系，但又没有确切到可由其中的一个去精确地决定另一个的程度，这种关系称为相关关系．
2．相关关系的分类
(1)按变量间的增减性分为正相关和负相关．
①正相关：当一个变量的值增加时，另一个变量的相应值也呈现增加的趋势；
②负相关：当一个变量的值增加时，另一个变量的相应值呈现减少的趋势．
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关)．
①线性相关：如果两个变量的取值呈现正相关或负相关，而且散点落在一条直线附近，我们称这两个变量线性相关；
②非线性相关或曲线相关：如果两个变量具有相关性，但不是线性相关，我们称这两个变量非线性相关或曲线相关．
3．相关关系的刻画
(1)散点图：成对样本数据用直角坐标系中的点表示出来，由这些点组成的统计图，叫做散点图．
(2)样本相关系数r的计算式
r＝i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2
＝i=1nxiyi-nxyi=1nxi2-nx2i=1nyi2-ny2
(3)样本相关系数r的性质
①样本相关系数r的取值范围为[－1，1]；
②若r>0时，成对样本数据正相关；
③若r<0时，成对样本数据负相关；
④样本相关系数与相关程度
当|r|越接近1时，成对样本数据的线性相关程度越强；
当|r|越接近0时，成对样本数据的线性相关程度越弱．
提醒：当两个变量的相关系数|r|＝1时，两个变量呈函数关系．
4．一元线性回归模型与最小二乘法
(1) 一元线性回归模型
称Y=bx+a+e， Ee=0，De=σ2为Y关于x的一元线性回归模型．其中，Y称为因变量或响应变量，x称为自变量或解释变量，a称为截距参数，b称为斜率参数；e是Y与bx＋a之间的随机误差，如果e＝0，那么Y与x之间的关系就可以用一元线性函数模型来描述．
(2)最小二乘法
将y＝bx＋a称为Y关于x的经验回归方程，也称经验回归函数或经验回归公式，其图形称为经验回归直线，这种求经验回归方程的方法叫做最小二乘法，求得的b，a叫做b，a的最小二乘估计，其中
b＝i=1nxi-xyi-yi=1nxi-x2，a＝y－bx．
提醒：经验回归方程一定过点(x，y)．
5．刻画回归效果的方式
(1)残差图法
在残差图中，残差点比较均匀地落在以横轴为对称轴的水平的带状区域中，说明选用的模型比较合适，这样的带状区域的宽度越窄，说明模型拟合精度越高．
(2)残差平方和法
残差平方和为
i=1nyi-yi2，
残差平方和越小，模型拟合效果越好．
(3)利用R2刻画拟合效果
R2＝1－i=1nyi-yi2i=1nyi-y2，
R2越大，模型的拟合效果越好，R2越小，模型的拟合效果越差．
6．列联表与独立性检验
(1)分类变量X，Y的2×2列联表：
则χ2＝nad-bc2a+bc+da+cb+d．
(2)利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验，读作“卡方独立性检验”，简称独立性检验．
(3)χ2独立性检验中几个常用的小概率值和相应的临界值．
[常用结论]
两个分类变量之间关联关系的定性分析的方法
(1)利用等高堆积条形图直观判断：
如图，在等高堆积条形图中，下方同一颜色区域的两个高度相差比较明显时，可以判断两个分类变量之间有关联性．
(2)频率分析法：在2×2列联表中，aa+b与cc+d或ba+b与dc+d相差越大，两个分类变量有关联的可能性越大．

一、易错易混辨析(正确的打“√”，错误的打“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系．( )
(2)经验回归直线y＝bx＋a至少经过点(x1，y1)，(x2，y2)，…，(xn，yn)中的一个点．( )
(3)样本相关系数的绝对值越接近1，成对样本数据的线性相关程度越强．( )
(4)若事件X，Y关系越密切，则由观测数据计算得到的χ2的观测值越小．( )
(5)经验回归方程y＝bx＋a中，若a＜0，则变量x和y负相关．( )
[答案] (1)√ (2)× (3)√ (4)× (5)×
二、教材习题衍生
1．(人教A版选择性必修第三册P103习题8.1T1改编)下列四个散点图中，变量x与y之间具有负的线性相关关系的是( )
A B
C D
D [观察散点图可知，只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系．]
2．(人教A版选择性必修第三册P103练习T3改编)在一次试验中，测得(x，y)的四组值分别为(1，2)，(2，0)，(4，－4)，(－1，6)，则y与x的相关系数为( )
A．12 B．－1 C．0 D．－12
B [∵测得(x，y)的四组值分别为(1，2)，(2，0)，(4，－4)，(－1，6)，∴x＝1.5，y＝1，i=14xi2＝22，i=14yi2＝56，i=14xiyi＝－20，样本相关系数
r＝-20-4×1.5×122-4×1.5256-4×12＝－1.故选B.]
3．(人教A版选择性必修第三册P113练习T2改编)从某学校随机选取8名女大学生，关于其身高x(单位：cm)和体重(单位：kg)的经验回归方程为y＝0.849x－85.712，则身高172 cm的女大学生的体重约为________kg.
60．316 [当x＝172时，y＝0.849×172－85.712＝60.316.]
4．(人教A版选择性必修第三册P133 例4改编)为了调查患肺癌是否与吸烟有关，调查了100名50岁以下的人，调查结果如下表：
根据列联表数据，求得χ2＝________(保留3位有效数字)，那么，在犯错误的概率不超过________的前提下认为患肺癌与吸烟有关．
附：
χ2＝nad-bc2a+bc+da+cb+d.
22.2 0.001 [由20＋m＝40，得m＝20.
由20＋n＝25，得n＝5.
故χ2＝100×20×55-20×5240×60×25×75≈22.2＞10.828＝x0.001.
所以在犯错误的概率不超过0.001的前提下认为患肺癌与吸烟有关．]
考点一成对数据的相关性
[典例1] (1)(多选)(2022·山东临沂二模)对两组数据进行统计后得到的散点图如图，关于其线性相关系数的结论正确的是( )
A．r1<0 B．r2>1
C．r1＋r2>0 D．r1>r2
(2)(2022·成都一模)如图是某地区2001年至2021年环境保护建设投资额(单位：万元)的折线图．
根据该折线图判断，下列结论正确的是( )
A．为预测该地2022年的环境保护建设投资额，应用2001年至2021年的数据建立回归模型更可靠
B．为预测该地2022年的环境保护建设投资额，应用2010年至2021年的数据建立回归模型更可靠
C．投资额与年份负相关
D．投资额与年份的相关系数r<0
(1)AC (2)B [(1)由散点图可知，线性相关系数r1的图象表示y与x成负相关，故－1r1，故r1＋r2>0，故C正确，D错误．故选AC.
(2)因2009年之前与2010年之后投资额变化较大，故为预测该地2022年的环境保护建设投资额，应用2010年至2021年的数据建立回归模型更可靠，所以A错误，B正确；
随年份的增长，投资额总体上在增长，所以投资额与年份正相关，r>0，故CD错误．
故选B.]
判定两个变量正、负相关的方法
(1)画散点图：点的分布从左下角到右上角，两个变量正相关；点的分布从左上角到右下角，两个变量负相关．
(2)相关系数：r＞0时，正相关；r＜0时，负相关．
(3)线性经验回归方程中：b>0时，正相关；b<0时，负相关．
[跟进训练]
1．(1)在一组样本数据(x1，y1)，(x2，y2)，…，(xn，yn)(n≥2，x1，x2，…，xn不全相等)的散点图中，若所有样本点(xi，yi)(i＝1，2，…，n)都在直线y＝－12x＋1上，则这组样本数据的样本相关系数为( )
A．－1 B．0
C．－12 D．1
(2)若已知
i=1nyi-y2是i=1nxi-x2的4倍，i=1n(xi-x)(yi-y)是i=1nxi-x2的1.5倍，则相关系数r的值为________．
(1)A (2)34 [(1)所有样本点均在同一条斜率为负数的直线上，则样本相关系数最小，为－1.
(2)由r＝i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2，得r＝34.]
考点二回归模型
一元线性回归模型
[典例2] (2022·河南安阳模拟)2022年6月，某直播间一周的交易额共计35亿元，数据统计如下表：
(1)通过分析，发现可用线性回归模型拟合交易额y与t的关系，请用相关系数(系数精确到0.01)加以说明；
(2)利用最小二乘法建立y关于t的经验回归方程(系数精确到0.1)，并预测下一周的第一天(即第8天)的交易额．
参考数据：i=17ti-tyi-y＝42.1，i=17yi-y2＝8.1，7≈2.65.参考公式：相关系数r＝i=1nti-tyi-yi=1nti-t2i=1nyi-y2在经验回归方程y=bt+a中，斜率和截距的最小二乘法估计公式分别为b=i=1ntiyi-ntyi=1ntt2-nt2=
i=1nti-tyi-yi=1nti-t2，a＝y－bt.
[解] (1)因为t＝4，i=17ti-t2＝28，i=17ti-t·yi-y＝42.1，i=17yi-y2＝8.1，
所以r＝i=17ti-tyi-yi=17ti-t2i=17yi-y2,≈42.12×2.65×8.1≈0.98.
因为交易额y与t的相关系数近似为0.98，说明交易额y与t具有很强的正线性相关，
从而可用线性回归模型拟合交易额y与t的关系．
(2)因为y＝357＝5，i=17ti-t2＝28，所以b＝i=17ti-tyi-yi=17ti-t2＝42.128≈1.5，
a＝y－bt≈5－1.5×4＝－1，所以y关于t的经验回归方程为y＝1.5t－1，将t＝8代入经验回归方程得y＝1.5×8－1＝11(千万元)＝1.1(亿元)，
所以预测下一周的第一天的交易额为1.1亿元．
【教师备选题】
下面给出了根据我国2015年～2021年水果人均占有量y(单位：kg)和年份代码x绘制的散点图和经验回归方程的残差图(2015年～2021年的年份代码x分别为1～7)．
(1)根据散点图分析y与x之间的相关关系；
(2)根据散点图相应数据计算得
i=17yi=1 074，i=17xiyi=4 517，求y关于x的经验回归方程(精确到0.01)；(3)根据经验回归方程的残差图，
附：经验回归方程y=bx+a中斜率和截距的最小二乘估计公式分别为：
b=i=1nxi-xyi-yi=1nxi-x2，a=y-bx.
［解］ (1)根据散点图可知，散点均匀的分布在一条直线附近，且随着x的增大，y增大，故y与x成线性相关，且为正相关．
(2)依题意，x=17(1+2+3+4+5+6+7)=4，
y=17=i=17yi=17×1 074≈153.43，i=17xi2=140.
b=i=17xi-xyi-yi=17xi-x2=i=17xiyi-7xyi=17xi2-7x2
=4 517-7×153.43×4140-7×42≈7.89，
a=y-bx=153.43-7.89×4=121.87，
所以y关于x的经验回归方程为y=7.89x+121.87.
(3)由残差图可以看出，残差对应点分布在水平带状区域内，且宽度较窄，说明拟合效果较好，回归方程的预报精度较高．
非线性回归模型
[典例3] (2022·湖北七市州模拟)快递业的迅速发展导致行业内竞争日趋激烈．某快递网点需了解一天中收发一件快递的平均成本y(单位：元)与当天揽收的快递件数即揽件量x(单位：千件)之间的关系，对该网点近7天的每日揽件量xi(单位：千件)与当日收发一件快递的平均成本yi(单位：元)(i＝1，2，3，4，5，6，7)的数据进行了初步处理，得到散点图及一些统计量的值．
表中wi＝1xi，w＝17i=17wi.
(1)根据散点图判断y＝ax＋b与y＝c＋dx哪一个更适宜作为y关于x的经验回归方程类型？并根据判断结果及表中数据求出y关于x的经验回归方程；
(2)已知该网点每天的揽件量x(单位：千件)与单件快递的平均价格t(单位：元)之间的关系是x＝59-4t5.75≤t≤14.5，收发一件快递的利润等于单件的平均价格减去平均成本，根据(1)中建立的经验回归方程解决以下问题：
①预测该网点某天揽件量为2千件时可获得的总利润；
②单件快递的平均价格t为何值时，该网点一天内收发快递所获利润的预报值最大？
附：对于一组具有线性相关关系的数据μi，vi(i＝1，2，…，n)，其经验回归方程v＝βμ＋a的斜率和截距的最小二乘估计分别为β＝i=1nμi-μvi-v,i=1nμi-μ2，a＝v－βμ.
[解] (1)由散点图可知：y＝c＋dx更适宜作为y关于x的经验回归方程类型；
令w＝1x，则d＝i=17wi-wyi-yi=17wi-w2＝＝5，c＝y－dw＝4.6－5×0.37＝2.75，
∴y关于x的经验回归方程为y＝2.75＋5x.
(2)设收发x千件快递获利z千元，则z＝t-yx＝59-x24-5x-2.75x＝－x34＋12x－51≤x≤6.
①当x＝2时，z＝17，即该网点某天揽收2 000件快递可获得的总利润约为17 000元．
②∵z′＝－34x2＋12，令z′＝0，解得x＝4，
∴当x∈1，4时，z′>0；当x∈4，6时，z′<0.
∴z在1，4上单调递增，在4，6上单调递减，
∴当x＝4时，zmax＝27，此时t＝10.75.
∴单件快递的平均价格t＝10.75元时，该网点一天内收发快递所获利润的预报值最大．
回归分析问题的类型及解题方法
(1)求经验回归方程
①根据散点图判断两变量是否线性相关，如不是，应通过换元构造线性相关．
②利用公式，求出回归系数b．
③待定系数法：利用经验回归方程过样本点的中心求系数a．
(2)利用经验回归方程进行预测，把经验回归方程看作一次函数，求函数值．
(3)利用经验回归方程判断正、负相关，决定正相关还是负相关的是系数b．
(4)经验回归方程的拟合效果，可以利用相关系数判断，当|r|越趋近于1时，两变量的线性相关性越强．
[跟进训练]
2．(2022·山东师范大学附中模拟)某研究所为了研究某种昆虫的产卵数y与温度x之间的关系，现将收集到的温度xi和一组昆虫的产卵数yii=1，2，…，6的6组观测数据作了初步处理，得到如图的散点图及一些统计数据．
经计算得到以下数据：x＝16i=16xi＝26，y＝16i=16yi＝33，
i=16xi-xyi-y＝557，i=16xi-x2＝84，i=16yi-y2＝3 930，i=16yi-yi2＝236.64.
(1)若用线性回归模型来拟合数据的变化关系，求y关于x的经验回归方程y＝bx＋a (结果精确到0.1)；
(2)若用非线性回归模型来拟合数据的变化关系，求得y关于x的经验回归方程y＝ 3x，且决定系数为R2＝0.967 2.
①试与(1)中的回归模型相比，用R2说明哪种模型的拟合效果更好；
②用拟合效果好的模型预测温度为35 ℃时该组昆虫的产卵数(结果四舍五入取整数)．
附参考公式：对于一组具有线性相关关系的数据x1，y1，x2，y2，……，xn，yn，其经验回归方程y＝bx＋a截距和斜率的最小二乘法估计公式分别为：b＝i=1nxi-xyi-yi=16xi-x2，a=y-bx，相关系数：
R2=1-i=1nyi-yi2i=1nyi-y2.参考数据：e8.060 5≈3 167.
[解] (1)由题意可知b＝i=16xi-xyi-yi=16xi-x2＝55784≈6.6,
a＝y－bx＝33－6.6×26＝－138.6.
∴y关于x的经验回归方程是y＝6.6x－138.6.
(2)①用指数回归模型拟合y与x的关系，决定系数R2＝0.967 2，
线性回归模型拟合y与x的关系，决定系数R2＝1－i=16yi-yi2i=16yi-y2＝1－236.643 930≈0.939 8, 且0.939 8<0.967 2，
∴用y＝ 3x比y＝6.6x－138.6拟合效果更好．
②y＝ 3x中，令x＝35，
则y＝ 3×35＝ 5≈0.06×3 167≈190，
故预测温度为35 ℃时该组昆虫产卵数约为190个．
考点三独立性检验
[典例4] (2022·全国甲卷改编)甲、乙两城之间的长途客车均由A和B两家公司运营，为了解这两家公司长途客车的运行情况，随机调查了甲、乙两城之间的500个班次，得到下面列联表：
(1)根据上表，分别估计这两家公司甲、乙两城之间的长途客车准点的概率；
(2)依据小概率值α＝0.1的独立性检验，能否以此推断甲、乙两城之间的长途客车是否准点与客车所属公司有关？
附：χ2＝nad-bc2a+bc+da+cb+d，
[解] (1)根据表中数据，A家公司共有班次260次，准点班次有240次，设A家公司长途客车准点事件为M，
则P(M)＝240260＝1213.
B家公司共有班次240次，准点班次有210次，
设B家公司长途客车准点事件为N，
则P(N)＝210240＝78.
所以A家公司长途客车准点的概率为1213，
B家公司长途客车准点的概率为78.
(2)补充列联表如下．
零假设为H0：甲、乙两城之间的长途客车是否准点与客车所属公司无关．根据2×2列联表，可得χ2＝nad-bc2a+bc+da+cb+d
＝500×240×30-210×202260×240×450×50≈3.205>2.706＝x0.1.
根据小概率值α＝0.1的独立性检验，我们推断H0不成立，即认为甲、乙两城之间的长途客车是否准点与客车所属公司有关．
独立性检验的一般步骤
(1)根据样本数据完成2×2列联表．
(2)根据公式χ2＝nad-bc2a+ba+cb+dc+d计算．
(3)比较χ2与临界值的大小关系，作统计推断．
[跟进训练]
3. (2020·新高考Ⅰ卷改编)为加强环境保护，治理空气污染，环境监测部门对某市空气质量进行调研，随机抽查了100天空气中的PM2.5和SO2浓度(单位：μg/m3)，得下表：
(1)估计事件“该市一天空气中PM2.5浓度不超过75，且SO2浓度不超过150”的概率；
(2)根据所给数据，完成下面的2×2列联表：
(3)根据(2)中的列联表，依据小概率值α＝0.01的独立性检验，能否推断该市一天空气中PM2.5浓度与SO2浓度有关？
附：χ2＝nad-bc2a+bc+da+cb+d，
[解] (1)根据抽查数据，该市100天空气中的PM2.5浓度不超过75，且SO2浓度不超过150的天数为32＋18＋6＋8＝64，因此，该市一天空气中PM2.5浓度不超过75，且SO2浓度不超过150的概率的估计值为64100＝0.64.
(2)根据抽查数据，可得2×2列联表：
(3)零假设为H0：该市一天空气中PM2.5浓度与SO2浓度无关，则
χ2＝100×64×10-16×10280×20×74×26≈7.484.
由于7.484>6.635＝x0.01，所以依据小概率值α＝0.01的独立性检验，我们推断H0不成立，
即认为该市一天空气中PM2.5浓度与SO2浓度有关．
课时分层作业(六十五) 成对数据的统计分析
一、选择题
1．(2022·山东聊城一模)根据分类变量x与y的成对样本数据，计算得到χ2＝6.147.依据α＝0.01的独立性检验x0.01=6.635，结论为( )
A．变量x与y不独立
B．变量x与y不独立，这个结论犯错误的概率不超过0.01
C．变量x与y独立
D．变量x与y独立，这个结论犯错误的概率不超过0.01
C [按照独立性检验的知识及比对的参数值，当χ2＝6.147，我们可以下结论变量x与y独立．故排除选项A，B；依据α＝0.01的独立性检验x0.01=6.635，6.147<6.635，所以我们不能得到“变量x与y独立，这个结论犯错误的概率不超过0.01”这个结论．故C正确，D错误．故选C.]
2．为了对变量x，y的线性相关性进行检验，由样本点(x1，y1)，(x2，y2)，…，(x9，y9)求得两个变量的样本相关系数为r，那么下面说法正确的是( )
A．若所有样本点都在直线y＝13x＋1上，则r＝1
B．若变量x，y呈正相关，则变量x，y的线性相关性较强
C．若所有样本点都在直线y＝2x＋1上，则r＝2
D．若r越小，则变量x，y的线性相关性越强
A [所有样本点都在一条直线y＝kx＋b上，若k>0，则x，y正相关，相关系数r＝1；k<0，x，y负相关，相关系数r＝－1,r越大，相关性越强，r越小，相关性越弱，四个选项中只有A正确．故选A.]
3．已知变量x和y满足关系y＝－0.1x＋1，变量y与z正相关．下列结论中正确的是( )
A．x与y正相关，x与z负相关
B．x与y正相关，x与z正相关
C．x与y负相关，x与z负相关
D．x与y负相关，x与z正相关
C [因为y＝－0.1x＋1的斜率小于0，故x与y负相关．因为y与z正相关，可设z＝by＋a，b＞0，则z＝by＋a＝－0.1bx＋b＋a，故x与z负相关．]
4．中国是茶的故乡，也是茶文化的发源地．为了弘扬中国茶文化，某酒店推出特色茶食品“排骨茶”，为了解每壶“排骨茶”中所放茶叶克数x与食客的满意率y的关系，调查研究发现，可选择函数模型y＝1100ebx＋c来拟合y与x的关系，根据以下统计数据：
可求得y关于x的非线性经验回归方程为( )
A．y＝1100e0.043x+4.291 B．y＝1100e0.043x-4.291
C．y＝1100e-0.043x-4.291 D．y＝1100e-0.043x+4.291
A [根据已知数据可得x＝15(1＋2＋3＋4＋5)＝3，
令t＝ln 100y，则t＝15(4.34＋4.36＋4.44＋4.45＋4.51)＝4.42.
对A：将y＝1100e0.043x+4.291变形得ln 100y＝0.043x＋4.291，
令x＝3，可得t＝0.043×3＋4.291＝4.42，故A正确；
对B，C，D同理可得，对函数模型变形为经验回归方程后，样本中心点不经过经验回归方程，故错误．故选A.]
5．(多选)(2022·湖北武汉二模)在研究某种产品的零售价x(单位：元)与销售量y(单位：万件)之间的关系时，根据所得数据得到如下所示的对应表：
利用最小二乘法计算数据，得到的经验回归方程为y＝bx＋26.2，则下列说法中正确的是( )
A．x与y的样本相关系数r>0
B．经验回归方程必过点16，14.2
C．b<0
D．若该产品的零售价定为22元，可预测销售量是9.7万件
BCD [由表中数据可知
x＝12+14+16+18+205＝805＝16，
y＝17+16+14+13+115＝715＝14.2，
因为相关系数的公式为r＝i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2，
故相关系数的正负取决分子，又i=15(xi-x)(yi－y)＝-4×2.8＋-2×1.8＋0×-0.2＋2×-1.2＋4×-3.2＝－30<0，
故A错误；
由变量x与y的均值，得样本点的中心为16，14.2，经验回归方程必过样本点的中心16，14.2，故B正确；
将16，14.2代入y＝bx＋26.2中，得14.2＝b×16＋26.2，解得b＝－0.75，
所以b＝－0.75<0，故C正确；
因为b＝－0.75，所以经验回归方程为y＝－0.75x＋26.2，
当x＝22时，y＝－0.75×22＋26.2＝－16.5＋26.2＝9.7，
所以该产品的零售价定为22元，可预测销售量是9.7万件，故D正确．故选BCD.]
6．(多选)某大学为了解学生对学校食堂服务的满意度，随机调查了50名男生和50名女生，每位学生对食堂的服务给出满意或不满意的评价，得到如下所示的列联表，经计算χ2≈4.762，则可以推断出( )
A．该学校男生对食堂服务满意的概率的估计值为35
B．调研结果显示，该学校男生比女生对食堂服务更满意
C．认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.05
D．认为男、女生对该食堂服务的评价有差异此推断犯错误的概率不超过0.01
AC [对于A，该学校男生对食堂服务满意的概率的估计值为3030+20＝35，故A正确；
对于B，该学校女生对食堂服务满意的概率的估计值为4040+10＝45＞35，故B错误；
因为χ2≈4.762＞3.841＝x0.05，认为男、女生对该食堂服务的评价有差异，此推断犯错误的概率不超过0.05，故C正确，D错误．]
二、填空题
7．某工厂为研究某种产品产量x(单位：吨)与所需某种原材料y(单位：吨)的相关性，在生产过程中收集4组对应数据x，y如下表所示：
根据表中数据，得出y关于x的经验回归方程为y＝0.7x＋a．据此计算出在样本点(4，3)处的残差为－0.15，则a的值为________，表中m的值为________．
0.35 4.5 [由在样本点4，3处的残差为－0.15，可得当x＝4时，y＝3.15，即3.15＝0.7×4＋a，解得a＝0.35.又x＝143+4+5+6＝4.5，y＝142.5+3+4+m＝149.5+m，回归直线过点x，y，所以149.5+m＝0.7×4.5＋0.35，解得m＝4.5.]
8．某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果，调查了105名学员，统计结果为：接受大密度集中培训的55个学员中有45名学员一次考试通过，接受周末分散培训的学员一次考试通过的有30个．根据统计结果，认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过________．
附：χ2＝nad-bc2a+bc+da+cb+d，其中n＝a＋b＋c＋d.
0.025 [由题意可得列联表如下，
χ2＝105×45×20-10×30255×50×75×30≈6.109>5.024＝x0.025.]
9．(2022·山东聊城二模)如图是调查某学校高一年级男、女学生是否喜欢徒步运动而得到的等高堆积条形图，阴影部分表示喜欢徒步的频率．已知该年级男生500人、女生400人(假设所有学生都参加了调查)，现从所有喜欢徒步的学生中按分层随机抽样的方法抽取23人，则抽取的男生人数为________．
15 [根据等高堆积条形图可知：喜欢徒步的男生人数为0.6×500＝300，喜欢徒步的女生人数为0.4×400＝160，
所以喜欢徒步的总人数为300＋160＝460，
按分层随机抽样的方法抽取23人，则抽取的男生人数为300460×23＝15人．]
三、解答题
10．(2022·全国乙卷)某地经过多年的环境治理，已将荒山改造成了绿水青山．为估计一林区某种树木的总材积量，随机选取了10棵这种树木，测量每棵树的根部横截面积(单位：m2)和材积量(单位：m3)，得到如下数据：
并计算得i=110xi2＝0.038，i=110yi2＝1.615 8，i=110xiyi＝0.247 4.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量；
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01)；
(3)现测量了该林区所有这种树木的根部横截面积，并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比．利用以上数据给出该林区这种树木的总材积量的估计值．
附：相关系数r＝i=1nxi-xyi-yi=1nxi-x2i=1nyi-y2，1.896≈1.377.
[解] (1)样本中10棵这种树木的根部横截面积的平均值x＝0.610＝0.06，
样本中10棵这种树木的材积量的平均值y＝3.910＝0.39.
据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2，平均一棵的材积量为0.39 m3.
(2)r ＝i=110xi -xyi -yi=110xi -x2i=110yi -y2
＝i=110xiyi-10xyi=110xi2-10x2i=110yi2-10y2
＝0.247 4-10×0.06×× 8-10×0.392
＝0.013 40.000 189 6≈0.013 40.013 77≈0.97，则r≈0.97.
(3)设该林区这种树木的总材积量的估计值为Y m3，
又已知树木的材积量与其根部横截面积近似成正比，
可得＝186Y，解得Y＝1 209 m3.
则该林区这种树木的总材积量估计为1 209 m3.
11．机动车行经人行横道时，应当减速慢行，遇行人正在通过人行横道，应当停车让行，俗称“礼让行人”．如表是某市一主干路口监控设备所抓拍的1－5月份驾驶员不“礼让行人”行为统计数据：
(1)请利用所给数据求违章人数y与月份x之间的经验回归方程y＝bx＋a，并预测该路口10月份的不“礼让行人”违章驾驶员人数；
(2)交警从这5个月内通过该路口的驾驶员中随机抽查70人，调查驾驶员不“礼让行人”行为与驾龄的关系，如表所示：
依据小概率值α＝0.1的独立性检验，能否据此判断“礼让行人”行为与驾龄有关？
附：χ2＝nad-bc2a+bc+da+cb+d，
[解] (1)由表中的数据可知，x＝1+2+3+4+55＝3，
y＝120+105+100+95+805＝100，
i=15xiyi＝1×120＋2×105＋3×100＋4×95＋5×80＝1 410，i=15xi2＝12＋22＋32＋42＋52＝55，
所以b＝i=15xiyi-5xyi=110xi2-5x2
＝1 410-1 50055-45＝－9，
故a＝y－bx＝100－(－9)×3＝127.
所以所求的经验回归方程为y＝－9x＋127.
令x＝10，则y＝－9×10＋127＝37.
所以预测该路口10月份的不“礼让行人”违章驾驶员人数为37.
(2)零假设为H0：“礼让行人”行为与驾龄无关．
由表中的数据可得
χ2＝70×24×14-16×16240×30×40×30＝1445≈0.311<2.706＝x0.1，
根据小概率值α＝0.1的独立性检验，没有充分证据推断H0不成立，因此可以认为H0成立，即依据小概率值α＝0.1的独立性检验，不能判断“礼让行人”行为与驾龄有关．
12．现收集到变量x，y的六组观测数据为：1，2，2，2.3，3，3，4，3.5，5，5，6，4.5，用最小二乘法计算得其经验回归直线为l1：y＝b1x＋a1，相关系数为r1；经过残差分析后发现5，5为离群点(对应残差绝对值过大的点)，剔除后，用剩下的五组数据计算得其经验回归直线为l2：y＝b2x＋a2，相关系数为r2.则下列结论错误的是( )
A．a2>a1
B．b2>b1
C．r2>r1
D．去掉离群点后，残差平方和变小
B [由数据得，l1：x＝161+2+3+4+5+6＝3.5，y＝162+2.3+3+3.5+5+4.5≈3.4，
b1＝1×2+2×2.3+…+6×4.5-6×3.5×3.412+22+…+62-6×3.52≈0.58，则a1＝3.4－0.58×3.5＝1.37.
剔除离群点后，
l2：x'＝151+2+3+4+6＝3.2，
y'＝152+2.3+3+3.5+4.5＝3.06，
b2＝1×2+2×2.3+…+6×4.5-5×3.2×3.0612+22+…+62-5×3.22
≈0.52，则a2＝3.06－0.52×3.2≈1.40，
A．a2>a1，故正确；
B．b2>b1，故错误；
C．剔除离群点后，相关程度变强，所以相关系数r2>r1，故正确；
D．剔除离群点后，相关程度变强，所以残差平方和变小，故正确．故选B.]
13．某工厂为了对一种新研究的产品进行合理定价，将该产品按事先拟定的价格进行试销，得到如下数据：
由表中数据，求得经验回归方程为y＝－4x＋a．若在这些样本点中任取一点，则它在经验回归方程左下方的概率为________．
13 [由表中数据得x＝6.5，y＝80，由y＝－4x＋a，得a＝106，故经验回归方程为y＝－4x＋106.将(4，90)，(5，84)，(6，83)，(7，80)，(8，75)，(9，68)分别代入经验回归方程，可知有6个样本点，因84<－4×5＋106＝86，68<－4×9＋106＝70，故(5，84)和(9，68)在经验回归方程的左下方，满足条件的只有2个，故所求概率为26＝13.]
14．(2022·湖北新高考协作体高三开学考试)为了检测某种抗病毒疫苗的免疫效果，通常需要进行动物与人体试验．研究人员将疫苗注射到200只小白鼠体内，一段时间后测量小白鼠的某项指标值，按0，20，20，40，40，60，60，80，80，100分组，绘制频率分布直方图如图所示．试验发现小白鼠体内产生抗体的共有160只，其中该项指标值不小于60的有110只．假设小白鼠注射疫苗后是否产生抗体相互独立．
(1)填写下面的2×2列联表，并根据列联表及小概率值α＝0.05的独立性检验，判断能否认为注射疫苗后小白鼠产生抗体与指标值不小于60有关？
单位：只
(2)为检验疫苗二次接种的免疫抗体性，对第一次注射疫苗后没有产生抗体的40只小白鼠进行第二次注射疫苗，结果又有20只小白鼠产生抗体．
(i)用频率估计概率，求一只小白鼠注射2次疫苗后产生抗体的概率p；
(ii)以(i)中确定的概率p作为人体注射2次疫苗后产生抗体的概率，进行人体接种试验，记n个人注射2次疫苗后产生抗体的数量为随机变量X.试验后统计数据显示，当X＝90时，PX取最大值，求参加人体接种试验的人数n及EX.
参考公式： χ2＝nad-bc2a+bc+da+cb+d(其中n＝a＋b＋c＋d为样本容量)．
参考数据：
[解] (1)由频率分布直方图，知200只小白鼠按指标值分布为：
在0，20内有0.002 5×20×200＝10(只)；
在20，40内有0.006 25×20×200＝25(只)；
在40，60内有0.008 75×20×200＝35(只)；
在60，80内有0.025×20×200＝100(只)；
在80，100内有0.007 5×20×200＝30(只)．
由题意，有抗体且指标值小于60的有50只；而指标值小于60的小白鼠共有10＋25＋35＝70(只)，所以指标值小于60且没有抗体的小白鼠有20只，同理，指标值不小于60且没有抗体的小白鼠有20只，故列联表如下：
单位：只
零假设为H0：注射疫苗后小白鼠产生抗体与指标值不小于60无关联．
根据列联表中数据，得χ2＝200×50×20-20×1102160×40×70×130≈4.945>3.841＝x0.05.
根据α＝0.05的独立性检验，推断H0不成立，即认为注射疫苗后小白鼠产生抗体与指标值不小于60有关，此推断犯错误的概率不大于0.05.
(2)(i)令事件A＝“小白鼠第一次注射疫苗产生抗体”，事件B＝“小白鼠第二次注射疫苗产生抗体”，事件C＝“小白鼠注射2次疫苗后产生抗体”．
记事件A，B，C发生的概率分别为PA，PB，PC，
则PA＝160200＝0.8，PB＝2040＝0.5，PC＝1－PAPB＝1－0.2×0.5＝0.9.
所以一只小白鼠注射2次疫苗后产生抗体的概率p＝0.9.
(ii)由题意，知随机变量X～Bn，0.9，PX=k＝Cnk×0.9k×0.1n－k(k＝0，1，2，…，n)．
因为PX=90最大，
所以Cn90×0.990×0.1n-90≥Cn91×0.991×0.1n-91，Cn90×0.990×0.1n-90≥Cn89×0.989×0.1n-89，
解得99≤n≤9019，因为n是整数，所以n＝99或n＝100，所以接受接种试验的人数为99或100.
①当接种人数为99时，EX＝np＝99×0.9＝89.1；
②当接种人数为100时，EX＝np＝100×0.9＝90.
X
Y
合计
Y＝0
Y＝1
X＝0
a
b
a＋b
X＝1
c
d
c＋d
合计
a＋c
b＋d
n＝a＋b＋c＋d
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
吸烟
肺癌
合计
肺癌患者
非肺癌患者
吸烟者
20
m
40
不吸烟者
n
55
60
合计
25
75
100
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
第t天
1
2
3
4
5
6
7
交易额
y/千万元
y1
y2
y3
y4
y5
y6
y7
x
y
w
i=17xi-x·yi-y
i=17wi-w·yi-y
i=17xi-x2
i=17wi-w2
4
4.6
0.37
－18
2.75
25.5
0.55
运营公司
班次数
准点
未准点
A
240
20
B
210
30
α
0.100
0.050
0.010
xα
2.706
3.841
6.635
运营公司
班次数
合计
准点
未准点
A
240
20
260
B
210
30
240
合计
450
50
500
PM2.5浓度
SO2浓度
[0，50]
(50，150]
(150，475]
[0，35]
32
18
4
(35，75]
6
8
12
(75，115]
3
7
10
PM2.5浓度
SO2浓度
[0，150]
(150，475]
[0，75]
(75，115]
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
PM2.5浓度
SO2浓度
[0，150]
(150，475]
[0，75]
64
16
(75，115]
10
10
茶叶克数x
1
2
3
4
5
ln (100y)
4.34
4.36
4.44
4.45
4.51
x
12
14
16
18
20
y
17
16
14
13
11
性别
满意度
满意
不满意
男
30
20
女
40
10
α
0.100
0.050
0.010
xα
2.706
3.841
6.635
x
3
4
5
6
y
2.5
3
4
m
α
0.05
0.025
0.010
0.001
xα
3.841
5.024
6.635
10.828
集中培训
分散培训
合计
一次考过
45
30
75
一次未考过
10
20
30
合计
55
50
105
样本号i
1
2
3
4
5
6
7
8
9
10
总和
根部横截
面积xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
月份
1
2
3
4
5
违章驾驶员人数
120
105
100
95
80
不礼让行人
礼让行人
驾龄不超过1年
24
16
驾龄1年以上
16
14
α
0.100
0.050
0.010
xα
2.706
3.841
6.635
单价x/元
4
5
6
7
8
9
销量y/件
90
84
83
80
75
68
抗体
指标值
合计
小于60
不小于60
有抗体
没有抗体
合计
α
0.25
0.15
0.100
0.050
xα
1.323
2.072
2.706
3.841
抗体
指标值
合计
小于60
不小于60
有抗体
50
110
160
没有抗体
20
20
40
合计
70
130
200

高考数学一轮复习第10章第3课时成对数据的统计分析学案

更专业

更丰富

更便捷

真低价

欢迎来到教习网