高考数学复习第十章　第三节　成对数据的统计分析（导学案）

展开

这是一份高考数学复习第十章　第三节　成对数据的统计分析（导学案），共23页。

1.结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系.
2.结合实例,会通过相关系数比较多组成对数据的相关性.
3.结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.
4.针对实际问题,会用一元线性回归模型进行预测.
5.通过实例,理解2×2列联表的统计意义.
6.通过实例,了解2×2列联表独立性检验及其应用.
1.变量的相关关系
(1)相关关系:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度.
(2)相关关系的分类:正相关和负相关.
正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,称这两个变量正相关;
负相关:当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,称这两个变量负相关.
(3)线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,称这两个变量线性相关.
(4)非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,称这两个变量非线性相关或曲线相关.
点睛
相关关系与函数关系的异同
共同点:二者都是指两个变量间的关系;
不同点:函数关系是一种确定性关系,体现的是因果关系,而相关关系是一种非确定性关系,体现的不一定是因果关系,也可能是伴随关系.
2.样本相关系数
(1)样本相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2=∑i=1nxiyi-nxy∑i=1nxi2-nx2∑i=1nyi2-ny2
(2)样本相关系数r的取值范围为[-1,1],是一个描述成对样本数据的数字特征,它的正负性可以反映成对样本数据的变化特征,它的绝对值大小可以反映成对样本数据之间线性相关的程度:
①当r>0时,成对样本数据正相关;
②当r<0时,成对样本数据负相关.
③当|r|越接近1时,成对样本数据的线性相关程度越强;
④当|r|越接近0时,成对样本数据的线性相关程度越弱.
3.一元线性回归模型
称Y=bx+a+e,E(e)=0,D(e)=σ2为Y关于x的一元线性回归模型.
其中,Y称为因变量或响应变量,x称为自变量或解释变量, a称为截距参数, b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
4.最小二乘法与经验回归方程
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nxy∑i=1nxi2-nx2,= y-x.
点睛回归直线必过样本点的中心(x,y).
5.残差与残差分析
(1)残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
(2)残差分析
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
6.对模型刻画(拟合)数据效果的分析
(1)残差图
在残差图中,如果残差分布的比较均匀,则说明经验回归方程较好地刻画了两个变量的关系.
(2)残差平方和
残差平方和 ∑i=1n(yi-i)2越小,模型的拟合效果越好.
(3)决定系数R2
可以用决定系数R2=1-来比较两个模型的拟合效果,R2越大,模型拟合效果越好,R2越小,模型拟合效果越差.
7.列联表与独立性检验
(1)关于分类变量X和Y的抽样数据的2×2列联表:
(2)独立性检验
基于小概率值α的检验规则:
当χ2≥xα时,推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;
当χ2利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,简称独立性检验.
点睛独立性检验是对两个分类变量有关系的可信程度的判断,而不是对其是否有关系的判断,χ2越大,认为两个分类变量有关系的把握越大.
1.(教材变式)如果发现散点图中所有的样本点都落在一条斜率为非0实数的直线上,则下列说法错误的是( )
A.解释变量和预报变量是一次函数关系
B.相关指数R2=1
C.相关系数r=1
D.残差平方和为0
解析：选C.因为样本点都落在直线上,所以相关系数|r|=1,若直线的斜率为正,则r=1,若斜率为负,则r=-1,故C选项说法错误;
直线对应的函数为一次函数,故解释变量和预报变量是一次函数关系,故A选项说法正确;
相关指数和残差平方和都能反映模型的拟合程度,故相关指数R2=1,残差平方和为0,故B,D选项说法正确.
2.(教材变式)根据如下样本数据:
得到的经验回归方程为=x+,则( )
A.>0,>0B.>0,<0
C.<0,>0D.<0,<0
解析：选B.由题干表中的数据可得,变量Y随着x的增大而减小,即Y与x负相关,则<0,又经验回归方程为=x+经过(2,4),(3,2.5),可得>0.
3.(误把x=2直接代入经验回归方程)新能源汽车的核心部件是动力电池,碳酸锂是动力电池的主要成分,从2021年底开始,碳酸锂的价格一直升高,下表是2022年我国某企业前5个月购买碳酸锂价格与月份的统计数据.由下表可知其经验回归方程为=0.28x+0.16,
则表中a的值为( )
A.0.5B.0.6C.0.7D.0.8
解析：选B.由表中数据可得,x=15×(1+2+3+4+5)=3,
y=15×(0.5+a+1+1.4+1.5)=4.4+a5,
因为经验回归方程为=0.28x+0.16,
所以4.4+a5=0.28×3+0.16,解得a=0.6.
4.(记错残差的计算公式)某城市选用一种植物进行绿化,设其中一株幼苗从观察之日起,第x天的高度为Y cm,测得一些数据如表所示:
由表格中数据可得Y关于x的经验回归方程为=2.04x+,则第7天的残差为
( )
C.-1.12D.-2.12
解析：选C.x=17(1+2+3+4+5+6+7)=4,
y=17(1+4+6+9+11+12+13)=8,
因为经验回归直线=2.04x+过点(x,y),
所以=y-2.04x=-0.16,
所以Y关于x的经验回归方程为=2.04x-0.16,
所以回归模型第7天的残差为13-(2.04×7-0.16)=-1.12.
5.(教材变式)在研究吸烟是否对患肺癌有影响的案例中,通过对列联表的数据进行处理,计算得到随机变量χ2≈56.632.在犯错误的概率不超过0.001的前提下,下面说法正确的是( )
A.由于随机变量χ2>10.828=x0.001,所以“吸烟与患肺癌有关系”,并且这个结论犯错误的概率不超过0.001
B.由于随机变量χ2>10.828,所以“吸烟与患肺癌有关系”,并且这个结论犯错误的概率不低于0.001
C.由于随机变量χ2>10.828,所以“吸烟与患肺癌没有关系”,并且这个结论犯错误的概率不超过0.001
D.由于随机变量χ2>10.828,所以“吸烟与患肺癌没有关系”,并且这个结论犯错误的概率不低于0.001
解析：选A.由题意知,通过对列联表的数据进行处理,计算得到随机变量χ2≈56.632>10.828=x0.001,
所以在犯错误的概率不超过0.001的前提下,认为“吸烟与患肺癌有关系”.
题型一成对数据的统计相关性
[典例1](1)对四组不同的数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,下列正确的是( )
A.r2C.r4解析：选A.由散点图可知图①与图③中的两个变量是正相关,故r1>0,r3>0,图②与图④中的两个变量是负相关,故r2<0,r4<0,
又图①与图②中的样本点集中在一条直线附近,所以r2(2)(2022·吉林模拟)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn),(n≥2,x1,x2,…,xn互不相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=13x-5上,则这组样本数据的样本相关系数为( )
A.-13B.13C.-1D.1
解析：选D.因为所有样本点(xi,yi)(i=1,2,…,n)都在直线y=13x-5上,所以这组样本数据完全正相关,也就是具有一次函数关系,所以r=1.
(变条件)把上述(2)中的y=13x-5改为y=-13x-5,又该选什么?
解析：选C.因为所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-13x-5上,所以这组样本数据完全负相关,也就是具有一次函数关系,所以r=-1.
判断相关关系的方法
(1)散点图法:如果所有的样本点都落在某条曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,|r|越趋近于1,线性相关性越强.另外,|r|=1当且仅当两变量是线性函数关系.
(3)经验回归方程:当>0时,正相关,当<0时,负相关.
1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y,X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r1C.r2<0解析：选C.由已知中的数据可知:第一组数据中变量Y,X之间成正相关,相关系数r1>0,第二组数据中变量V与U之间成负相关,相关系数r2<0,即r2<02.对相关系数r,给出下列结论:
①r越大,线性相关程度越强;
②若所有样本点都在直线y=-2x+1上,则r=-2;
③|r|越大,线性相关程度越弱,|r|越接近0,线性相关程度越强;
④|r|≤1且|r|越接近1,线性相关程度越强,|r|越接近0,线性相关程度越弱.
其中说法正确的是__________.(填序号)
解析：两个变量之间的相关系数r的绝对值越接近于1,表示两个变量的线性相关性越强;r的绝对值越接近于0,表示两个变量的线性相关性越弱,此时两个变量之间几乎不存在线性相关关系.故①错误;③错误;④正确;
对于②,若所有样本点都在直线y=-2x+1上,则r=-1,故②错误.
答案:④
【加练备选】
甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如表:
则哪位同学的试验结果体现了A,B两变量有更强的线性相关性( )
A.甲B.乙C.丙D.丁
解析：选D.在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A,B两变量有更强的线性相关性.
题型二一元线性回归模型及其应用
角度1 线性回归分析
[典例2](1)新能源汽车的核心部件是动力电池,电池成本占了新能源整车成本很大的比例,从2022年年初开始,生产电池的某种有色金属的价格一路水涨船高.如表是2022年前5个月我国某电池企业采购的该有色金属价格y(单位:千元/千克)与月份x的统计数据.
已知y与x之间满足线性相关关系,且=x+,由此方程预测到x=6时,y=8.82,则=
( )
解析：选D.由表格中数据可得,
x=1+2+3+4+55=3,
y=1.7+3.0+4.4+6.0+7.45=4.5,
则样本点的中心的坐标为(3,4.5),又x=6时,y=8.82,
所以,解得=0.18,=1.44.
(2)某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如表:
①在图中画出表中数据的散点图;
②根据①中的散点图拟合y与x的回归模型,并用相关系数加以说明;
③建立y关于x的经验回归方程,预测第5年的销售量约为多少.
参考数据:∑i=14(yi-y)2≈32.7,5≈2.24,∑i=14xiyi=418.
参考公式:相关系数
r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,经验回归方程=+x的斜率和截距的最小二乘估计分别为
=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2=∑i=1nxiyi-nx y∑i=1nxi2-nx2,
=y-x.
解析：①作出散点图如图:
②由①中的散点图可知,各点大致分布在一条直线附近,由题中所给表格及参考数据,得
x=52,y=692,∑i=14xiyi=418,∑i=14(yi-y)2≈32.7,∑i=14xi2=30,∑i=14(xi-x)(yi-y)=∑i=14xiyi-4 xy=
418-4×52×692=73,∑i=14(xi-x)2=∑i=14xi2-4x2=30-4×(52) 2=5≈2.24,
所以r=∑i=14(xi-x)(yi-y)∑i=14(xi-x)2∑i=14(yi-y)2≈732.24×32.7≈0.996 6.
因为y与x的相关系数近似为0.996 6,说明y与x的线性相关程度相当强,
所以可以用线性回归模型拟合y与x的关系.
③由②知,x=52,y=692,
∑i=14xiyi-4 xy=73,∑i=14xi2-4x2=5,
所以=∑i=14xiyi-4xy∑i=14xi2-4x2=735,
=y-x=692-735×52=-2.
故y关于x的经验回归方程为=735x-2,
当x=5时,=735×5-2=71,
所以预测第5年的销售量约为71万件.
(1)正确理解计算,的公式和准确计算是求经验回归方程的关键.
(2)经验回归方程=x+必过样本点的中心(x,y).
(3)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过经验回归方程来估计和预测.
角度2 非线性回归分析
[典例3](2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:
并计算得∑i=110xi2=0.038,∑i=110yi2=1.615 8,∑i=110xiyi=0.247 4.
①估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
②求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
③现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,1.896≈1.377.
解析：①样本中10棵这种树木的根部横截面积的平均值x=0.610=0.06,样本中10棵这种树木的材积量的平均值y=3.910=0.39,据此可估计该林区这种树木平均一棵的根部横截面积为0.06 m2,平均一棵的材积量为0.39 m3;
②r=∑i=110(xi-x)(yi-y)∑i=110(xi-x)2∑i=110(yi-y)2=∑i=110xiyi-10x y(∑i=110xi2-10x2)(∑i=110yi2-10y2)
=0.247 4-10×0.06×0.39(0.038-10×0.062)(1.615 8-10×0.392)=0.013 40.000 189 6≈0.013 40.013 77≈0.97,
则r≈0.97;
③设该林区这种树木的总材积量的估计值为Y m3,
又已知树木的材积量与其根部横截面积近似成正比,可得,解得Y=
1 209 m3,则该林区这种树木的总材积量的估计值为1 209 m3.
非线性回归分析的步骤
画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤如下:
1.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
表中wi=xi,w=18∑i=18wi
①根据散点图判断,y=a+bx与y=c+dx哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
②根据①的判断结果及表中数据,建立y关于x的经验回归方程;
③已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据②的结果回答下列问题:
(i)年宣传费x=49时,年销售量及年利润的预报值是多少?
(ii)年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归线v=α+βu的斜率和截距的最小二乘估计分别为:=∑i=1n(ui-u)(vi-v)∑i=1n(ui-u)2,=v-u.
解析：①由散点图可以判断,y=c+dx适宜作为年销售量y关于年宣传费x的经验回归方程类型;
②令w=x,先建立y关于w的经验回归方程,由于=∑i=18(wi-w)(yi-y)∑i=18(wi-w)2=,
=y-w=563-68×6.8=100.6,所以y关于w的经验回归方程为=100.6+68w,因此y关于x的经验回归方程为=100.6+68x;
③(i)由②知,当x=49时,年销售量y的预报值
=100.6+6849=576.6,
年利润z的预报值=576.6×0.2-49=66.32;
(ii)根据②的结果可知,年利润z的预报值=0.2(100.6+68x)-x=-x+13.6x+20.12,
当x=13.62=6.8,即当x=46.24时,年利润的预报值最大.
2.一只红铃虫的产卵数y和温度x有关,现收集了4组观测数据列于如表中,根据数据作出散点图如图:
(1)根据散点图判断y=bx+a与y=ebx+a哪一个更适宜作为产卵数y关于温度x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程(系数精确到0.01);
(3)要使得产卵数不超过50,则温度应控制在多少摄氏度以下?(最后结果保留整数)
附:参考公式:=∑i=1nxiyi-nx y∑i=1nxi2-nx2,=y-x.
参考数据:∑i=14xiyi=14 975,∑i=14xizi=447.8,∑i=14xi2=3 150,ln 50≈3.91.
解析：(1)由散点图可知:y=ebx+a更适宜作为产卵数y关于温度x的回归方程类型;
(2)z=ln y,则z=bx+a,x=20+25+30+354=27.5,z=1.61+3+4.61+5.784=3.75,
所以=∑i=14xizi-4x z∑i=14xi2-4x2=447.8-4×27.5×3.753 150-4×27.5×27.5≈0.28,=z-x=3.75-0.28×27.5=-3.95,
所以z=0.28x-3.95,所以y=e0.28x-3.95;
(3)y≤50即e0.28x-3.95≤50,
所以0.28x-3.95≤ln 50=3.91,解得:x≤28.07,
所以要使得产卵数不超过50,则温度应控制在28℃以下.
【加练备选】
某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成,每件产品的非原料成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
根据以上数据,绘制了散点图.参考数据:(其中ui=1xi)
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线v=α+βu的斜率和截距的最小二乘估计分别为=∑i=1nuivi-nu v∑i=1nui2-nu2,=v-u.
(1)观察散点图判断,y=a+bx与y=c+dx哪一个适宜作为非原料成本y与生产该产品的数量x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y与x的回归方程.
(3)试预测生产该产品10 000件时每件产品的非原料成本.
解析：(1)由散点图可知,y=a+bx适宜作为非原料成本y与生产该产品的数量x的回归方程类型;
(2)令u=1x,则y=a+bu,
=∑i=18uiyi-8u y∑i=18ui2-8u2=183.4-8×0.34×36081.53-8×0.115=610.61=100,
=y-u=3608-100×0.34=11,
=11+100u=11+100x;
(3)当x=10(千件)时,=11+10010=21(元).
故预测生产该产品10 000件时每件产品的非原料成本为21元.
题型三列联表与独立性检验
[典例4](2023·泰州模拟)某市教育部门为研究高中学生的身体素质与课外体育锻炼时间的关系,对该市某校100名高中学生进行了一场课外体育测试,得到如下2×2列联表:
(1)分别估计该市男生、女生课外体育达标的概率;
(2)依据α=0.05的独立性检验,结合给定的2×2列联表中的数据,能否据此推断该市学生课外体育是否达标与性别有关?
附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.
解析：(1)由题意得,男生达标率为4555=911;女生达标率为3045=23.
(2)零假设为H0:该市学生课外体育是否达标与性别无关.
由题意得如下2×2的列联表:
χ2=100×(10×30-15×45)245×55×75×25≈3.030<3.841=x0.05,
所以依据α=0.05的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为该市学生课外体育是否达标与性别无关.
(1)利用χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)求出χ2的值.再利用小概率α的值以及对应的临界值来判断有多大的把握判断两个事件有关.
(2)解题时应注意准确计算,不可错用公式,准确进行比较与判断.
(2023·深圳模拟)某校在高一部分学生中调查男女同学对某项体育运动的喜好情况,其等高堆积条形图如图(黑色代表喜欢,白色代表不喜欢,单位:人).
(1)写出2×2列联表;
(2)依据α=0.01的独立性检验,分析喜欢这项体育运动是否与性别有关;
(3)在这次调查中,从喜欢这项体育运动的一名男生和两名女生中任选两人进行专业培训,求恰是一男一女的概率.
解析：(1)观察题中等高堆积条形图,可得被调查的男生总共45人,其中喜欢这项运动的有15人,不喜欢的有30人;
被调查的女生总共45人,其中喜欢这项运动的有5人,不喜欢的有40人.
由此写出列联表如表:(单位:人)
(2)零假设为H0:喜欢这项体育运动与性别无关,计算可得χ2=90×(15×40-30×5)245×45×20×70≈6.429<6.635=x0.01,所以依据α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为H0成立,即认为喜欢这项体育运动与性别无关.
(3)设喜欢这项体育运动的一名男生和两名女生分别为A,B,C.
任选两人的情况有(A,B),(A,C),(B,C),选一名男生和一名女生的情况有(A,B),(A,C),
所以恰是一男一女的概率P=23.
【加练备选】
为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:
经计算得x=116∑i=116xi=9.97,s=116∑i=116(xi-x)2=116(∑i=116xi2-16x2)≈0.212,∑i=116(i-8.5)2
≈18.439,∑i=116(xi-x)(i-8.5)=-2.78,其中xi为抽取的第i个零件的尺寸,i=1,2,…,16.
(1)求(xi,i)(i=1,2,…,16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r|<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).
(2)一天内抽检零件中,如果出现了尺寸在(x-3s,x+3s)之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)从这一天抽检的结果看,是否需对当天的生产过程进行检查?
(ⅱ)在(x-3s,x+3s)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)
附:样本(xi,yi)(i=1,2,…,n)的相关系数r=∑i=1n(xi-x)(yi-y)∑i=1n(xi-x)2∑i=1n(yi-y)2,0.008≈0.09.
解析：(1)r=∑i=116(xi-x)(i-8.5)∑i=116(xi-x)2∑i=116(i-8.5)2=-×16×18.439≈-0.18.
因为|r|<0.25,所以可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.
(2)(i)x=9.97,s=0.212,所以合格零件尺寸范围是(9.334,10.606),
显然第13号零件尺寸不在此范围之内,所以需要对当天的生产过程进行检查.
(ii)剔除离群值后,剩下的数据的平均值为
115(16×9.97-9.22)=10.02,
∑i=116xi2≈16×0.2122+16×9.972=1 591.134,
所以剔除离群值后样本方差为115(1 591.134-9.222-15×10.022)≈0.008,所以剔除离群值后样本标准差为0.008≈0.09.
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
教材改编
易错易混
1,2,5
3,4
x
2
3
4
5
6
Y
4
2.5
-0.5
-2
-3
月份代码x
1
2
3
4
5
碳酸锂价格Y
0.5
a
1
1.4
1.5
第x天
1
2
3
4
5
6
7
高度/cm
1
4
6
9
11
12
13
甲
乙
丙
丁
r
0.82
0.78
0.69
0.85
m
106
115
124
103
x
1
2
3
4
5
y
1.7
3.0
4.4
6.0
7.4
x
1
2
3
4
y
12
28
42
56
样本
号i
1
2
3
4
5
6
7
8
9
10
总和
根部
横截面
积xi
0.04
0.06
0.04
0.08
0.08
0.05
0.05
0.07
0.07
0.06
0.6
材积
量yi
0.25
0.40
0.22
0.54
0.51
0.34
0.36
0.46
0.42
0.40
3.9
x
y
w
∑i=18(xi-x)2
∑i=18(wi-w)2
∑i=18(xi-
x)(yi-y)
∑i=18(wi-
w)(yi-y)
46.6
563
6.8
289.8
1.6
1 469
108.8
温度x/℃
20
25
30
35
产卵数y/个
5
20
100
325
y
5
20
100
325
z=ln y
1.61
3
4.61
5.78
x
1
2
3
4
5
6
7
8
y
112
61
44.5
35
30.5
28
25
24
∑i=18uiyi
u
u2
∑i=18ui2
∑i=18yi
∑i=18yi2
183.4
0.34
0.115
1.53
360
22 385.5
性别
男
女
课外体育不达标
10
15
课外体育达标
45
30
α
0.05
0.01
0.001
xα
3.841
6.635
10.828
性别
男
女
合计
课外体育不达标
10
15
25
课外体育达标
45
30
75
合计
55
45
100
性别
喜欢
不喜欢
合计
男
15
30
45
女
5
40
45
合计
20
70
90
抽取
次序
1
2
3
4
5
6
7
8
零件
尺寸
9.95
10.12
9.96
9.96
10.01
9.92
9.98
10.04
抽取
次序
9
10
11
12
13
14
15
16
零件
尺寸
10.26
9.91
10.13
10.02
9.22
10.04
10.05
9.95