


高三数学一轮复习第十章统计与成对数据的统计分析第三课时成对数据的统计分析学案
展开1.变量的相关关系
两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关或曲线相关.
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
3.相关关系的刻画
(1)散点图:成对样本数据用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
(2)样本相关系数r的计算式
(3)样本相关系数r的性质
①样本相关系数r的取值范围为[-1,1];
②若r>0时,成对样本数据正相关;
③若r<0时,成对样本数据负相关;
④当|r|越接近1时,成对样本数据的线性相关程度越强;
当|r|越接近0时,成对样本数据的线性相关程度越弱.
提醒:当两个变量的相关系数|r|=1时,两个变量呈函数关系.
[典例1] (1)(2023·江西上饶统考二模)中国新能源汽车出口实现跨越式突破,是国产汽车品牌实现弯道超车,打造核心竞争力的主要抓手.下表是2023年我国某新能源汽车厂前5个月的销量y和月份x的统计表,根据表中的数据可得经验回归方程为y=bx+1.16,则下列四个命题正确的个数为( )
①变量x与y正相关;②b=0.24;③y与x的样本相关系数r>0;④2023年7月该新能源汽车厂的销量一定是3.12万辆.
A.1 B.2 C.3 D.4
(2)(多选)某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者对其身高和臂展进行测量(单位:厘米),图1为选取的15名志愿者身高与臂展的折线图,图2为身高与臂展所对应的散点图,并求得其经验回归方程为y=1.16x-30.75,以下结论正确的是( )
A.15名志愿者身高的极差小于臂展的极差
B.15名志愿者的身高和臂展具有正相关关系
C.可估计身高为190厘米的人臂展大约为189.65厘米
D.身高相差10厘米的两人臂展都相差11.6厘米
(1)B (2)ABC [(1)由x=1+2+3+4+55=3,y=1.5+1.6+2+2.4+2.55=2,因为经验回归直线过样本中心点(x,y),所以2=3b+1.16,b=0.28,②错误;可知y随着x变大而变大,所以变量x与y正相关,①③正确;由经验回归方程可知,2023年7月该新能源汽车厂的销量的估计值是y=0.28×7+1.16=3.12万辆,④错误.故选B.
(2)对于A,身高极差大约为21,臂展极差大约为26,故结论正确;对于B,很明显根据散点图以及经验回归直线得到,身高矮一些,臂展就会短一些,身高高一些,臂展就长些,故结论正确;对于C,身高为190 cm,代入经验回归方程可得到臂展估计值等于189.65 cm,但不是准确值,故结论正确;对于D,身高相差10 cm的两人臂展的估计值相差11.6 cm,但并不是准确值,经验回归直线上的点并不都是准确的样本点,故结论不正确,故选ABC.]
判定两个变量正、负相关的方法
(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数:r>0时,正相关;r<0时,负相关.
(3)线性经验回归方程中:b>0时,正相关;b<0时,负相关.
跟进训练1 (2024·江西宜春一模)给出下列命题,其中正确命题的个数为( )
①若样本数据x1,x2,…,x10的方差为4,则数据2x1-1,2x2-1,…,2x10-1的方差为8;
②经验回归方程为y=0.6-0.25x时,变量x与y具有负的线性相关关系;
③随机变量X服从正态分布N(3,σ2),P(X≤4)=0.64,则P(2≤X≤3)=0.07;
④在回归分析中,对一组给定的样本数据(x1,y1),(x2,y2),…,(xn,yn)而言,当样本相关系数|r|越接近1时,样本数据的线性相关程度越强.
A.1个 B.2个 C.3个 D.4个
B [对于①,由方差的性质可知:数据2x1-1,2x2-1,…,2x10-1的方差为22×4=16,①错误;
对于②,由经验回归方程知:b=-0.25,则变量x与y具有负的线性相关关系,②正确;
对于③,由正态分布曲线的对称性可知:P(2≤X≤3)=P(3≤X≤4)=P(X≤4)-P(X≤3)=0.64-0.5=0.14,③错误;
对于④,由样本相关系数意义可知:|r|越接近1时,样本数据的线性相关程度越强,④正确,故选B.]
考点二 回归模型
1.一元线性回归模型与最小二乘法
(1) 一元线性回归模型
称Y=bx+a+e, Ee=0,De=σ2为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
(2)最小二乘法
将y=bx+a称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的b,a叫做b,a的最小二乘估计,其中
提醒:经验回归方程一定过点(x,y).
2.刻画回归效果的方式
(1)残差图法
在残差图中,残差点比较均匀地落在以横轴为对称轴的水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.
(2)残差平方和法
残差平方和为,残差平方和越小,模型拟合效果越好.
(3)利用R2刻画拟合效果
R2=1,R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.
一元线性回归模型
[典例2] (2023·安徽合肥三模)移动物联网广泛应用于生产制造、公共服务、个人消费等领域.如图是2018-2022年移动物联网连接数w与年份代码t的散点图,其中年份2018-2022对应的t分别为1~5.
(1)根据散点图推断两个变量是否线性相关.计算样本相关系数(精确到0.01),并推断它们的相关程度;
(2)求w关于t的经验回归方程,并预测2024年移动物联网连接数.
附:样本相关系数,
a=w-bt,1 740≈41.7.
[解] (1)由题图可知,两个变量线性相关.
由已知条件可得:t=1+2+3+4+55=3,
w=7+12+13+19+245=15,
所以(ti-t)(wi-w)=16+3+0+4+18=41,
=64+9+4+16+81=174,
=4+1+0+1+4=10,
所以样本相关系数r=411 740≈4141.7≈0.98,因此两个变量具有很强的线性相关性.
(2)结合(1)可知,b=4110=4.1,a=w-bt=15-4.1×3=2.7,
所以经验回归方程是:w=4.1t+2.7,
当t=7时,有w=4.1×7+2.7=31.4,即预测2024年移动物联网连接数为31.4亿户.
非线性回归模型
[典例3] (2023·广东广州二模)一企业生产某种产品,通过加大技术创新投入降低了每件产品成本,为了调查年技术创新投入x(单位:千万元)对每件产品成本y(单位:元)的影响,对近10年的年技术创新投入xi和每件产品成本yi(i=1,2,3,…,10)的数据进行分析,得到如图所示的散点图,并计算得:x=6.8,y=70,1xi=3,1xi2=1.6,yixi=350.
(1)根据散点图可知,可用函数模型y=bx+a拟合y与x的关系,试建立y关于x的经验回归方程;
(2)已知该产品的年销售额m(单位:千万元)与每件产品成本y(单位:元)的关系为m=-y2500+2y25+200y-10+100.该企业的年投入成本除了年技术创新投入,还要投入其他成本10千万元,根据(1)的结果回答:当年技术创新投入x为何值时,年利润M的预报值最大?
(注:年利润=年销售额-年投入成本)
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归方程v=α+βu的斜率和截距的最小二乘估计公式分别为βα=v-βu .
[解] (1)令u=1x,则y关于u的经验回归方程为y=α+βu,
由题意可得β=350-2101.6-0.9=200,
α=y-β u=70-200×0.3=10,则y=10+200u,
所以y关于x的非线性经验回归方程为y=10+200x.
(2)由y=10+200x可得x=200y-10,
年利润M=m-x-10=-y2500+2y25+200y-10+100-200y-10-10=-1500(y-20)2+90.8,
当y=20时,年利润M取得最大值,
此时x=200y-10=20020-10=20,
所以当年技术创新投入为20千万元时,年利润M的预报值取最大值.
【教师备用】
(2023·山东淄博一模)某电商平台统计了近七年小家电的年度广告费支出xi(单位:万元)与年度销售量yi(单位:万台)的数据,如表所示:
其中xiyi=279.4,xi2=708.
(1)若用线性经验回归模型拟合y与x的关系,求出y关于x的经验回归方程;
(2)若用y=c+dx模型拟合得到的非线性经验回归方程为y=1.63+0.99x,经计算线性经验回归模型及该模型的R2分别为0.75和0.88,请根据R2的数值选择更好的经验回归模型拟合y与x的关系,进而计算出年度广告费x为何值时,利润z=200y-x的预报值最大?
参考公式:=
[解] (1)由题意可得:
x=1+2+4+6+11+13+197=8,
y=1.9+3.2+4.0+4.4+5.2+5.3+5.47=4.2,
所以=279.4-7×8×4.2708-7×82
=0.17,a=y-bx=4.2-0.17×8=2.84,
所以y关于x的经验回归方程为y=0.17x+2.84.
(2)因为0.75<0.88,R2越大,拟合效果越好,所以选用非线性经验回归方程y=1.63+0.99x更好,
z=200(1.63+0.99x)-x=-x+198x+326,z=-(x-99)2+10 127,
即当x=99,x=9 801时,利润的预报值最大.
回归分析问题的类型及解题方法
(1)求经验回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数b.
③待定系数法:利用经验回归方程过样本中心点,求系数a.
(2)利用经验回归方程进行预测,把经验回归方程看作一次函数,求函数值.
(3)利用经验回归方程判断正、负相关,决定正相关还是负相关的是系数b.
(4)经验回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
跟进训练2 (1)(2024·江西联考模拟)某校对学生记忆力x和判断力y进行统计分析,所得数据如表:
则y关于x的经验回归方程为( )
(附:)
A.y=-1.4x+19.4 B.y=1.4x+2.6
C.y=1.4x-2.6 D.y=-1.4x-19.4
(2)(2024·河南联考模拟)雨滴在下落过程中,受到的阻力随速度增大而增大,当速度增大到一定程度时,阻力与重力达到平衡,雨滴开始匀速下落,此时雨滴的下落速度称为“末速度”.某学习小组通过试验,得到了雨滴的末速度v(单位:m/s)与直径d(单位:mm)的一组数据,并绘制成如图所示的散点图,则在该试验条件下,下面四个经验回归方程类型中最适宜作为雨滴的末速度v与直径d的经验回归方程类型的是( )
A.v=a+bd B.v=a+bd
C.v=a+bd2 D.v=a+bed
(1)B (2)A [(1)由题表中数据知,随着x的增大,y增大,所以x与y正相关,排除AD,又x=2+5+6+8+95=6,y=7+8+10+12+185=11,由经验回归直线过样本中心点(6,11),代入验证知B项正确,故选B.
(2)由一次函数、二次函数及指数函数的性质可知,BCD不符合散点的变化趋势,由散点图分布可知,散点图分布在一个幂函数的图象附近,因此,最适宜作为雨滴的末速度v与直径d的经验回归方程类型的是v=a+bd.
故选A.]
考点三 独立性检验
1.2×2列联表与独立性检验
(1)分类变量X,Y的2×2列联表:
则χ2=nad-bc2a+bc+da+cb+d.
(2)利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.
(3)χ2独立性检验中几个常用的小概率值和相应的临界值.
2.两个分类变量之间关联关系的定性分析的方法
(1)利用等高堆积条形图直观判断:
如图,在等高堆积条形图中,下方同一颜色区域的两个高度相差比较明显时,可以判断两个分类变量之间有关联性.
(2)频率分析法:在2×2列联表中,aa+b与cc+d或ba+b与dc+d相差越大,两个分类变量有关联的可能性越大.
[典例4] 为了解某校学生对科技发明活动的兴趣,随机从该校学生中抽取了100人进行调查,其中女生中对科技发明活动没兴趣的占女生人数的14,男生有5人表示对科技发明活动没有兴趣.
(1)完成2×2列联表,依据小概率值α=0.025的独立性检验,能否认为“该校学生对科技发明活动是否有兴趣与性别有关”?
(2)从样本中对科技发明活动没有兴趣的学生按性别用分层随机抽样的方法抽出6名学生,记从这6人中随机抽取3人,抽到的男生人数为X,求X的分布列和期望.
附:χ2=nad-bc2a+bc+da+cb+d,n=a+b+c+d.
[解] (1)由题述列联表可知,男生合计60人,
所以女生合计100-60=40(人),
由题意,女生中对科技发明没兴趣、有兴趣的分别有40×14=10(人),40-10=30(人),
男生中对科技发明没兴趣、有兴趣的分别有5人,60-5=55(人),
由此可以得到完整列联表如下:
零假设H0:该校学生对科技发明活动是否有兴趣与性别无关.
χ2=nad-bc2a+bc+da+cb+d=100×55×10-5×30260×40×85×15≈5.229>5.024,
所以依据小概率值α=0.025的独立性检验,推断H0不成立,即认为“该校学生对科技发明活动是否有兴趣与性别有关”.
(2)由题意首先抽出的6名学生中,男生、女生分别有6×55+10=2(人),6×105+10=4(人),
若从这6人中随机抽取3人,抽到的男生人数为X,则X的所有可能取值为0,1,2,
P(X=0)=C20C43C63=420=15,
P(X=1)=C21C42C63=2×620=35,
P(X=2)=C22C41C63=420=15,
所以X的分布列为
所以E(X )=0×15+1×35+2×15=1.
【教师备用】
(2024·贵州黔东南模拟预测)二十四节气起源于黄河流域,是古代中国劳动人民长期经验的积累和智慧的结晶.其中“立冬小雪十一月,大雪冬至迎新年”就是描述二十四节气农历11月和12月的节气口诀.某中学为调查本校学生对二十四节气的了解情况,组织测试活动,按照性别分层随机抽样抽取了150名学生进行答题,其中男生占60%,记录其性别和是否全部答对的情况,得到如图的等高条形图.
(1)完成下面的2×2列联表,依据小概率值α=0.05的独立性检验,能否认为“是否全部答对与性别有关”?
(2)从参加测试的女生中选取一人继续回答甲、乙两道题目,已知该女生答对甲、乙两道题目的概率分别是45,34,记该女生答对题目的个数为X,求X的分布列和数学期望.
附:χ2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d.
[解] (1)按照性别分层随机抽样抽取出的男生人数为150×60%=90,则抽取的女生人数为:150-90=60.
抽取的女生中全部答对的人数为:60×0.7=42,部分答对的人数为:60-42=18,
抽取的男生中全部答对的人数为:90×0.5=45,部分答对的人数为:90-45=45.
零假设H0:是否全部答对与性别无关.
χ2=150×45×18-45×42287×63×90×60≈5.911>3.841,
依据小概率值α=0.05的独立性检验,推断H0不成立,即认为“是否全部答对与性别有关”.
(2)由题意可得,X可能取值为0,1,2,
P(X=0)=1-45×1-34=120,
P(X=1)=45×1-34+1-45×34=720,
P(X=2)=45×34=35,
则X的分布列为
所以E(X )=0×120+1×720+2×35=3120.
独立性检验的一般步骤
(1)根据样本数据完成2×2列联表;
(2)根据公式χ2=nad-bc2a+ba+cb+dc+d计算;
(3)比较χ2与临界值的大小关系,作统计推断.
跟进训练3 第31届世界大学生夏季运动会于2023年7月28日至8月8日在中国四川省成都市举行.某体育博主为调查大学生对成都大运会的了解情况,在某大学随机抽取了200名大学生(其中男生和女生各100名)提问他们有关大运会的问题,完全答对的认为了解大运会,否则认为不了解大运会,得到如下2×2列联表:
(1)根据2×2列联表,依据小概率值α=0.01的独立性检验,能否认为大学生是否了解大运会与性别有关?
(2)将频率视为概率,用样本估计总体,若从该校大学生中随机抽取3人调查他们对大运会的了解情况,记抽取的3人中了解大运会的人数为X,求X的分布列和数学期望.
附: χ2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d.
[解] (1)零假设H0:大学生是否了解大运会与性别无关.
由题意,χ2=200×70×50-50×302120×80×100×100≈8.333>6.635.
依据小概率值α=0.01的独立性检验,推断H0不成立,即认为大学生是否了解大运会与性别有关.
(2)从该校大学生中随机抽取1人,其了解大运会的概率为120200=35,所以X~B3,35,
由题意知,X的可能取值为0,1,2,3,P(X=0)=C30×1-353=8125,P(X=1)=C31×35×1-352=36125,
P(X=2)=C32×352×1-35=54125,
P(X=3)=C33×353=27125,
所以X的分布列为
所以E(X )=0×8125+1×36125+2×54125+3×27125=95或EX=3×35=95.
课后习题(五十八) 成对数据的统计分析
1.(人教A版选择性必修第三册P103习题8.1T1改编)下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
A B
C D
D [观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.]
2.(人教B版选择性必修第二册P115练习B T2改编)某冷饮店日盈利y(单位:百元)与当天气温x(单位:℃)之间有如下数据:
已知y与x之间具有线性相关关系,则y与x的经验回归方程是( )
A.y=0.2x-2 B.y=0.2x-2.2
C.y=0.2x+2 D.y=0.2x+2.2
B [经验回归直线必过样本中心点,由题意得x=15+20+25+30+355=25,
y=1+2+2+4+55=2.8,结合选项可知,2.8=0.2×25-2.2,即y与x的经验回归方程是y=0.2x-2.2.故选B.]
3.(苏教版选择性必修第二册P187本章测试T6改编)动力电池作为新能源汽车的核心部件,在新能源整车成本中占比较高,而碳酸锂又是动力电池的核心原料.从2020年底开始,碳酸锂的价格一路水涨船高.如下表所示是2023年某企业前5个月碳酸锂的价格与月份的统计数据:
根据表中数据,得出y关于x的经验回归方程为y=0.28x+a,根据数据计算出在样本点(5,1.5)处的残差为-0.06,则m=________.
1.4 [由题意,样本点(5,1.5)处的残差为-0.06,则1.5-(0.28×5+a)=-0.06,解得a=0.16.
由题表数据可得,x=15×(1+2+3+4+5)=3,
y=15×(0.5+0.6+1+m+1.5)=3.6+m5,
则3.6+m5=0.28×3+0.16,解得m=1.4.]
4.(人教A版选择性必修第三册P133 例4改编)为了调查患肺癌是否与吸烟有关,调查了100名50岁以下的人,调查结果如下表:
根据列联表数据,求得χ2=________(保留3位有效数字),那么,在犯错误的概率不超过________的前提下,认为患肺癌与吸烟有关.
附:
χ2=nad-bc2a+bc+da+cb+d.
22.2 0.001 [由20+m=40,得m=20.
由20+n=25,得n=5.
故χ2=100×20×55-20×5240×60×25×75≈22.2>10.828=x0.001.
所以在犯错误的概率不超过0.001的前提下,认为患肺癌与吸烟有关.]
5.(多选)(2023·安徽黄山三模)下列命题中,正确的是( )
A.在回归分析中,可用决定系数R2的值判断模型的拟合效果,R2越大,模型的拟合效果越好
B.对分类变量x与y的统计量χ2来说,χ2值越小,判断“x与y有关系”的把握程度越大
C.在回归模型中,残差是观测值y与预测值y的差,残差点所在的带状区域宽度越窄,说明模型拟合精度越高
D.一组数据88,90,90,91,92,93,95,96,98的第75百分位数为95
ACD [对于A,由决定系数的定义知:R2越大,模型的拟合效果越好,A正确;
对于B,由独立性检验的思想知:χ2值越大,“x与y有关系”的把握程度越大,B错误;
对于C,残差点所在的带状区域宽度越窄,则残差平方和越小,模型拟合精度越高,C正确;
对于D,∵9×0.75=6.75,∴第75百分位数为第7个数据95, D正确.故选ACD.]
6.(多选)如图,5个数据(x,y),去掉点D(3,10)后,下列说法正确的是( )
A.样本相关系数r变大
B.残差平方和变大
C.变量x与变量y呈正相关
D.变量x与变量y的相关性变强
ACD [由散点图可知,去掉D(3,10)后,y与x的相关性变强,且为正相关,即样本相关系数r变大,故A、C、D正确;样本相关系数r变大,则误差变小,故B错误.]
7.(2024·四川成都模拟预测)某老师为了了解数学学习成绩得分y(单位:分)与每天数学学习时间x(单位:分钟)是否存在线性关系,搜集了100组数据(xi=5 600,yi=11 200),并据此求得y关于x的经验回归方程为y=bx+56.若一位同学每天数学学习时间约80分钟,则可估计这位同学数学成绩为( )
A.106 B.122 C.136 D.140
C [由题设可得x=5 600100=56,y=11 200100=112,故112=b×56+56,故b=1,故y=x+56,
故当x=80时,y=80+56=136,故选C.]
8.(2024·青岛模拟)通过随机询问某中学110名中学生是否爱好跳绳,得到如下列联表:
已知χ2=nad-bc2a+bc+da+cb+d,P(χ2≥10.828)=0.001,根据小概率值α=0.001的χ2独立性检验,以下结论正确的为( )
A.爱好跳绳与性别有关
B.爱好跳绳与性别有关,这个结论犯错误的概率不超过0.001
C.爱好跳绳与性别无关
D.爱好跳绳与性别无关,这个结论犯错误的概率不超过0.001
C [χ2=nad-bc2a+bc+da+cb+d=110×800260×50×60×50≈7.822<10.828,故爱好跳绳与性别无关,但不能推出这个结论犯错误的概率不超过0.001,故选C.]
9.(2024·安徽合肥联考模拟)为了反映城市的人口数量x与就业压力指数y之间的变量关系,研究人员选择使用非线性回归模型y=e-910·e710 x对所测数据进行拟合,并设z=ln y,得到的数据如表所示,则c=________.
3 [x=4+6+8+104=7,z=2+c+5+64=13+c4,依题意,z=ln y=lne-910·e710 x=710x-910,
而经验回归方程z=710x-910过点7,13+c4,
故13+c4=7×710-910,解得c=3.]
10.(2024·广西联考模拟)某单位为了调查性别与对工作的满意程度是否具有相关性,随机抽取了若干名员工,所得数据统计如下表所示,其中x∈N*,且x<20,若依据小概率值α=0.1的独立性检验,认为性别与对工作的满意程度具有相关性,则x的值可以是________.(横线上给出一个满足条件的x的值即可)
附:χ2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d.
14(或15,16,17,18,19中任意一个) [χ2=20x·30x2-20x2210x·10x·9x·11x=20x99>2.706,
解得x>13.394 7,
因为x∈N*且x<20,所以x=14或x=15或x=16或x=17或x=18或x=19.
故答案为:14(或15,16,17,18,19中任意一个).]
11.(2023·河南襄城三模)某公司是一家集无人机特种装备的研发、制造与技术服务的综合型科技创新企业,产品主要应用于森林消防、物流运输、航空测绘、军事侦察等领域,获得市场和广大观众的一致好评,该公司生产的甲、乙两种类型无人运输机性能都比较出色,但操控水平需要十分娴熟,才能发挥更大的作用.该公司分别收集了甲、乙两种类型无人运输机在5个不同的地点测试的某项指标数xi,yi(i=1,2,3,4,5),数据如下表所示:
(1)试求y与x间的样本相关系数r,并利用r说明y与x是否具有较强的线性相关关系;(若r>0.75,则线性相关程度很高)
(2)从这5个地点中任抽2个地点,求抽到的这2个地点,甲型无人运输机指标数均高于乙型无人运输机指标数的概率.
附:相关公式及数据:
r=,0.9≈0.95.
[解] (1)x=2+4+5+6+85=5,
y=3+4+4+4+55=4,
所以(xi-x)(yi-y)=-3×(-1)+(-1)×0+0×0+1×0+3×1=6,
(xi-x)2=9+1+0+1+9=20,
(yi-y)2=1+0+0+0+1=2,
样本相关系数r==625×2=910≈0.95,
因为r>0.75,所以y与x具有较强的线性相关关系.
(2)将地点1,2,3,4,5分别记为A,B,C,D,E,任抽2个地点的可能情况有(A,B),(A,C),(A,D),(A,E),(B,C),(B,D),(B,E),(C,D),(C,E),(D,E),共10种情况,其中在地点3,4,5,甲型无人运输机指标数均高于乙型无人运输机指标数,即(C,D),(C,E),(D,E),共3种情况,故所求概率为310.
12.(2023·浙江统考一模)某大学生创客实践基地,甲、乙两个团队生产同种创新产品,现对其生产的产品进行质量检验.
(1)为测试其生产水准,从甲、乙生产的产品中各抽检15个样本,评估结果如图:现将“一、二、三等”视为产品质量合格,其余为产品质量不合格,请完善2×2列联表,依据小概率值α=0.05的独立性检验,能否认为“产品质量”与“生产团队”有关.
(2)将甲、乙生产的产品各自进行包装,每5个产品包装为一袋,现从中抽取一袋检测假定抽取的这袋产品来自甲生产的概率为35,来自乙生产的概率为25,检测结果显示这袋产品中恰有4件合格品,求该袋产品由甲团队生产的概率(以(1)中各自产品的合格频率代替各自产品的合格概率).
附:χ2=nad-bc2a+bc+da+cb+d,n=a+b+c+d.
[解] (1)完善列联表如下:
零假设H0:“产品质量”与“生产团队”无关.
χ2=30×108-18218×12×15×15=5>3.841,
依据小概率值α=0.05的独立性检验,认为“产品质量”与“生产团队”有关.
(2)记事件A代表“一袋中有4个合格品”,事件B代表“所抽取的这袋来自甲生产”,事件C代表“所抽取的这袋来自乙生产”,故P(B)=35,P(C)=25.
由P(A)=P(A|B)·P(B)+P(A|C)·P(C)=5×454×15 ×35+5×254×35 ×25=8643 125,
故P(B|A)=PABPA=PAB·PBPA=5×454×15 ×358643 125=89.
所以该袋产品由甲团队生产的概率为89.月份x
1
2
3
4
5
销量y/万辆
1.5
1.6
2
2.4
2.5
年份
2017
2018
2019
2020
2021
2022
2023
广告费支
出x/万元
1
2
4
6
11
13
19
销售量
y/万台
1.9
3.2
4.0
4.4
5.2
5.3
5.4
记忆力x
2
5
6
8
9
判断力y
7
8
10
12
18
X
Y
合计
Y=0
Y=1
X=0
a
b
a+b
X=1
c
d
c+d
合计
a+c
b+d
n=a+b+c+d
α
0.1
0.05
0.01
0.005
0.001
xα
2.706
3.841
6.635
7.879
10.828
性别
兴趣
合计
有兴趣
没兴趣
男
60
女
合计
α
0.10
0.05
0.025
0.010
xα
2.706
3.841
5.024
6.635
性别
兴趣
合计
有兴趣
没兴趣
男
55
5
60
女
30
10
40
合计
85
15
100
X
0
1
2
P
15
35
15
性别
对错
合计
完全答对
部分答对
男
女
合计
α
0.100
0.050
0.010
0.005
xα
2.706
3.841
6.635
7.879
性别
对错
合计
完全答对
部分答对
男
45
45
90
女
42
18
60
合计
87
63
150
X
0
1
2
P
120
720
35
情况
性别
合计
男生
女生
了解大运会
70
50
120
不了解大运会
30
50
80
合计
100
100
200
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
X
0
1
2
3
P
8125
36125
54125
27125
x/℃
15
20
25
30
35
y/百元
1
2
2
4
5
月份代码x
1
2
3
4
5
碳酸锂价格y(万元/kg)
0.5
0.6
1
m
1.5
吸烟
肺癌
合计
肺癌患者
非肺癌患者
吸烟者
20
m
40
不吸烟者
n
55
60
合计
25
75
100
α
0.050
0.010
0.001
xα
3.841
6.635
10.828
跳绳
性别
合计
男
女
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
x
4
6
8
10
z
2
c
5
6
性别
满意程度
对工作满意
对工作不满意
男
5x
5x
女
4x
6x
α
0.10
0.05
0.025
0.010
0.005
0.001
xα
2.706
3.841
5.024
6.635
7.879
10.828
地点1
地点2
地点3
地点4
地点5
甲型无人运输
机指标数x
2
4
5
6
8
乙型无人运输
机指标数y
3
4
4
4
5
质量
团队
合计
甲
乙
合格
不合格
合计
15
15
30
α
0.15
0.10
0.05
0.025
0.01
0.001
xα
2.072
2.706
3.841
5.024
6.635
10.828
质量
团队
合计
甲
乙
合格
12
6
18
不合格
3
9
12
合计
15
15
30
高三数学一轮复习第十章统计与成对数据的统计分析第二课时用样本估计总体学案: 这是一份高三数学一轮复习第十章统计与成对数据的统计分析第二课时用样本估计总体学案,共19页。
2025版高考数学全程一轮复习学案第九章统计与成对数据的统计分析第三节成对数据的统计分析: 这是一份2025版高考数学全程一轮复习学案第九章统计与成对数据的统计分析第三节成对数据的统计分析,共6页。学案主要包含了常用结论等内容,欢迎下载使用。
高考数学复习第十章 第三节 成对数据的统计分析(导学案): 这是一份高考数学复习第十章 第三节 成对数据的统计分析(导学案),共23页。