|教案下载
搜索
    上传资料 赚现金
    苏科初中数学九下《8.3 统计分析帮你做预测》word教案
    立即下载
    加入资料篮
    苏科初中数学九下《8.3 统计分析帮你做预测》word教案01
    苏科初中数学九下《8.3 统计分析帮你做预测》word教案02
    苏科初中数学九下《8.3 统计分析帮你做预测》word教案03
    还剩73页未读, 继续阅读
    下载需要10学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    初中数学苏科版九年级下册8.3 统计分析帮你做预测教案

    展开
    这是一份初中数学苏科版九年级下册8.3 统计分析帮你做预测教案,共76页。教案主要包含了二次移动平均值计算表 单位等内容,欢迎下载使用。

    











    统计预测与决策 教案

















    时间:2005年9月

    管理预测与决策方法授课计划
    • 定性预测方法
    • 定量预测方法
    u 确定性方法
    Ø 回归分析预测方法
    Ø 时间序列平滑预测方法
    Ø 趋势外推预测方法
    Ø 马尔可夫预测与决策法
    u 不确定性方法
    Ø 灰色系统预测
    Ø 随机性决策分析
    Ø 模糊决策
    Ø 粗糙集理论
    第一章 预测概述
    1.1 引言
    1. 预测的兴起
    预测于20世纪60-70年代在美国逐步兴起的
    预测:预测是指对事物的演化预先做出的科学推测。广义的预测,既包括在同一时期根据已知事物推测未知事物的静态预测,也包括根据某一事物的历史和现状推测其未来的动态预测。狭义的预测,仅指动态预测,也就是指对事物的未来演化预先做出的科学推测。预测理论作为通用的方法论,既可以应用于研究自然现象,又可以应用于研究社会现象,如社会预测、人口预测、经济预测、政治预测、科技预测、军事预测、气象预测等。
    2. 预测的作用
    正确的预测是进行科学决策的依据。政府部门或企事业单位制定发展战略、编制计划以及日常管理决策,都需要以科学的预测工作为基础。
      如“诸葛亮借东风、空城计”、以美国为首的多国部队实施的“沙漠风暴”,研究人员建立了热能转换模型,进行了一系列模拟计算。因此,人们说第一次世界大战是化学战(火药),第二次世界大战是物理战(原子武器),而海湾战争是数学战,指的是这场战争在战前就已对战争的进程以及战争所涉及和影响的方方面面做出了科学预测。
    制订经济计划的依据之一
    提高经济效益的手段之一
    提高管理水平的途径之一
    1.2 预测的基本原则
    1. 坚持正确的指导思想
    2. 坚持系统性原则
    预测者所研究的事物和自然界的其他事物一样,都有自己的过去、现在和将来,就是存在着一种纵的发展关系,因果关系,而这种因果关系要受某种规律的支配。将事物作为一个互相作用和反作用的动态整体来研究,而且要将事物本身与周围的环境组合成一个系统综合体来研究。
    例如:1943年全世界估计有三亿疟疾病患者,每年有300万人死亡,4500万人死于瘟疫,1945年后使用了DDT,十年内疟疾病的死亡率降低了二分之一,瘟疫病患者每年仅死亡几千人。然而DDT除了杀死害虫外,还杀死了大量其他有益的鸟类、鱼类等动物及植物,而且外界环境不能使DDT毒性衰减,据估计现在存留在大气层,大地以及海洋中的DDT约有十亿磅以上。
    3.坚持关联性原则
    4.坚持动态性原则
    1.3 预测的分类
    1.按预测的范围或层次分类
    (1) 宏观预测
    是指针对国家或部门、地区的活动进行的各种预测。它以整个社会经济发展的总图景作为考察对象,研究经济发展中各项指标之间的联系和发展变化。如:社会商品总供给、总需求的规模、结构、发展速度和平衡关系的预测;社会物价总水平的变动;宏观经济预测是政府制定方针政策、编制和检查计划,调整经济结构的重要依据。
    (2) 微观预测
    是针对基层单位的各项活动进行的各种预测。它以企业或农户生产经营发展的前景作为考察对象,研究微观经济中各项指标间的联系和发展变化。具体商品的生产量、需求量和市场占有率的预测等。微观经济预测,是企业制定生产经营决策,编制和检查计划的依据。
    宏观预测应以微观预测为参考;微观预测应以宏观预测为指导,二者相辅相成。
    2. 按预测的时间长短来分类
    (1) 长期预测
    一般是指对5年以上发展前景的预测.
    (2) 中期预测
    一般指1年以上5年以下发展前景的预测.
    (3) 短期预测
    一般指对3个月以上1年以下发展前景的预测
    (4) 近期预测
    一般指对3个月以下企业生产经营状况的预测。
    3. 按预测方法的性质分类
    (1) 定性预测
    指预测者通过调查研究,了解实际情况,凭自己的实践经验和理论、业务水平,对事物发展前景的性质、方向和程度做出判断进行预测的方法。
    (2) 定量预测
    是指根据准确、及时、系统、全面的调查资料和信息,运用软计算方法和数学模型,对事物未来发展的规模、水平、速度和比例关系的测定。常用的定量预测方法有回归分析预测、时间序列预测、因果分析预测、灰色系统预测、粗糙集方法、模糊集方法及神经网络等。
    4. 按预测时是否考虑时间因素来分类
    (1) 静态预测
    指不包含时间变动因素,对事物在同一时期的因果关系进行预测
    (2) 动态预测
    指包含时间变动因素,根据事物发展的历史和现状,对其未来发展前景做出的预测。
    1.4 预测的程序
    1. 明确预测任务,制定预测计划
    预测计划是根据预测任务制定的预测方案,包括预测的内容、项目,预测所需的资料,准备选用的预测方法,预测的进行和完成时间,编制预测的预算,调配力量,组织实施等。
    2. 搜集、审核和整理资料
    筛选资料的标准有三个(1) 直接有关性;(2) 可靠性;(3) 最新性。
    3.选择预测方法和建立数学模型
    数学模型也称为预测模型,是指反映经济现象过去和未来之间,原因和结果之间相互联系和发展变化规律性的数学方程式.
    4.检验模型,进行预测
    模型建立之后必须经过检验才能用于预测。一般的,评价模型优劣的基本原则有以下几条:
    (1) 理论上合理
    (2) 统计可靠性高
    (3) 预测能力强
    (4) 简单适用
    5. 分析预测误差,评价预测结果
     即分析预测值偏离实际值的程度及其产生的原因.
    6.向决策者提交预测报告
    1.5 预测的精度和价值
    1. 预测精度评价指标

    (1) 预测误差
    设某一项预测指标的实际值为X,预测值为


    (2) 相对误差
    预测误差在实际值中所占比例的百分数称为相对误差,记为ε,即





    (3) 平均误差






    (4) 平均绝对误差



    (5)平均相对误差





    (6)均方误差





    (7)均方根误差






    (8)两面商
    测定预测准确度的另一个指标是Janus商,计算公式如下:








    利用预测模型对样本期外的数据进行预测,有事前预测与事后预测两种。对样本期外实际情况已经发生的若干时期所进行的预测叫事后预测,对实际情况尚未发生的未来时期所进行的预测叫事前预测,后者是预测的最终目的。
    2. 预测的价值
    预测的价值可分为事实预测和非事实预测
    一般说来,对于人们难以控制的事物或现象,预测的精度越高,其价值就越大,如气象预测、地震预测等,这类预测称为事实预测。对于一些部分可控的事物,就不能按照预测的精度或预测是否成为事实来衡量其价值。这类预测通常称为非事实性预测(指预测具有引导人们去执行预测结果的功能。
    非事实预测可分为按照对预测结果的影响效应,非事实性预测可以分为自实现预测(self—fullfilling forcast)和自拆台预测(self-defeating forcasting)两种。
    第二章 定性预测方法
    • 定性预测,是预测者根据自己的知识背景以及所掌握的实际情况和实践经验,对经济发展前景的性质、方向和程度做出的判断。
    • 定性预测特点:需要的数据少,能考虑无法定量的因素,比较简便可行。
    • 在掌握的数据不多、不够准确或主要影响因素难以用数字描述,无法进行定量分析时,定性预测就是一种行之有效的预测方法。

    • 由于定性预测主要靠预测者的经验和判断能力,易受主观因素的影响,主要目的不在数量估计。为了提高定性预测的准确程度,应注意以下几个问题:
    (1) 应加强调查研究,努力掌握影响事物发展的有利条件、不利因素和各种活动的情况。从而使对经济发展前景的分析判断更加接近实际。
    (2) 在进行调查研究,搜集资料时,应作到数据和情况并重,使定性分析定量化。也就是通过质的分析进行量的估计,进行有数据有情况的分析判断,提高定性预测的说服力。
    (3) 应将定性预测和定量预测相结合,提高预测质量。在预测过程中,应先进行定性分析,然后进行定量预测,最后再进行定性分析,对预测结果进行调整定案。这样才能深入地判断事物发展过程的阶段性和重大转折点,提高预测的质量,为管理、决策提供依据。
    2.1 市场调查预测法
    • 常用的市场调查预测法有以下几种:
    1 .经济管理人员意见调查预测法
    2 .销售人员意见调查法
    3.商品展销、定货会调查预测法
    4.消费者购买意向调查预测法
    2.2 市场调查预测法
    • 为了提高预测的准确程度,在进行市场调查预测时应注意以下几个问题:
    • (1)调查表不要包罗万象,应只包括和预测有关的基本内容;
    • (2)要抽选出一定数目的具有代表性的调查单位;
    • (3)设法取得被调查者的充分合作;
    • (4)要参考统计资料和市场信息,对调查预测结果进行修正,以提高预测的准确程度;
    • (5)尽量利用城市和农村住户抽样调查资料,以节省人力、物力,提高调查预测的科学性和准确性。
    2.3 专家预测方法
    • 1. 头脑风暴法
    头脑风暴法: 主要是通过组织专家会议,激励全体与会专家参加积极的创造性思维。
    在诸多直观预测方法中,头脑风暴法占有重要地位。20 世纪50 年代,头脑风暴法作为一种创造性的思维方法在预测中得到广泛运用,并日趋普及。从20 世纪60 年代末期到70 年代中期,实际应用中头脑风暴法在各类预测方法中所占的比重由6.2% 增加到8.1% 。
    • 2. 德尔菲(Delphi)法
    德尔菲(Delphi)法:德尔菲法是专家会议预测法的一种发展。它以匿名方式通过几轮函询,征求专家们的意见。预测领导小组对每一轮的意见都进行汇总整理,作为参考资料再发给每个专家,供他们分析判断,提出新的论证。如此多次反复,专家的意见渐趋一致,结论的可靠性越来越大。
    – 德尔菲(Delphi)法是美国“兰德”公司20世纪40年代首先用于技术预测的。德尔菲是古希腊传说中的神谕之地,城中有座阿波罗神殿可以预卜未来,因而借用其名。
    • 近十年来,德尔菲法已成为一种广为适用的预测方法。许多决策咨询专家和决策者,常常把德尔菲法作为一种重要的规划决策工具。斯蒂纳(G. A. Steiner)在其所著作的《高层次管理规划》一书中,把德尔菲法当作最可靠的技术预测方法。在军事领域中德尔菲法应用最为普遍。工业科技发展和市场需求预测,国外也多采用德尔菲法。德尔菲法应用的其它领域还有:人口预测、医疗和卫生保健预测、经营预测、教育预测、研究方案的预测、信息处理、以及各级各类社会、经济、科技发展规划等等。
    Ø 德尔菲(Delphi)法步骤
    (1)制定调查表,准备必要背景材料具体、明确、便于答复、材料客观
    (2)选择专家
    具有较高理论水平或具丰富实践经验的人
    (3)反馈调查
    Ø 特点
    (1)匿名性
    (2)轮间反馈性
    (3)预测结果的统计特性

    Ø 派生德尔菲法
    – 自从“兰德”公司首次用德尔菲法进行预测之后,很多预测学家(其中包括“兰德”公司的专家)对德尔菲法进行了深入研究,对初始的经典德尔菲法进行了某些修正,并开发了一些派生方法。
    – 派生方法分为两大类:
    (1)保持经典德尔菲法基本特点;
    (2)改变其中一个或几个特点。

    • 专家的选择
    – 德尔菲法是一种对于意见和价值进行判断的作业。如果应邀专家对预测主题不具有广泛的知识,很难提出正确的意见和有价值的判断。即使预测主题比较窄和针对性很强,要物色很多对这一专题涉及的各个领域都有很深造诣的专家也很困难,因而物色专家是德尔菲法成败的关键,是预测领导小组的一项主要工作。
    – 如果预测任务仅仅关系到具体技术发展,最好同时从部门内外挑选。从外部选择专家,大体按如下程序进行:
    (1)编制征求专家应答问题一览表。
    (2)根据预测问题,编制所需专家类型一览表。
    (3)将问题一览表发给每个专家,询问他们能否坚持参加规定问题的预测。
    (4)确定每个专家从事预测所消耗的时间和经费。
    • 编制调查表
    • 调查表一般根据实际预测问题的要求编制。
    • 德尔菲预测过程
    经典德尔菲法一般分四轮进行。
    第一轮:发给专家的第一轮调查表不带任何框框,只提出预测主题。预测领导小组对专家填写后寄回的调查表进行汇总整理,归并同类事件,排除次要事件,用准确术语提出一个事件一览表,并作为第二轮调查表发给每个专家。
    第二轮:专家对第二轮调查表所列的每个事件作出评价,并阐明理由。领导小组对专家意见进行统计处理。
    第三轮:根据第二轮统计材料,专家再一次进行判断和预测,并充分陈述理由。有些预测在第三轮时仅要求持异端意见的专家充分陈述理由,因为他们的依据经常是其他专家忽略的一些外部因素或未曾研究过的一些问题。这些依据往往对其他成员重新作出判断产生影响。
    第四轮:在第三轮统计结果基础上,专家再次进行预测。根据领导小组要求,有的成员要重新做出论证。
    通过四轮,专家的意见一般可以相当协调。
    2.4 主观概率法
    主观概率:是预测者对某一事件在未来发生或不发生可能性的估计,反映个人对未来事件的主观判断和信任程度。
    • 主观概率法是对市场调查预测法或专家预测法得到的定量估计结果进行集中整理的常用方法。
    客观概率,是指某一随机事件经过反复试验后,出现的频数,也就是对某一随机事件发生的可能性大小的客观估量。如掷一枚硬币,出现国徽面和出现数字面的客观概率各为1/2。

    • 主观概率加权平均法
    – 主观概率加权平均法是以主观概率为权数,通过对各种预测意见进行加权平均,计算出综合性预测结果的方法。
    • 累计概率中位数法
    – 累计概率中位数法是根据累计概率,确定不同预测值的中位数,对预测值进行点估计和区间估计的方法。

    2.5 预兆预测法
    1. 预兆预测法概念
    预兆预测法:就是根据预测对象前兆现象的变化情况,推断预测对象发展前景的预测方法。
     自然现象、社会现象、经济现象等之间的相互联系,有时在变动时间上呈现先后顺序。当一种现象发生变化之后,另一种现象随之发生变化。前者的变化传递了后者即将发生变化的信息,成为后者发生变化的前兆现象。
    2.经济波动
    所谓经济波动,指的是经济增长中出现上升与下降交替的循环往复运动。一个典型的经济波动周期包括复苏、高涨、衰退和萧条四个阶段。
    3. 监测预警指标体系的构造
    • 应用预兆预测法对经济波动进行监测预警时要建立指标体系,通过对指标系统的观测和分析来反映经济运行系统的变化,以便对经济增长中行将出现的波动态势发出警报信号,为提早实施宏观调控提供依据,做到防患于未然。

    设置指标体系要考虑三个方面的问题:
    (1) 指标的内容
    指标的内容要与预警目标一致。
    (2)指标时差关系分类
    根据指标变动的时差关系,入选指标可以分为先行、同步和滞后三种类型
    (3)指标选择的原则
    l 经济性质的重要性
    l 变动特征的灵敏性与稳定性
    l 统计上的完整性、及时性与充分性。
    • 4.信息指标的综合、识别与评价
    (1)扩张指数方法
    扩张指数方法根据扩张和半扩张指标数量比例进行指标信息的综合。计算公式是:
    (2)景气对策信号方法
    景气对策信号方法采用类似交通管制信号灯的方法来显示经济总体的运行状态和应当采取的景气对策,如我国将经济运行的景气波动范围划分为过热、偏热、正常、偏冷和过冷五个景气区,分别用红灯、黄灯、绿灯、浅蓝灯和蓝灯表示。
    (3) “组合信号”预测
    在实际应用中为了提高预测的准确性,还可以利用同步指标甚至是滞后指标参与预测,然后取各个预测值的平均值作为最终预测值,称为“组合信号”预测值。
    第3章 回归分析预测法
    3.1 引言
    1.回归分析的提出
    •  回归分析起源于生物学研究,是由英国生物学家兼统计学家高尔登(Francis Galton 1822-1911)在19世纪末叶研究遗传学特性时首先提出来的。
    •  高尔登在1889年发表的著作《自然的遗传》中,提出了回归分析方法以后,很快就应用到经济领域中来,而且这一名词也一直为生物学和统计学所沿用。
    • 回归的现代涵义与过去大不相同。一般说来,回归是研究因变量随自变量变化的关系形式的分析方法。其目的在于根据已知自变量来估计和预测因变量的总平均值。
    2.回归分析和相关分析
    (1)函数关系
    函数关系反映客观事物之间存在着严格的依存关系。在这种关系中,当一个或几个变量取值一定时,另一个变量有确定的值与之相对应,并且这种关系可以用一个确定的数学表达式反映出来。
    一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。
    (2)相关关系
    相关关系反映的是客观事物之间的非严格、不确定的线性依存关系。这种线性依存关系有两个显著的特点:
    ①客观事物之间在数量上确实存在一定的内在联系。表现在一个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的变化。
    ②客观事物之间的数量依存关系不是确定的,具有一定的随机性。表现在当一个或几个相互联系的变量取一定数值时,与之对应的另一个变量可以取若干个不同的数值。这种关系虽然不确定,但因变量总是遵循一定规律围绕这些数值的平均数上下波动。
    (3)回归分析与相关分析的关系
    相关分析是以相关关系为对象,研究两个或两个以上随机变量之间线性依存关系的紧密程度。通常用相关系数表示,多元相关时用复相关系数表示。
      回归分析是对具有相关关系的变量之间的数量变化规律进行测定,研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的数量变动关系,并据此对因变量进行估计和预测的分析方法。由回归分析求出的关系式,称为回归模型 
      回归分析与相关分析的联系是,它们是研究客观事物之间相互依存关系的两个不可分割的方面。在实际工作中,一般先进行相关分析,由相关系数的大小决定是否需要进行回归分析。在相关分析的基础上建立回归模型,以便进行推算、预测,同时相关系数还是检验回归分析效果的标准。相关分析需要回归分析来表明客观事物数量关系的具体形式,而回归分析则应建立在相关分析的基础上。
    3.回归模型的种类
    (1)根据自变量的多少,回归模型可以分为一元回归模型和多元回归模型。
    (2)根据回归模型的形式线性与否,回归模型可以分为线性回归模型和非线性回归模型。
    (3)根据回归模型所含的变量是否有虚拟变量,回归模型可以分为普通回归模型和带虚拟变量的回归模型。
    此外,根据回归模型是否用滞后的因变量作自变量,回归模型又可分为无自回归现象的回归模型和自回归模型。
    3.2 一元线性回归预测法
    一元线性回归预测法,是对两个具有线性关系的变量,建立线性回归模型,根据自变量的变动来预测因变量平均发展趋势的方法。
    • 1. OLS (Ordinary Least Square)估计
    • 2. OLS的特性
    • 最小二乘估计量 具有线性、无偏性和最小方差性等良好的性质。线性、无偏性和最小方差性统称BLUE性质。满足BLUE性质的估计量称为BLUE估计量。
    • 3. 回归方程的检验
    • 在一元线性回归模型中最常用的显著性检验方法有:
    – 相关系数检验法
    – F 检验法
    – t 检验法
    3.3 回归方程的检验
    3.3.1 离差平方和的分解与可决系数
    在一元线性回归模型中,观测值的数值会发生波动,这种波动称为变差。变差产生的原因如下:
    ①受自变量变动的影响,即x取值不同时的影响;
    ②受其他因素(包括观测和实验中产生的误差)的影响。为了分析这两方面的影响,需要对总变差进行分解。
    1.离差平方和的分解

    =

    总变差=剩余变差+回归变差

    2.可决系数

    可决系数的大小表明了在y的总变差中由自变量x变动所引起的回归变差所占的比例,是反映变量与之间的线性相关关系密切程度的一个重要指标。根据上述定义,有
     

    3.3.2 相关系数检验法
    相关系数是用来衡量一元线性回归模型中两个变量之间线性相关关系强弱程度的指标。一般说来,相关系数愈大说明两个变量之间的线性相关关系愈强。但相关系数的绝对值大到什么程度时,才能认为两变量之间的线性相关关系是显著的,回归模型用来预测是有意义的?对于不同组数的观测值,不同数值的显著性水平,衡量的标准是不同的。这一数量界限的确定只有根据具体的条件和要求,通过相关系数检验法的检验才能加以判别。相关系数检验法的步骤如下:
    1.计算相关系数R;
    2.根据回归模型的自由度(n-2)和给定的显著性水平值,从相关系数临界值表中查出临界值;
    3.判别。若|R|>,表明两变量之间线性相关关系显著,检验通过,这时回归模型可以用来预测;若|R|,表明两变量之间线性相关关系不显著,检验未通过。在这种情况下,回归模型不能用来进行预测。这时,应分析其原因,对回归模型重新调整。
    3.3.3 F检验法
    构造F统计量
     
    可以证明F服从第一自由度为1,第二自由度为n-2的F分布。对给定的显著性水平,查F分布表可得临界值。
    若F>,则认为两变量之间线性相关关系显著;反之,若F,则认为两变量之间线性相关关系不显著。
    3.3.4 t检验法
    t检验法是检验a, b是否显著异于0的方法。我们以对b检验为例来说明t检验法的步骤。
    构造t统计量                     
    其中,称为的样本标准差。可以证明服从自由度为(n-2)的t分布。查t分布表得临界值。若t>,则认为b显著异于0,反之,若t,则认为b不显著异于0。
    对于a是否显著异于0的检验过程与此完全相同。
    3.3.5 预测区间
    1.点估计
    在一元线性回归模型中,对于自变量x的一个给定值,代入回归模型,就可以求得一个对应的回归预测值,又称为点估计值。
    设预测点为,则预测值为:


    2.区间估计
    所谓预测区间就是指在一定的显著性水平上,依据数理统计方法计算出的包含预测对象未来真实值的某一区间范围。
    设其预测误差为:

    由于和都服从正态分布,所以也服从正态分布,其期望值与方差分别为:
              

         
    所以,           


    通过上述分析,可以得到,在显著性水平为时,预测值的预测区间为:

    当实际观测值较多,满足大样本条件(一般>30)时,式(中根式的值近似地等于1,式中的也近似趋于正态分布,因此,可简化为:

    3.3.5 几个应当注意的问题
    1.重视数据的收集和甄别
    在收集数据的过程中可能会遇到以下困难:
    (1)一些变量无法直接观测。
    (2)数据缺失或出现异常数据。
    (3)数据量不够。
    (4)数据不准确、不一致、有矛盾。
    2. 合理确定数据的单位
    在建立回归方程时,如果不同变量的单位选取不适当,导致模型中各变量的数量级差异悬殊,往往会给建模和模型解释带来诸多不便。比如模型中有的变量用小数位表示,有的变量用百位或千位数表示,可能会因舍入误差使模型计算的准确性受到影响。因此,适当选取变量的单位,使模型中各变量的数量级大体一致是一种明智的做法。
    3.3.6 举例





    例 江苏省1986-2003年国内生产总值和固定资产投资完成额数据如表3.3.1所示。

    表3.3.1 一元线性回归模型计算表     单位;亿元
    年  份
    固定资产投
    资完成额x
    国内生产总值y
    x2
    y2
    xy
    1986
    241.23
    744.94
    58191.91
    554935.6
    179701.9
    1987
    317.12
    924.33
    100565.1
    850694.6
    292489.3
    1988
    371.87
    1208.85
    138287.3
    1461318
    449535
    1989
    320.23
    1321.85
    102547.3
    1747287
    423296
    1990
    356.3
    1416.5
    126949.7
    2006472
    504699
    1991
    439.98
    1601.38
    193584.4
    2564418
    704575.2
    1992
    711.7
    2136.02
    506516.9
    4562581
    1520205
    1993
    1144.2
    2998.16
    1309194
    8988963
    3430495
    1994
    1331.13
    4057.39
    1771907
    16462414
    5400914
    1995
    1680.17
    5155.25
    2822971
    26576603
    8661696
    1996
    1949.53
    6004.21
    3800667
    36050538
    11705388
    1997
    2203.09
    6680.34
    4853606
    44626943
    14717390
    1998
    2535.5
    7199.95
    6428760
    51839280
    18255473
    1999
    2744.65
    7697.82
    7522129
    59256433
    21112426
    2000
    2995.43
    8584.73
    8972601
    73663254
    25708967
    2001
    3304.96
    9511.91
    10909545
    90476432
    31417458
    2002
    3849.24
    10631.75
    14816649
    113034108
    40924157
    2003
    5335.8
    12451.8
    28470762
    155047323
    66440314
    合计
    31828.13
    90323.18
    92905430
    689769996
    251849180.4
    数据来源:《江苏统计年鉴》
    试配合适当的回归模型并进行显著性检验;若2004年该省固定资产投资完成额为5922亿元,当显著性水平=0.05时,试估计2004年其国内生产总值的预测区间。
    解:
    1.绘制散点图
    设国内生产总值为y, 固定资产投资完成额为x,绘制散点图(图略),由散点图可以看出两者呈线性关系,可以建立一元线性回归模型。
    2.设一元线性回归方程为

    3.计算回归系数
    列表计算有关数据(见表4.8.1),并计算出回归系数估计值:


    所求回归预测方程为:
    4.检验线性关系的显著性
    由于在一元线性回归情形,相关系数检验、F检验、t检验的结果一致,此处仅给出相关系数检验。


     当显著性水平=0.05,自由度=n-m=18-2=16时,查相关系数临界值表,得,因
    R=0.9899>
    故在的显著性水平上,检验通过,说明两变量之间线性相关关系显著。
    5.预测
    (1)计算估计值的标准误差

      =
    (2)当显著性水平,自由度=n-2=18-2=16时,查t分布表得:

    (3)当亿元时,代入回归方程得y的点估计值为:
    (亿元)
    预测区间为:



    即:当2004年全省固定资产投资完成额为5922亿元时,在的显著性水平上,国内生产总值的预测区间为:13705.6~17234.6亿元之间。
    • 一元线性回归模型研究的是某一因变量与一个自变量之间的关系问题。但是,客观现象之间的联系是复杂的,许多现象的变动都涉及到多个变量之间的数量关系。
    • 研究某一因变量与多个自变量之间的相互关系的理论和方法就是多元线性回归模型。
    3.4 多元线性回归预测法
    3.4.1 多元线性回归模型及其假设条件
    设所研究的对象受多个因素的影响,假定各个影响因素与y的关系是线性的,这时就需要建立多元线性回归模型:

    给定变量y,的一组观测值,对应地有
    ,   
    若取的观测值恒等于1,即对任意有=1,则式变为:



    用矩阵形式表示为



    其中
        
    多元线性回归模型的基本假设条件如下:
    假设1: ,即
    E(u)=E

    假设2:

    用矩阵形式表示为

    =
    =
    =
    式称为高斯-马尔可夫(Gauss-Markov)假设。
    假设3:
    式要求随机扰动项u与自变量不相关。
    假设4:r(X)=m, .
    假设4限定矩阵X的秩等于参数个数,即要求自变量不相关。
    由于随机扰动项包含了“非主要因素”的影响、随机变化、观测误差和模型数学形式设定偏差等各种因素对y的影响的总和,根据中心极限定理,还可以进一步假设随机扰动向量u服从n维正态分布,即
    u~ N(,In)。
    3.4.2 模型参数的估计
    与一元线性回归模型类似,我们仍采用最小二乘法估计参数向量B,设观测值与回归方程估计值的残差向量为E,则

    其中

    根据最小二乘法的要求,应有



    由极值原理,根据矩阵求导法则,上式对B求导,并令其等于零,则得:
    ==
        =-2=0
    整理得回归系数向量B的估计值为:
     
    3.4.3 回归系数向量估计值的统计性质
    1.回归系数向量B的估计值具有线性性质。
    由式(5.2.2)可知,回归系数向量B的估计值为Y的线性组合。
    2.估计值是回归系数向量B的无偏估计量。
    回归系数向量估计值的数学期望

       =
       =
       ==B                     
    可见是B的无偏估计。
    3.回归系数向量估计值具有最小方差性
    回归系数向量估计值的协方差

    因为=-B
         =
    故=
    =
    =
    =
    式中矩阵主对角线上的元素为回归系数向量估计值的方差,其余元素为回归系数向量估计值的协方差。可以证明,回归系数向量估计值具有最小方差性,此处从略
    3.4.4 多元线性回归模型的检验
    • 常用的检验方法有
    • 1.R检验法
    • 2.F检验法
    • 3. t检验法
    • 4.DW检验法。
    在建立多元线性回归模型的过程中,为进一步分析回归模型所反映的变量之间的关系是否符合客观实际,引入的影响因素是否有效,同样需要对回归模型进行检验。
    1.R检验法
    R检验法是通过复相关系数检验一组自变量与因变量y之间的线性相关程度的方法,又称复相关系数检验法。与一元线性回归模型类似,可以通过对总变差的分解
      
    得到多元线性回归模型之R2的计算公式。上式右边的第二项称为回归变差(或称回归平方和),回归平方和反映了与之间的变差,这一变差由自变量的变动而引起,是总变差中由自变量解释的部分,它的大小反映了自变量的重要程度;等式右边的第一项称为剩余变差(或称残差平方和),它是由观测或实验中产生的误差以及其他未加控制的因素引起的,反映的是总变差中未因变量解释的部分。即
    总变差=剩余变差+回归变差
    与一元回归分析一样,也可以利用在总离差中所占的比重表示多元线性回归模型的复可决系数。
          
    它可以用来衡量因变量与自变量之线性相关关系的密切程度。
                     
    称为复相关系数。这里说明在y的总变差中,由一组自变量变动所引起的变差所占的百分比;R则描述一组自变量与因变量y之间的线性相关程度。它们所体现是一组自变量对因变量的影响程度及其线性相关程度,所以,这里分别称它们为复可决系数和复相关系数。
    与相关系数检验法一样,复相关系数检验法的步骤为:(1)计算复相关系数;(2)根据回归模型的自由度n-m和给定的显著性水平值,查相关系数临界值表;(3)判别。
    在实际工作中,复相关系数的计算常用其简捷形式,如对于二元和三元的情形,其简捷形式分别如式所示:
       

    由于是一个随自变量个数增加而递增的增函数,所以,当我们对两个具有不同自变量个数但性质相同的回归模型进行比较时,就不能只用作为评价回归模型优劣的标准,还必须考虑回归模型所包含的自变量个数的影响。因此,就需要定义一个经过校正的,记为:
           
    这里,n-m是剩余变差的自由度,n-1是总变差的自由度。由此可见,中体现了自变量个数m的影响。根据上式可得与之间的关系式如下:
    =1-(1-)       
    从式可以看出:
    (1)当m>1时,<。说明中包含了自变量个数的影响,随着自变量个数的增加,总是小于。
    (2)尽管总是非负的,但却可能为负。若遇到为负数的情况,取值为零。
    2.F检验
    F检验是通过F统计量检验假设:是否成立的方法。
    (1)F统计量。
             
    式中的m-1是回归变差的自由度,n-m是剩余变差的自由度。可以证明F统计量服从第一自由度为m-1,第二自由度为n-m的F分布。故对给定的显著性水平,查F分布表可得临界值。若
    F>
    则否定假设,认为一组自变量与因变量y之间的回归效果显著;反之,则不显著。一般来讲,回归效果不显著的原因有以下几种:
    ① 影响y的因素除了一组自变量之外,还有其他不可忽略的因素;
    ② y与一组自变量之间的关系不是线性的;
    ③ y与一组自变量之间无关。
    这时,回归模型就不能用来预测,应分析其原因另选自变量或改变模型的形式。
    (2)F统计量与可决系数、相关系数的关系。从式中我们可以推导出三者的关系:
            
            
    同样,F分布的临界值与相关系数临界值也具有上述等式关系。
    3.t检验
    前述的R检验和F检验都是将所有的自变量作为一个整体来检验它们与因变量y的相关程度以及回归效果,而t检验则是通过t统计量对所求回归模型的每一个系数逐一检验假设:是否成立的方法。
    (1)t统计量
            
    式中为第j个自变量的回归系数;是的样本标准差。
    (2)t检验的步骤
    ①计算估计标准误差

    对于二元和三元情形,估计标准误差的简捷公式分别为
         

     ②计算样本标准差,由式可知
              
    式中为矩阵主对角线上的第j个元素。
    ③ 计算t统计量
    ④ 建立假设

    若>成立,则否定假设,说明对y有显著影响;反之假设成立,被接受,说明对y无显著影响,则应删除该因素。
    4.DW检验
    (1)序列相关的概念及对回归模型的影响
    序列相关是指数列的前后期相关。这里讲的前后期相关,可以是只与前一期相关,也可以与前若干期都相关。最常见的是时差为一期的序列相关,又称一阶自相关。回归模型假设随机误差项之间不存在序列相关或自相关,即互不相关,,。若回归模型不满足这一假设,则称回归模型存在自相关,这时,若我们继续使用最小二乘法估计参数,将可能产生下列严重后果:
    ①估计标准误差S可能严重低估的真实值;
    ②样本方差可能严重低估的真实值;
    ③估计回归系数可能歪曲的真实值;
    ④通常的F检验和t检验将不再有效;
    ⑤根据最小二乘估计量所作的预测将无效。
    (2)DW检验法
    在序列相关中,最常见的是一阶自相关,最常用的检验方法是DW检验法(Durbin-Watson准则)。定义DW统计量为:
                
    其中:,是的估计量;
    因为的最初序号必须是1,所以分子求和公式必须从2开始。将式展开,得:
             
    在大样本情况下,即n>30,可以认为,所以上式可以写成:
           
    是与的相关系数的估计量。当与正相关时,,;当与负相关时,,;若不存在自相关或相关程度很小时,,。从式(可以看出,DW值在0~4之间。根据DW统计量,检验模型是否存在自相关,其步骤如下:
    ①利用最小二乘法求回归模型及残差;
    ②计算DW统计量;
    ③确立假设,即假定回归模型不存在自相关;
    ④根据给定的检验水平及自变量个数m从DW检验表中查得相应临界值,并利用表3.4.1判别检验结论。
    从表3.4.1可以看出,DW检验的最大弊端是存在着无结论区域。无结论区域的大小与样本容量n和自变量个数m有关,当n一定时,m愈大,无结论区域也愈大;当m一定时,n愈大,无结论区域就愈小。如果计算的DW统计量落到了无结论区域,那么,决策者就不能作出回归模型是否存在自相关现象的结论。在这种情况下,解决的办法是:(I)增加样本容量,重新计算DW统计量,再进行检验;(II)调换样本,利用新的样本计算DW统计量,然后再进行检验;(III)利用其他方法进行自相关性检验。
    表3.4.1 DW检验判别表
          DW值
       检验结果
    4-dL﹤DW﹤4
    0﹤DW﹤dL
    du﹤DW﹤4- du
    dL﹤DW﹤du
    4-du﹤DW﹤4- dL
    否定假设,出现负自相关
    否定假设,出现正自相关
    接受假设,不存在自相关
    检验无结论
    检验无结论

    将上面DW检验判别表绘成图形如图所示。









        f(d)         无自相关
             

             正   无             无    负
             自   结             结    自
             相   论             论    相
             关   域             域    关
    d
            0   dL dU 2 4-dU 4-dL 4
    图5.4.1 DW检验判别域


    (3)产生自相关的原因及补救办法。当检验结果出现0﹤DW﹤dL和4-dL﹤DW﹤4情况时,说明随机误差项相互独立的假设不能成立,回归模型存在自相关。在实际预测中,产生自相关的原因可能是:
    ①忽略了某些重要的影响因素。由于许多经济变量往往存在自相关,把它们忽略之后,其影响将在误差项中反映出来。
    ②错误地选用了回归模型的数学形式。如果回归模型的数学形式与所研究的变量之间的真实关系形式不一致,则值在时间上有可能相关。
    ③随机误差项本身的确存在自相关。例如:战争、自然灾害或某些政策对一些经济变量的影响是有后效的,所以随机因素本身可能存在自相关。
    针对上述三种情况,合适的补救办法是:①把略去的重要影响因素引入回归模型中来;②重新选择回归模型的形式;③增加样本容量,改善数据的准确性。

    3.4.5 预测区间
    与一元回归模型相似,多元回归模型的预测值和预测区间计算步骤如下:
    (1)计算估计标准误差

    (2)记预测点为,则预测值为:

    预测误差的样本方差为

    (3)当预测值的显著性水平为时,多元线性回归模型的预测区间为:
    ,n﹤30      
    ,      
    由于这里的是一个影响因素数据向量,按公式(5.4.17)计算较为复杂,故在实际预测中,一般运用S代替近似地估计预测区间。
    3.4.6 应用实例
    例3.4.1 某快递服务公司的经理经过分析,认为雇员承担的业务次数及投递行程距离对工作时间有影响。对于如表所示给出的工作时间、投递行程距离及业务次数的数据,试配合适当的回归方程并进行各种检验;取显著性水平=0.05,当投递行程距离为60公里, 业务次数为2次时,试估计雇员工作时间的预测区间。
    解:1.设工作时间为y,投递行程距离为,业务次数为,并假设y与之间存在线性关系。
    表 多元线性回归方程计算表
    编号
    工作时间为y
    投递行程距离为
    业务次数为






    1
    9.3
    100
    4
    10000
    16
    400
    930
    37.2
    86.49
    2
    4.8
    50
    3
    2500
    9
    150
    240
    15.5
    25.04
    3
    8.9
    100
    4
    10000
    16
    400
    890
    35.6
    79.21
    4
    6.5
    100
    2
    10000
    4
    200
    650
    13
    42.25
    5
    4.2
    50
    2
    2500
    4
    100
    210
    8.4
    17.64
    6
    6.2
    80
    2
    6400
    4
    160
    496
    12.4
    38.44
    7
    7.4
    75
    3
    5625
    9
    225
    555
    22.2
    54.76
    8
    6
    65
    4
    4225
    16
    260
    390
    24
    36
    9
    7.6
    90
    3
    8100
    9
    270
    684
    22.8
    57.76
    10
    6.1
    90
    2
    8100
    4
    180
    549
    12.2
    37.21
    合计
    67
    800
    29
    67450
    91
    2345
    5594
    202.2
    472.8
    2.建立二元线性回归方程

    3.计算回归系数
    列表计算有关数据,由计算结果得:

    =  
      =



      ==

    4.R检验

    ==0.9508
     当=0.05,时,说明相关关系显著。
    =1-(1-)=1-(1-0.904)=0.8766
    5.F检验
     
    当时,
    说明回归效果非常显著。
    6.t检验


    根据的计算有
    ==0.5731=0.32460.5731=0.1861
    ==0.5731=0.000256
    ==0.5731=0.00705
    =-4.664
    =238.28
    =130.92
    当=0.05时,
    因为的绝对值均大于,故拒绝假设,和。据此,可以断言:投递行程距离和投递业务次数对该公司雇员工作时间有显著影响。
    7.DW检验
    表3.4.3 DW检验计算表
    编号





    1
    9.3
    8.9249
    0.3751

    0.1407
    2
    4.8
    4.9515
    -0.1515
    0.277308
    0.022952
    3
    8.9
    8.9249
    -0.0249
    0.016028
    0.00062
    4
    6.5
    7.0781
    -0.5781
    0.30603
    0.3342
    5
    4.2
    4.0281
    0.1719
    0.5625
    0.02955
    6
    6.2
    5.8581
    0.3419
    0.0289
    0.116896
    7
    7.4
    6.4765
    0.9235
    0.338259
    0.852852
    8
    6
    6.7899
    -0.7899
    2.93574
    0.623942
    9
    7.6
    7.3915
    0.2085
    0.996803
    0.043472
    10
    6.1
    6.4681
    -0.3681
    0.332468
    0.135498
    合计
    67
    66.8916
    0.1084
    5.794034
    2.300681
    =
    当=0.05,时,查DW检验表,因DW检验表中,样本容量最低是15,故取:,,因DW统计量满足
    表明回归模型不存在自相关。
    综合上述模型估计和各项检验结果可以认为:
        ++
    (-4.664) (238.28) (130.92)


    是一个较为优良的回归模型,可以用来预测。
    8.预测区间
    设预测点为,则其预测值为:
    (小时)
    预测区间为
    ==
    即:当业务次数为2次,投递行程距离为60公里时,有95%的把握估计雇员平均工作时间在5.9~5.3小时之间。

    3.5 虚拟变量回归预测
    1.虚拟变量
    品质变量不像数量变量那样表现为具体的数值。它只能以品质、属性、种类等形式来表现。要在回归模型中引入此类品质变量,必须首先将具有属性性质的品质变量数量化。通常的做法是令某种属性出现对应于1,不出现对应于0。这种以出现为1,未出现为0形式表现的品质变量,就称为虚拟变量。
    2.带虚拟变量的回归模型
    常见的带虚拟变量的回归模型有以下三种形式:
    (1) 反映政府政策变化或某种因素发生重大变异的跳跃、间断式模型。其模型的形式为
          
    式中为因变量,为自变量,为虚拟变量,设为观测值出现重大变异的年份,则的取值为:

    式定义的多元线性回归模型可以写成分段形式:

    其变化趋势如图所示。          
                      
          图3.4.1                      图3.4.2
    (2)具有转折点的系统趋势变化模型,其模型的形式为:
              
    式中:为虚拟变量,的取值为:

    为发生转折点的年份,为年份的观测值。式(5.5.2)定义的多元线性回归模型也可以写成分段形式:

    由上式可见,在转折点之前,模型的斜率为;在转折点之后,模型的斜率变化为,但是在转折点处,曲线仍然是连续的。因为时,有

      =
      =
    对于包含多个自变量的线性回归模型,同样可以建立类似的模型来描述跳跃、间断的变化;也可以建立类似的模型来描述可能存在的转折点的情形。并可以通过t检验判别虚拟变量的回归系数是否等于零来检验实际研究对象是否存在着结构变化或者转折点的变化。
    (3)含有多个虚拟变量的线性回归模型。虚拟变量在回归预测中的应用非常广泛,根据品质变量的不同特征和建立回归模型的需要,还可以引入多个虚拟变量来描述出现多次转折、跳跃和间断的情况。含有多个虚拟变量的回归模型建模步骤如下:
    ①确定虚拟变量的个数。确定虚拟变量个数的一般原则是:当品质变量有K个分类时,引入的虚拟变量个数为K-1。例如,对个人医疗保健费年支出额进行预测时,已知个人医疗保健费年支出额的大小除了受年收入的影响外,还受文化程度的影响。这时,可将文化程度分为高中及高中以下、大专、本科及本科以上三类。根据确定虚拟变量个数的一般原则,应引入两个虚拟变量。值得注意的是,如果有K个分类就指定K个虚拟变量,回归模型就会出现完全共线性,将使最小二乘法估计失效,落入所谓的虚拟变量“陷阱”之中。
    ②建立含有多个虚拟变量的回归模型,以个人医疗保健费年支出额为例,其模型为:
              (5.5.3)
    式中:为个人医疗保健费年支出额;为年收入额;和为虚拟变量,和取值分别为

    在式(5.5.3)中,把高中及高中以下文化程度作为比较的基础,其对y的影响反映在回归模型的中,而和的大小分别反映大专和大专以上文化程度对y的影响程度。
    ③估计参数,并进行各种检验。方法如前所述。
    3.应用实例
    例3.5.1 某省农业生产资料购买力和农民货币收入统计数据如表



    表3.5.1  单位:十亿元
    年份
    农资购买力y
    农民货币收入x
    年份
    农资购买力y
    农民货币收入x
    1975
    1.3
    4.7
    1981
    2.3
    11.3
    1976
    1.3
    5.4
    1982
    2.6
    15.4
    1977
    1.4
    5.5
    1983
    2.7
    15.2
    1978
    1.5
    6.9
    1984
    5.0
    19.3
    1979
    1.8
    9.0
    1985
    5.2
    27.8
    1980
    2.1
    10.0



    根据上述统计数据,试建立一元线性回归模型和带虚拟变量的回归模型,并将两模型对比分析。
    解:(1)一元线性回归模型。计算结果如下:

      
    从上述计算结果看,模型的估计标准误差S较大,可决系数也不太理想,说明该模型对实际数据的拟合效果较一般。
    (2)带虚拟变量的线性回归模型。从上述统计数据可以看出,由于1979年党的农村经济政策的影响,农村经济形势发生了巨大的变化,农民货币收入和农业生产资料购买力发生了重大变异,因此,需引入虚拟变量来反映经济政策的影响。设的取值为:

    采用式所示的模型,回归得到预测模型为:

     (9.2409)(6.3997) (5.2853)

    上述模型各项指标均通过检验,其中虚拟变量的t统计量为5.2853,说明虚拟变量对因变量有显著影响。对比上述两个模型可以看出引入虚拟变量之后,回归模型的估计标准差从0.2531降到0.1751,而可决系数由0.8821上升到0.9498,回归模型的拟合效果明显提高。

    非线性回归模型按变量个数也可以分为一元非线性回归模型和多元非线性回归模型;曲线的形式也因实际情况不同而有多种形式,如指数曲线、双曲线、S形曲线等。
    3.6 非线性回归模型的形式及其分类
    常见的非线性回归模型有以下几种:
    (1)双曲线模型:
                    
    (2)多项式模型:
             
    (3)对数模型:
                   
    (4)三角函数模型:
                   
    (5)指数模型:
                       
                    
    (6)幂函数模型:
                        
    (7)罗吉斯曲线:
                     
    (8)修正指数增长曲线:
                       
     根据非线性回归模型线性化的不同性质,上述模型一般可以分成三种类型:
     第一类:直接换元型。这类非线性回归模型通过简单的变量换元可直接化为线性回归模型,由于这类模型的因变量没有变形,所以可以直接采用最小二乘法估计回归系数并进行检验和预测。
    第二类:间接代换型。这类非线性回归模型经常通过对数变形代换间接地化为线性回归模型。由于这类模型在对数变形代换过程中改变了因变量的形态,使得变形后模型的最小二乘估计失去了原模型的残差平方和为最小的意义,从而估计不到原模型的最佳回归系数,可能造成回归模型与原数列之间的较大偏差。
    第三类:非线性型。这类非线性回归模型属于不可线性化的非线性回归模型。第一类和第二类非线性回归模型相对于第三类,又称为可线性化的非线性回归模型。以下各节将分别讨论三类非线性回归模型的线性化问题。
    换元过程和参数估计法如表3.6.1所示 

    表3.6.1 直接换元法的变量代换
    原模型
    模型代换
    代换后模型
    参数
    估计
    双曲线模型




    一元线性回归OLS法
    多项式模型



    多元线性回归OLS法
    对数模型
     


    一元线性回归OLS法
    三角函数模型
     


    一元线性回归OLS法
    例3.6.1 设某商店1991~2000年的商品流通费用率和商品零售额资料如表3.6.2。
    表3.6.2 直接换元法计算表
    年份
    商品流通费用率%
    商品零售额(万元)




    1991
    7.0
    10.2
    0.0980
    0.6860
    0.00960
    49.00
    1992
    6.2
    11.7
    0.0855
    0.5301
    0.00731
    38.44
    1993
    5.8
    13.0
    0.0769
    0.4460
    0.00591
    33.64
    1994
    5.3
    15.0
    0.0667
    0.3535
    0.00445
    28.09
    1995
    5.0
    16.5
    0.0606
    0.3030
    0.00367
    25.00
    1996
    6.6
    19.0
    0.0526
    0.2420
    0.00277
    21.16
    1997
    6.1
    22.0
    0.0455
    0.2048
    0.00207
    20.25
    1998
    6.4
    25.0
    0.0400
    0.1760
    0.00160
    19.36
    1999
    6.2
    28.5
    0.0351
    0.1474
    0.00123
    17.64
    2000
    6.0
    32.0
    0.0313
    0.1252
    0.00098
    16.00
    合计
    51.0

    0.5922
    3.2140
    0.03959
    268.58
    根据上述资料,配合适当的回归模型分析商品零售额与流通费用率的关系,若2001年该商店商品零售额为36.33万元,试预测2001年的商品流通费用额。
    解:(1)绘制散点图(见图3.6.2)。从图中可以清楚的看到:随着商品零售额的增加,流通费用率有不断下降的趋势,呈双曲线形状。

    图 3.6.2 商品零售额与流通费用率的散点图
    (2)建立双曲线模型。
       令

    (3)估计参数。

      ==

    得回归模型为:
      
    (4)相关系数

     =
    由于商品零售额增加,流通费用率呈下降趋势,二者之间为负相关关系,故相关系数取为负值:-0.9898。说明两者高度相关,用双曲线回归模型配合进行预测是可靠的。
    (5)预测。将2001年该商店零售额36.33万元代入模型,得2001年流通费用率为:

    故2001年该商店商品流通费用总额预测值为:万元。


    习题 3
    1.试述一元线性回归模型的假设条件。
    2.试述最小二乘法的基本思路。
    3.说明可决系数的意义并写出计算可决系数的公式。
    4.为什么说建立一元线性回归模型时要合理确定数据的单位?
    5.已知下列数据组       
    X






    10
    12
    Y


    11
    14
    16
    19
    22
    25
    (1)建立一元线性回归模型;
    (2)计算相关系数R,取显著性水平,对回归模型进行显著性检验;
    (3)计算估计标准误差。
    6.某省1978~1986年居民消费品购买力和居民货币收入统计数据如下:


     
    年份
    居民消费品购买力
    居民货币收入
    年份
    居民消费品购买力
    居民货币收入
    1978
    8.5
    11.6
    1983
    20.5
    25.6
    1979
    11.1
    14.1
    1984
    27.8
    33.6
    1980
    13.6
    17.1
    1985
    33.5
    40.5
    1981
    15.8
    19.6
    1986
    39.2
    47.8
    1982
    17.6
    22.1




    根据上述统计数据,试
    (1)建立一元线性回归模型;
    (2)对回归模型进行显著性检验(取=0.05);
    (3)若居民货币收入每年平均增长19%,试预测该省1987年居民消费品购买力;
    (4)对1987年居民消费品购买力做区间预测(取)。
    7.何谓高斯-马尔可夫假设?
    8.说明序列相关对回归模型的影响。
    9.说明自变量“过少”或“过多”对回归模型的影响。
    10.为什么说样本容量不能小于模型中所包含的自变量个数加1?
    11.运用多元线性回归预测技术,对有关数据进行计算,结果如下:

    (-2.17) (5.76) (2.27) (1.984)
    =0.97849 =0.97418 n=19 F=227.398 S=22.445 DW=1.0429
    (1) 取显著性水平=0.05,对回归模型进行R检验、F检验、t检验和DW检验;
    (2) 对检验结果加以分析。
    12.某市1977~1988年主要百货商店营业额、在业人员总收入、当年竣工住宅面积的统计数据如下:
      
    年份
    营业额
    (千万元)
    y
    在业人员总收入(千万元)
    当年竣工住宅面积(万平方米)
    年份
    营业额
    (千万元)
    y
    在业人员总收入(千万元)
    当年竣工住宅面积(万平方米)
    1977
    8.2
    76.4
    9.0
    1983
    12.2
    116.2
    6.2
    1978
    8.3
    77.9
    7.8
    1984
    15.7
    129.0
    10.8
    1979
    8.6
    80.2
    5.5
    1985
    15.5
    147.5
    18.4
    1980
    9.0
    85.0
    5.0
    1986
    18.3
    185.2
    15.7
    1981
    9.4
    85.2
    10.8
    1987
    25.3
    210.3
    32.5
    1982
    9.4
    88.2
    5.5
    1988
    27.3
    248.5
    45.5

    根据是上述统计数据,试
    (1) 建立多元线性回归模型;
    (2) 对回归模型进行R检验、F检验、t检验和DW检验(取);
    (3) 假定该市在业人员总收入、当年竣工住宅面积在1988年的基础上分别增长15%、17%,请对该市1989年主要百货商店营业额作区间估计(取)。
    13.某企业某产品1981~1988年利润率与单位成本统计数据如下:
    年 份
    利润率%
    单位成本(元/件)
    年 份
    利润率%
    单位成本(元/件)
    1981
    10
    95
    1985
    18
    79
    1982
    13
    88
    1986
    20
    75
    1983
    15
    84
    187
    22
    70
    1984
    16
    82
    1988
    25
    66

    根据上述数据,试
    (1)配合适当的曲线模型;
    (2)对回归模型进行显著性检验(取);
    (3)若该企业1989年的单位成本为63元,预测1989年的利润率;
    (4)当该企业1989年总产量为8000件时,利润总额为多少?
    14.某地区农业总收入与小型农机销售额统计数据如下:

    小型农机销售额(万元)
           农业总收入(亿元)
    年  份
       y
    年  份
    x
     1973
    79
    1972
    5.4
    1974
    70
    1973
    4.8
    1975
    82
    1974
    5.8
    1976
    84
    1975
    6.3
    1977
    85
    1976
    6.9
    1978
    84
    1977
    6.6
    1979
    157
    1978
    7.3
    1980
    154
    1979
    8.9
    1981
    174
    1980
    10.6
    1982
    198
    1981
    15.1

    根据上述数据,
    (1)试建立一元线性回归模型,并计算,S和F统计量;
    (2)试建立带虚拟变量的回归模型,并计算,S和F统计量;
    (3)试比较两种不同的回归模型。
    15.某地区有10个商店,销售额和流通费率资料如下:

    商店编号
    销售额x(百万元)
    流通费率y(%)
    1
    0.7
    6.4
    2
    1.5
    4.5
    3
    2.1
    2.7
    4
    2.9
    2.1
    5
    5.4
    1.8
    6
    5.1
    1.5
    7
    5.5
    1.4
    8
    6.4
    1.3
    9
    6.9
    1.2
    10
    7.8
    1.2
    要求:
    (1)试用散点图观测销售额与流通费率的相关形式。
    (2)拟合双曲线回归模型。
    (3)检验该模型的显著性,并预计x0=9百万元时的流通费率。
    第4章 时间序列平滑预测法
    4.1 时间序列概述
    时间序列是指某一统计指标数值按时间先后顺序排列而形成的数列。例如,国内生产总值(GDP)按年度顺序排列起来的数列;某种商品销售量按季度或月度排列起来的数列等等都是时间序列。时间序列一般用y1,y2, …,yt, …表示,t为时间。
    在社会经济统计中,编制和分析时间序列具有重要的作用:
    1)它为分析研究社会经济现象的发展速度、发展趋势及变化规律,提供基本统计数据。
    2)通过计算分析指标,研究社会经济现象的变化方向、速度及结果。
    3)将不同的时间序列同时进行分析研究,可以揭示现象之间的联系程度及动态演变关系。
    4)建立数学模型,揭示现象的变化规律并对未来进行预测。
    1.时间序列的因素分析
    时间序列分析是一种动态的数列分析,其目的在于掌握统计数据随时间变化的规律。时间序列中每一时期的数值都是由许多不同的因素同时发生作用后的综合结果。
    在进行时间序列分析时,人们通常将各种可能发生影响的因素按其性质不同分成四大类:长期趋势、季节变动、循环变动和不规则变动。
    (1)长期趋势
    长期趋势是指由于某种根本性因素的影响,时间序列在较长时间内朝着一定的方向持续上升或下降,以及停留在某一水平上的倾向。它反映了事物的主要变化趋势。
    (2)季节变动
    季节变动是指由于受自然条件和社会条件的影响,时间序列在一年内随着季节的转变而引起的周期性变动。经济现象的季节变动是季节性的固有规律作用于经济活动的结果。
    (3)循环变动
    循环变动一般是指周期不固定的波动变化,有时是以数年为周期变动,有时是以几个月为周期变化,并且每次周期一般不完全相同。循环变动与长期趋势不同,它不是朝单一方向持续发展,而是涨落相间的波浪式起伏变动。与季节变动也不同,它的波动时间较长,变动周期长短不一,
    (4)不规则变动
    不规则变动是指由各种偶然性因素引起的无周期变动。不规则变动又可分为突然变动和随机变动。所谓突然变动,是指诸如战争、自然灾害、地震、意外事故、方针、政策的改变所引起的变动;随机变动是指由于大量的随机因素所产生的影响。不规则变动的变动规律不易掌握,很难预测。
    2.时间序列的组合形式
    时间序列由长期趋势、季节变动、循环变动和不规则变动四类因素组成。四类因素的组合形式,常见的有以下几种类型:
    (1) 加法型 yt = Tt + St + Ct + It
    (2) 乘法型 yt = Tt·St·Ct·It
    (3) 混合型 yt = Tt·St + Ct + It
    yt = St + Tt·Ct·It
    其中:yt­为时间序列的全变动;Tt为长期趋势;St为季节变动;Ct为循环变动;It为不规则变动。
    4.2 移动平均法
    • 移动平均法有简单移动平均法,加权移动平均法,趋势移动平均法等 。
    • 移动平均法是根据时间序列资料逐项推移,依次计算包含一定项数的时序平均数,以反映长期趋势的方法。当时间序列的数值由于受周期变动和不规则变动的影响,起伏较大,不易显示出发展趋势时,可用移动平均法,消除这些因素的影响,分析、预测序列的长期趋势。
    1.简单移动平均法
    设时间序列为:y1, y2…,yt, …;为:

    t ≥ N

    式中:Mt为t期移动平均数;N为移动平均的项数。上式表明当t向前移动一个时期,就增加一个新数据,去掉一个远期数据,得到一个新的平均数。由于它不断的“吐故纳新”,逐期向前移动,所以称为移动平均法。
    由于移动平均可以平滑数据,消除周期变动和不规则变动的影响,使长期趋势显示出来,因而可以用于预测。 即以第t期移动平均数作为第t+1期的预测值。
    例4.2.1 :某商店1991年-2002年实现利润如表4.1所示。试用简单移动平均法,预测下一年的利润。

    解:分别取N=3和N=4,按预测公式

    计算3年和4年移动平均预测值。其结果列于表4.1中,其预测曲线如图4.1。
    表4.1 某商店1991年-2002年利润及移动平均预测值表 单位:万元
    年份
    利润
    3年移动平均预测值
    4年移动平均预测值


    预测值
    相对误差%
    预测值
    相对误差%
    1991
    120.87




    1992
    125.58




    1993
    131.66




    1994
    130.42
    126.0367
    3.36


    1995
    130.38
    129.22
    0.89
    127.1325
    2.49
    1996
    135.54
    130.82
    3.48
    129.51
    4.45
    1997
    144.25
    132.1133
    8.41
    132
    8.49
    1998
    147.82
    136.7233
    7.51
    135.1475
    8.57
    1999
    148.57
    142.5367
    4.06
    139.4975
    6.11
    2000
    148.61
    146.88
    1.16
    144.045
    3.07
    2001
    149.76
    148.3333
    0.95
    147.3125
    1.63
    2002
    154.56
    148.98
    3.61
    148.69
    3.8


    150.9767

    150.375



    图3.2.1某商店1991年-2002年利润及移动平均预测值图


    在实用上,一个有效的方法是取几个N值进行试算,比较他们的预测误差,从中选择最优的。
    简单移动平均法只适合做近期预测,即只能对后续相邻的那一项进行预测。
    2.加权移动平均法
    在简单移动平均公式中,每期数据在求平均时的作用是等同的。但是,每期数据所包含的信息量不一样,近期数据包含着更多关于未来情况的信息。因此,把各期数据等同看待是不尽合理的,应考虑各期数据的重要性,对近期数据给予较大的权重,这就是加权移动平均法的基本思想。
    设时间序列为:y1, y2…,yt, …;加权移动平均公式为:
     t ≥ N   
                      
    式中:Mtw为t期加权移动平均数;wi为yt-i+1的权数,它体现了相应的yt在加权平均数中的重要性。利用加权移动平均数来做预测,其预测公式为:


      即以第t期加权移动平均数作为第t+1期的预测值。
    例4.2.2 对于例4.2.1,试用加权移动平均法预测2003年的利润。

    解:

    表4.2.2 某商店1991年-2002年利润及加权移动平均预测值表 单位:万元
    年份
    利润
    3个月移动平均预测值
    相对误差(%)
    1991
    120.87


    1992
    125.58


    1993
    131.66


    1994
    130.42
    127.835
    1.98
    1995
    130.38
    130.027
    0.27
    1996
    135.54
    130.607
    3.64
    1997
    144.25
    132.967
    7.82
    1998
    147.82
    139.035
    5.94
    1999
    148.57
    144.583
    2.68
    2000
    148.61
    147.6
    0.68
    2001
    149.76
    148.465
    0.86
    2002
    154.56
    149.178
    3.48
    2003年预测值

    151.968

    解:取w1=3,w2=2,w3=1,按预测公式:

    计算三年加权移动平均预测值,其结果列于表3.2.2中。2003年某企业利润的预测值为:

    从上表可以看出,利用加权移动平均法,可以更准确地反映实际情况。但在加权移动平均法中,wt的选择,同样具有一定的经验性。一般的原则是:近期数据的权数大,远期数据的权数小。至于大到什么程度和小到什么程度,完全靠预测者对序列作全面的了解和分析而定。
    3.趋势移动平均法
    简单移动平均法和加权移动平均法,在时间序列没有明显的趋势变动时,能够准确反映实际情况。但当时间序列出现直线增加或减少的变动趋势时,用简单移动平均法和加权移动平均法来预测就会出现滞后偏差。因此,需要进行修正,修正的方法是作二次移动平均,利用移动平均滞后偏差的规律来建立直线趋势的预测模型。这就是趋势移动平均法。
    一次移动的平均数为

    在一次移动平均的基础上再进行一次移动平均就是二次移动平均,其计算公式为

    它的递推公式为

    下面讨论如何利用移动平均的滞后偏差建立直线趋势预测模型。
    设时间序列{yt}从某时期开始具有直线趋势,且认为未来时期也按此直线趋势变化,则可设此直线趋势预测模型为
    T=1,2
    其中:t为当前时期数;T为由t至预测期的时期数;at为截距;bt为斜率。两者又称为平滑系数。
    现在,我们根据移动平均值来确定平滑系数
    由模型可知:

    所以

    因此:

    由上式有

    所以
    类似的推导,可得


    例4.2.3 我国1986-2002年国内生产总值如表4.2.3所示,试预测2003年和2004年的国内生产总值。
    解:由散点图4.2.2可以看出,国内生产总值基本呈直线上升趋势,可用趋势移动平均法来预测

    表4.2.3 我国国内生产总值及一、二次移动平均值计算表 单位:亿元
    年份
    国内生产总值
    一次移动平均,N=5
    二次移动平均,N=5
    1986
    10201.4


    1987
    11954.5


    1988
    14922.3


    1989
    16917.8


    1990
    18598.4


    1991
    21662.5
    14518.88

    1992
    26651.9
    16811.1

    1993
    34560.5
    19750.58

    1994
    46670
    23678.22

    1995
    57494.9
    29628.66

    1996
    66850.5
    37407.96
    20877.488
    1997
    73142.7
    46445.56
    25455.304
    1998
    76967.2
    55743.72
    31382.196
    1999
    80579.4
    64225.06
    38580.824
    2000
    88254
    71006.94
    46690.192
    2001
    95727.9
    77158.76
    54965.848
    2002
    103553.6
    82934.24
    62916.008
    资料来源:《中国统计年鉴2003》



    图3.2.2我国国内生产总值

    取N=5,分别计算列于表4.2.3中。
    再由公式得

    于是,得t=21时直线趋势预测模型为

    预测2003年和2004年的国内生产总值为

    利用趋势移动平均法进行预测,不但可以进行近期预测,而且还可以进行远期预测,但一般情况下,远期预测误差较大。在利用趋势移动平均法进行预测时,时间序列一般要求必须具备较好的线性变化趋势,否则,其预测误差也是较大的。
    4.3 指数平滑法
    4.2介绍的移动平均法存在两个不足之处。一是存储数据量较大,二是对最近的N期数据等权看待,而对t-T期以前的数据则完全不考虑,这往往不符合实际情况。指数平滑法有效地克服了这两个缺点。它既不需要存储很多历史数据,又考虑了各期数据的重要性,而且使用了全部历史资料。因此它是移动平均法的改进和发展,应用极为广泛。
    • 指数平滑法根据平滑次数的不同,又分为一次指数平滑法、二次指数平滑法和三次指数平滑法等。
    1. 一次指数平滑法
    预测模型 :

    设时间序列为y1, y2,…,yt, …;
    移动平均数的递推公式为:


    也就是以第t期指数平滑值作为t+1期预测值。
    在进行指数平滑时,加权系数的选择是很重要的。由式可以看出,α的大小规定了在新预测值中新数据和原预测值所占的比重。α值越大,新数据所占的比重就愈大,原预测值所占的比重就愈小,反之亦然。
    α值应根据时间序列的具体性质在0-1之间选择。具体如何选择一般可遵循下列原则:
    (1)如果时间序列波动不大,比较平稳,则α应取小一点,如(0.1-0.3)。以减少修正幅度,使预测模型能包含较长时间序列的信息。
    (2)如果时间序列具有迅速且明显的变动倾向,则α应取大一点,如(0.6-0.8)。使预测模型灵敏度高一些,以便迅速跟上数据的变化。
    在实用上,类似于移动平均法,多取几个α值进行试算,看哪个预测误差较小,就采用哪个α值作为权重。
    2. 初始值的确定
    用一次指数平滑法进行预测,除了选择合适的α外,还要确定初始值S0(1)。初始值是由预测者估计或指定的。当时间序列的数据较多,比如在20个以上时,初始值对以后的预测值影响很小,可选用第一期数据为初始值。如果时间序列的数据较少,在20个以下时,初始值对以后的预测值影响很大,这时,就必须认真研究如何正确确定初始值。一般以最初几期实际值的平均值作为初始值。
    例 4.3.1 试预测2003年该企业利润。
    解:采用指数平滑法,并分别取α=0.2,0.5和0.8进行计算,初始值

    按预测模型


    计算各期预测值,列于表4.3.1中
    表4.3.1 某企业利润及指数平滑预测值计算表 单位:万元
    年份
    国内生产总值yt
    预测值α=0.2
    预测值α=0.5
    预测值α=0.8
    1990
    227.7
    219.1
    219.1
    219.1
    1991
    210.5
    220.82
    223.4
    225.98
    1992
    208.6
    218.756
    216.95
    213.596
    1993
    224.8
    216.7248
    212.775
    209.5992
    1994
    228.9
    218.3398
    218.7875
    221.7598
    1995
    236.7
    220.4519
    223.8438
    227.472
    1996
    232.4
    223.7015
    230.2719
    234.8544
    1997
    243.6
    225.4412
    231.3359
    232.8909
    1998
    238.4
    229.073
    237.468
    241.4582
    1999
    251.2
    230.9384
    237.934
    239.0116
    2000
    242.9
    234.9907
    244.567
    248.7623
    2001
    248.6
    236.5726
    243.7335
    244.0725
    2002
    246.3
    238.978
    246.1667
    247.6945


    240.4424
    246.2334
    246.5789
    从表4.3.1可以看出,α=0.2,0.5和0.8时,预测值是很不相同的。究竟α取何值为好,可通过计算它们的均方误差S,选取使S较小的那个α值。
    当α=0.2时

    当α=0.5时

    当α=0.8时

    计算结果表明:α=0.8时,S较小,故选取α=0.8,预测2003年该企业的利润为:
    (万元)
    2. 二次指数平滑法
    一次指数平滑法虽然克服了移动平均法的两个缺点。但当时间序列的变动出现直线趋势时,用一次指数平滑法进行预测,仍存在明显的滞后偏差。因此,也必须加以修正。修正的方法与趋势移动平均法相同,即再作二次指数平滑,利用滞后偏差的规律建立直线趋势模型。这就是二次指数平滑法。其计算公式为:

    式中:St(1)为一次平滑指数;St(2)为二次指数的平滑值。
      当时间序列{yt},从某时期开始具有直线趋势时,类似趋势移动平均法,可用直线趋势模型:
    T=1,2,3,…

    T=1,2,3,…


    进行预测。

    3.三次指数平滑法
    当时间序列的变动表现为二次曲线趋势时,则需要用三次指数平滑法。三次指数平滑是在二次指数平滑的基础上,再进行一次平滑,其计算公式为:

    式中:St(3)为三次指数平滑值。
    三次指数平滑法的预测模型为:

    式中:

    例4.3.1 全国1990-2002年全社会固定资产投资总额如表4.3.1所示,试预测2003年和2004年全社会固定资产投资总额。

    表4.3.3 全国全社会固定资产总额及一、二、三次指数平滑值计算表 单位:亿元
    年份
    投资总额yt
    一次平滑值
    二次平滑值
    三次平滑值
    yt+1的估计值
    1990
    4517
    6063.867
    6063.867
    6063.867

    1991
    5594.5
    5923.057
    6021.624
    6051.194

    1992
    8080.1
    6570.17
    6186.187
    6091.692

    1993
    13072.3
    8520.809
    6886.574
    6330.156

    1994
    17042.1
    11077.2
    8143.761
    6874.238

    1995
    20019.3
    13759.83
    9828.581
    7760.541

    1996
    22913.5
    16505.93
    11831.79
    8981.914

    1997
    24941.1
    19036.48
    13993.19
    10485.3

    1998
    28406.2
    21847.4
    16349.45
    12244.54

    1999
    29854.7
    24249.59
    18719.49
    14187.03

    2000
    32917.7
    26850.02
    21158.65
    16278.52

    2001
    37213.5
    29959.06
    23798.78
    18534.59

    2002
    43499.9
    34021.32
    26865.54
    21033.88




    年份
    t
    投资总额yt
    一次平滑值
    二次平滑值
    三次平滑值
    yt+1的估计值
    1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988
    1 2 3 4 5 6 7 8 9 10 11
    20.04 20.06 25.72 34.61 51.77 55.92 80.65 131.11 148.58 162.67 232.26
    21.37 20.98 22.04 26.06 33.77 40.42 52.49 76.08 97.83 117.28 151.77
    21.77 21.53 21.79 23.07 26.28 30.52 37.11 48.80 63.51 79.64 101.28
    21.89 21.78 21.78 22.17 23.40 23.54 29.01 34.95 43.52 54.36 68.44
    21.94 20.23 19.58 24.60 34.60 53.88 64.60 89.32 142.46 176.10 196.28

    解:从图3.3.1可以看出,投资总额呈二次曲线上升,可用三次指数平滑法进行预测。
    取α=0.3,初始值



    计算St(1) ,St(2) ,St(3)列于表3.3.3中。得到


    可得到当t=13时
    于是,得t=11时预测模型为


    预测1989年和1990年的固定资产投资总额为(亿元):
    根据从1989年开始对固定资产投资采取压缩政策,这些预测值显然偏高了,宜作适当的修正,以消除政策因素的影响。
    与二次指数平滑法一样,为了计算各期的追溯预测值,令T=1,则得:





    本例中



    令t=0,1,2,…,11,可求出各期的追溯预测值。

    4.4 差分指数平滑法

    在上节我们已经讲过,当时间序列的变动具有直线趋势时,用一次指数平滑法会出现滞后偏差,其原因在于数据不满足模型要求。因此,我们也可以从数据变换的角度来考虑改进措施,即在运用指数平滑法以前先对数据作一些技术上的处理,使之能适合于一次指数平滑模型,以后再对输出结果作技术上的返回处理,使之恢复为原变量的形态。差分方法是改变数据变动趋势的简易方法。下面我们讨论如何用差分方法来改进指数平滑法。
    1.一阶差分—指数平滑模型
    当时间序列呈直线增加时,可运用一阶差分—指数平滑模型来预测。其公式如下:

    ▽▽▽

    在前面我们已分析过,指数平滑值实质上是一种加权平均数。因此把序列中逐期增量的加权平均数(指数平滑值)加上当前值的实际数进行预测,它比一次指数平滑法只用变量以往取值的加权平均数作为下一期的预测更合理。从而使预测值始终围绕实际值上下波动,从根本上克服了在有直线增长趋势的情况下,用一次指数平滑法所得出的结果始终落后于实际值的弊端。
    例4.4.1 仍以例我国1986-2002年国内生产总值资料为例。试用一阶差分—指数平滑模型来预测2003年的国内生产总值。
    解:由资料可看出,我国国内生产总值,除1994年、1995年外,逐期增长量大体是比较平稳的,即呈直线增长,因此可用一阶差分—指数平滑模型来预测。我们取α=0.4,初始值为新序列首项值,计算结果列于表中。预测2003年的国内生产总值为
    7165.0+103553.6=110718.6(亿元)








    表4.4.1 我国国内生产总值及差分指数平滑法计算表 (α=0.4) 单位:亿元
    年份
    国内生产总值yt
    差分
    差分指数平滑值
    预测值
    1986
    10201.4



    1987
    11954.5
    1753.1
    1753.1

    1988
    14922.3
    2967.8
    1753.1
    13707.6
    1989
    16917.8
    1995.5
    2238.98
    17161.28
    1990
    18598.4
    1680.6
    2141.588
    19059.39
    1991
    21662.5
    3064.1
    1957.193
    20555.59
    1992
    26651.9
    4989.4
    2399.956
    24062.46
    1993
    34560.5
    7908.6
    3435.733
    30087.63
    1994
    46670
    12109.5
    5224.88
    39785.38
    1995
    57494.9
    10824.9
    7978.728
    54648.73
    1996
    66850.5
    9355.6
    9117.197
    66612.1
    1997
    73142.7
    6292.2
    9212.558
    76063.06
    1998
    76967.2
    3824.5
    8044.415
    81187.11
    1999
    80579.4
    3612.2
    6356.449
    83323.65
    2000
    88254
    7674.6
    5258.749
    85838.15
    2001
    95727.9
    7473.9
    6225.09
    94479.09
    2002
    103553.6
    7825.7
    6724.614
    102452.5
    2003


    7165.048
    110718.6

    2.二阶差分—指数平滑模型
    当时间序列呈现二次曲线增长时,可用二阶差分—指数平滑模型来预测,其公式如下:

    ▽2=▽▽
    ▽2=▽2+(1-)▽2
    =▽2+▽+
    ▽2表示二阶差分,与一阶差分—指数平滑模型类似
    因为

    同样,用▽2yt+1的估计值代替▽2yt+1得到公式

    差分方法和指数平滑法的联合运用,除了能克服一次指数平滑法的滞后偏差之外,对初始值的问题也有显著的改进。因为数据经过差分平稳化处理后,所产生的新序列基本上是平稳的。这时,初始值取新序列的第一期数据对于未来预测值不会有多大影响。其次,它开拓了指数平滑法的适用范围,使一些原来需要运用配合趋势线方法处理的情况可用这种组合模型来取代。但是,对于指数平滑法存在的加权系数α的选择问题,以及只能逐期预测问题,差分—指数平滑模型也没有改进。
    4.5 自适应过滤法
    自适应过滤法与移动平均法、指数平滑法一样,也是以时间序列的历史观察值进行某种加权平均来预测的,它要寻找一组“最佳”的权数,其办法是先用一组给定的权数来计算一个预测值,然后计算预测误差,再根据预测误差调整权数以减少误差。这样反复进行,直至找出一组“最佳”权数,使误差减少到最低限度。由于这种调整权数的过程与通信工程中的过滤传输噪声的过程极为接近,故称为自适应过滤法。
    自适应过滤法的基本预测公式为:

    式中:式中:为第t+1期的预测值;
    wi为第t-i+1期的观测值权数;
    yt-i+1为第t-i+1期的观测值;
    N为权数的个数。
    其调整权数的公式为:

    式中:i=1,2,…,N ,t=N,N+1,…,n.n为序列数据的个数
    wi为调整前的第i个权数
    wi´为调整后的第i个权数
    k称为学习常数;
    ek+1为第t+1期的预测误差。
    上式表明:调整后的一组权数应等于旧的一组权数加上误差调整项,这个调整项包括预测误差、原观测值和学习常数等三个因素。学习常数k的大小决定权数调整的速度。
    下面举一个简单的例子来说明此法的全过程。设有一个时间序列包括10个观测值,如表4.5.1所示。

    表4.5.1 某时间序列表
    时期t
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    观测值yt
    0.1
    0.2
    0.3
    0.4
    0.5
    0.6
    0.7
    0.8
    0.9
    1.0

    试用自适应过滤法,以两个权数来求第11期的预测值。
    本例中我们取:N=2
    取初始权数 w1=0.5 , w2=0.5
    并设 k=0.9
    t的取值由N=2开始,当t=2时:
    (1)
    按预测公式求第t+1=3期的预测值
    (2) 计算预测误差
    (3)
    根据式:

    调整权数为:

    (1)-(3)结束,即完成了一次权数调整,然后t加1并重复以前步骤。当t=3时:
    (1)利用所得到的权数,计算第t+1=4期的预测值。方法是,舍去最前面的一个观察值y1,增加一个新的观察值y3。即

    (2) 计算预测误差

    (3)调整权数

    这样进行到t=10时,

    但由于没有t=11时的观测值y11,因此


    无法计算。这时,第一轮的调整就此结束。把现有的新权数作为初始权数,重新开始t=2的过程。这样反复进行下去,到预测误差(指一轮的预测总误差)没有明显改进时,就认为获得了一组“最佳”权数,能实际用来预测第11期的数值。本例在调整过程中,可使得误差降为零,而权数达到稳定不变,最后得到的“最佳”权数为

    用“最佳”权数预测第11期的取值:

    要达到这样的结果,在实际应用中,调整计算的工作量可能很大,必须借助于计算机才能实现。
    N、K值和初始权数的确定。在开始调整权数时,首先要确定权数个数N和学习常数k。一般说来,当时间序列的观测值呈季节变动时,N应取季节性长度值。如序列以一年为周期进行季节变动时,若数据是月度的,则取N=12,若季节是季度的,则取N=4.如果时间序列无明显的周期变动,则可用自相关系数法来确定,即取N为最高自相关系数的滞后时期.
    k的取值一般可定为1/N,也可以用不同的k值来进行计算,以确定一个能使S最小的k值。
    初始权数的确定也很重要,如无其它依据,也可用1/N作为初始权系数用,即

    自适应过滤法有两个明显的优点:一是技术比较简单,可根据预测意图来选择权数的个数和学习常数,以控制预测。也可以由计算机自动选定。二是它使用了全部历史数据来寻求最佳权系数。并随数据轨迹的变化而不断更新权数,从而不断改进预测。
    由于自适应过滤法的预测模型简单,又可以在计算机上对数据进行处理,所以这种预测方法应用较为广泛。

    wi为第t-i+1期的观测值权数;
    yt-i+1为第t-i+1期的观测值;
    N为权数的个数。
    其调整权数的公式为:

    i=1,2,…,N ,t=N,N+1,…,n. n为序列数据的个数
    wi为调整前的第i个权数
    wi´为调整后的第i个权数
    k:称为学习常数;
    ek+1为第t+1期的预测误差。
    上式表明:调整后的一组权数应等于旧的一组权数加上误差调整项,这个调整项包括预测误差、原观测值和学习常数等三个因素。学习常数k的大小决定权数调整的速度。
    自适应过滤法有两个明显的优点:一是技术比较简单,可根据预测意图来选择权数的个数和学习常数,以控制预测。也可以由计算机自动选定。二是它使用了全部历史数据来寻求最佳权系数。并随数据轨迹的变化而不断更新权数,从而不断改进预测。
    第5章 趋势外推预测方法
    统计资料表明,大量社会经济现象的发展主要是渐进型的,其发展相对于时间具有一定的规律性。趋势外推预测方法是根据事物的历史和现实数据,寻求事物随时间推移而发展变化的规律,从而推测其未来状况的一种常用的预测方法。当预测对象依时间变化呈现某种上升或下降的趋向,且无明显的季节波动时,若能找到—条合适的函数曲线反映这种变化趋势,就可用时间t为自变量,时序数值y为因变量建立趋势模型
    y=f(t) (5.1)
    如果有理由相信这种趋势能够延伸到未来,在式(5.1)中赋予变量t在未来时刻的一个具体数值,可以得到相应时刻的时间序列未来值。这就是趋势外推法。
      趋势外推法的假设条件是:
    (1) 假设事物发展过程没有跳跃式变化,即事物的发展变化是渐进型的。
    (2) 假设所研究系统的结构、功能等基本保持不变,即假定根据过去资料建立的趋势外推模型能适合未来,能代表未来趋势变化的情况。
    5.1 指数曲线法
    1. 指数曲线模型及其应用
    指数曲线预测模型如式所示

    对式两端取对数,得

    令则

    这样,就把指数曲线模型转化为直线模型了。
    的图形如图5.1所示。

    y


    b>0


    a
    b<0

    t

    图5.1 指数曲线图

    模型中,a、b都是待定参数,可以通过最小二乘法求得。同时,利用指数曲
    5.2 修正指数曲线法
    采用指数曲线外推预测,存在预测值随着时间推移无限增大的问题。这与客观实际是不一致的,因为任何事物的发展都有其一定的限度,不可能无限增长。例如一种商品的销售量,在其市场成长期内可能会按指数曲线增长。但随着时间的推移,其增长的趋势可能会减缓以至于停滞。对于这种情况,可以考虑改用修正指数曲线进行预测。
    修正指数曲线预测模型如式所示

    式中:a、b、c为待定参数。
    为求出a、b和c三个参数,可应用分组法。通常的做法是先把整个时间序列数据分成三组,使每组数据个数相等,然后通过各组数据之和求出参数的具体数值。
    设数据序列为

    将其分成每组数据个数相等的三组
    I:
    II:
    III:
    各组数据之和分别记为I,II,III。
    将第I组数据有



    ¼¼¼

    对上述各式两端求和,得





    同理

    )



    整理得







    又据

    最后综合以上各式有:



    修正指数曲线预测模型如图所示。




    y
    b>0
    0
    a
    b<0
    0
    O
    t


    图5.2.1 修正指数曲线图

    指数曲线预测模型如式所示

    对式两端取对数,得

    令则

    这样,就把指数曲线模型转化为直线模型了。
    的图形如图所示。

    y


    b>0


    a
    b<0

    t

    图5.1.1 指数曲线图

    模型中,a、b都是待定参数,可以通过最小二乘法求得。
    5.3 生长曲线法
    生物的生长过程一般经历发生、发展、成熟到衰老几个阶段,在不同的生长阶段,生物生长的速度也不一样。发生初期成长速度较慢,由慢到快;发展时期生长速度则较快;成熟时期,生长速度由达到最快而后逐渐变慢,到衰老期则几乎停止生长。指数曲线模型不能预测接近极限值时生物生长的特性值,因为趋近极限值时,生物生长特性值已不按指数规律增长。描述生物生长过程可以考虑运用形状近似于S型的曲线(称为S曲线)。本节主要介绍两种最为常用的生长曲线龚珀兹曲线和皮尔曲线。
    1. 龚珀兹曲线模型
    龚珀兹曲线和皮尔曲线,均属于生长曲线回归预测方法。龚珀兹曲线多用于新产品的研制、发展、成熟和衰退分析。工业产品寿命一般可分为四个时期:一是萌芽期;二是畅销期;三是饱和期;四是衰退期。龚珀兹曲线特别适宜于对处在成熟期的商品进行预测。
    龚珀兹曲线预测模型如式所示

    在式中, k、a、b为待定参数。参数k、a和b的不同取值,决定龚珀兹曲线的不同形式,用以描述不同产品生命周期的具体规律。
    对式两端取对数,得

    2. 皮尔曲线模型
    皮尔曲线多用于生物繁殖、人口发展统计,也适用于对产品生命周期进行分析预测,尤其适用于处在成熟期的商品的市场需求饱和量(或称市场最大潜力)的分析和预测。
    皮尔曲线函数模型如式所示
                    
    式中:L为变量的极限值;a、b为常数;t为时间。
    确定式中参数a、b、L的方法最常用的是倒数和法。式两端取倒数,得

    5.4 包络曲线法
    分析和预测复杂的技术系统,特别是从事长远预测时,不仅要预测技术发展的量变过程,同时要预测技术发展的质变过程。若用一条相切于这些S形生长曲线的平滑的包络线来描述这一过程,则可以得到表示一种技术特性发展总体趋势的曲线,这就是包络曲线法。R.Ayres在科学技术预测和长远规划一书中,列举了许多实例用以说明很多整体技术系统是符合包络曲线发展规律的。
    包络曲线有可能揭示预测变量的总趋势,估计预测变量的可能极限,描述其极限的性质。同时包络曲线往往要越过现有技术的极限参数,预见或揭示即将出现的新技术。因此,它不仅可以用于预测渐变过程,更主要的是用来预测科学和技术发展的突变,即跳跃式发展过程,揭示原理上新的发明等等。所有这些都是技术预测中最重要和最困难的任务。
    在利用包络曲线预测时,首先要建立包络曲线。
    1.包络曲线建立的步骤
    第一步:分析各类预测对象的预测参数的发展趋势;
    第二步:求出各技术单元功能相对增长速度最快的点(,),;
    第三步:绘制包络曲线,即在点(,)处与i()技术单元曲线相切的曲线。
    2. 应用范围
    (1)某项技术发展的前期阶段,采用包络曲线对技术发展进行深入研究,可以外推出新的远景技术,从而可以未雨绸缪,提前完成技术贮备,以便及时进行技术更新。
    (2)当某一技术的发展趋于极限时,采用包络曲线外推可能出现的新技术。
    (3)用包络曲线外推未来某一时刻的特性参数水平,借以推测将会出现那种新技术。
    (4)验证决策中制定的技术参数是否合理。如果拟定的参数在包络曲线之上,则可能有些冒进,如在其下则可能偏于保守。合理的技术参数应与包络曲线相吻合,偏高偏低皆需调整。
    第6章 灰色系统模型

    6.1引言(五步建模思想)

    研究一个系统,一般应首先建立系统的数学模型,进而对系统的整体功能、协调功能以及系统各因素之间的关联关系、因果关系、动态关系进行具体的量化研究。这种研究必须以定性分析为先导,定量与定性紧密结合。系统模型的建立,一般要经历思想开发、因素分析、量化、动态化、优化五个步骤,故称为五步建模。
    第一步:开发思想,形成概念,通过定性分析、研究,明确研究的方向、目标、途径、措施,并将结果用准确简练的语言加以表达,这便是语言模型。
    第二步:对语言模型中的因素及各因素之间的关系进行剖析,找出影响事物发展的前因、后果,并将这种因果关系用框图表示出来(见图6.1.1)。
    环 节
    后果
    Y
    前因
    X1
    X2
    X3

    环节
    后果
    前因
    Y
    X

                         


     
    (a) (b)
    图6.1.1

    一对前因后果(或一组前因与一个后果)构成一个环节。一个系统包含许多这样的环节。有时,同一个量既是一个环节的前因,又是另一个环节的后果,将所有这些关系连接起来,便得到一个相互关联的、由多个环节构成的框图(如图6.1.2所示),即为网络模型。
    环节1
    环节2
    环节5

    环节3
    环节4








    图10.1.2

    第三步:对各环节的因果关系进行量化研究,初步得出低层次的概略量化关系,即为量化模型。
    第四步:进一步收集各环节输入数据和输出数据,利用所得数据序列,建立动态GM模型,即动态模型。
    动态模型是高层次的量化模型,它更为深刻地揭示出输入与输出之间的数量关系或转换规律,是系统分析、优化的基础。
    第五步:对动态模型进行系统研究和分析,通过结构、机理、参数的调整,进行系统重组,达到优化配置、改善系统动态品质的目的。这样得到的模型,称之为优化模型。
    五步建模的全过程,是在五个不同阶段建立五种模型的过程:
     语言模型   网络模型   量化模型   动态模型 优化模型
    在建模过程中,要不断地将下一阶段中所得的结果回馈,经过多次循环往复,使整个模型逐步趋于完善。
    6.2 GM(1,1)模型

    定义6.2.1 设 ,


    (6.2.1)
    为GM(1,1)模型的原始形式。
    符号GM(1,1)的含义如下:
    G
    M
    (1,
    1)
    Grey
    (灰色)
    Model
    (模型)
    1阶方程
    1个变量
             






    定义6.2.2 设如定义6.2.1所示,

    其中 
    称    
              (6.2.2)
    为GM(1,1)模型的基本形式。
    定理6.2.1 设为非负序列:
       
    其中;为的1-AGO序列:
         
    其中,;为的紧邻均值生成序列:
         
    其中,。
    若为参数列,且
       ,            (6.2.3)
    则灰色微分方程的最小二乘估计参数列满足


    定理6.2.2 设如定理10.2.1所述,,则
    白化方程的解也称时间响应函数为
    (10.2.6)
    GM(1,1)灰色微分方程的时间响应序列为
    ; (10.2.7)
    取,则
    ; (10.2.8)
    还原值
    ;(10.2.9)
    定义6.2.3 称GM(1,1)模型中的参数为发展系数,b为灰色作用量。
    反映了及的发展态势。一般情况下,系统作用量应是外生的或者前定的,而GM(1,1)是单序列建模,只用到系统的行为序列(或称输出序列、背景值),而无外作用序列(或称输入序列、驱动量)。GM(1,1)中的灰色作用量是从背景值挖掘出来的数据,它反映数据变化的关系,其确切内涵是灰的。灰色作用量是内涵外延化的具体体现,它的存在,是区别灰色建模与一般输入输出建模(黑箱建模)的分水岭,也是区别灰色系统观点与灰箱观点的重要标志。
    定理6.2.3 GM(1,1)模型

    可以转化为
    (10.2.10)
    其中

    定理6.2.4 设,,且

    为GM(1,1)模型时间响应序列,其中



    例6.2.1 设原始序列

    =
    试用下列三种GM(1,1)模型对进行模拟,并比较其模拟精度:



    解 第一步:对作1-AGO,得

    =
    第二步:对作准光滑性检验。由

    得<0.5,<0.5。
    当k>3时准光滑条件满足。
    第三步:检验是否具有准指数规律。由


    当k>3时,,,准指数规律满足,故可对建立GM(1,1)模型。
    第四步:对作紧邻均值生成。令


    =
    于是 ,
    第五步:对参数列进行最小二乘估计。得

    第六步:确定模型

    及时间响应式
    =
    第七步:求的模拟值

    =
    第八步:还原求出的模拟值。由


    =
    第九步:检验误差。由表10.2.1可算出残差平方和
    =[,,,]=0.01511
    平均相对误差

    表6.2.1 误差检验表
    序  号
    实际数据

    模拟数据

    残   差

    相对误差

     2
    3.278
    3.230
    0.0460
    1.40%
    3
    3.337
    3.3545
    -0.0175
    0.52%
    4
    3.390
    3.4817
    -0.0917
    2.71%
    5
    3.679
    3.6136
    0.0654
    1.78%

    由知,所以


    于是得。所以
         

    作误差检验:由表10.2.2可得残差平方和
    =0.0156
    表6.2.2 误差检验表
    序  号
    实际数据

    模拟数据

    残   差

    相对误差

     2
    3.278
    3.2324
    0.0456
    1.39%
    3
    3.337
    3.3567
    -0.0197
    0.59%
    4
    3.390
    3.4820
    -0.092
    2.71%
    5
    3.679
    3.6105
    0.0685
    1.86%
    平均相对误差

    由,知,所以
    =


    表6.2.3 误差检验表
    序  号
    实际数据

    模拟数据

    残   差

    相对误差

     2
    3.278
    3.2324
    0.0456
    1.39%
    3
    3.337
    3.3549
    -0.0179
    0.54%
    4
    3.390
    3.4821
    -0.0921
    2.72%
    5
    3.679
    3.6141
    0.0649
    1.76%

    由表10.2.3可算出残差平方和
    =0.01509

    由三种模型的残差平方和与平均相对误差可以看出:
    指数模型



    精度较高,差分模型

    精度稍低一些。
    6.3残差GM(1,1)模型
    当GM(1,1)模型的精度不符合要求时,可用残差序列建立GM(1,1)模型,对原来的模型进行修正,以提高精度。
    定义6.3.1 设为原始序列,为的1-AGO序列,GM(1,1) 模型的时间响应式

    则称
    (6.3.1)
    为导数还原值。
    定义6.3.2 设

    其中为的残差序列。若存在满足
    ,的符号一致;
    ,则称

    为可建模残差尾段,仍记为

    定义6.3.3 若
    =
    则相应的残差修正时间响应式
             
    称为累减还原式的残差修正模型。
    定义6.3.4 若,则相应的残差修正时间响应式
    (10.3.5)
    称为导数还原式的残差修正模型。
    上述各种残差GM(1,1)中的残差模拟项都是取的导数还原式,当然也可以取为累减还原式,即取

    只要充分小,取不同的残差还原式对修正值的影响不大。
    例6.3.1 湖北省云梦县油菜发病率数据为

    =
    建立GM(1,1)模型,得时间响应式为:

    作累减还原,得


    检验其精度:列出误差检验表(见表10.3.1)
    由表6.3.1可以看出,模拟误差较大,进一步计算残差平方和

    平均相对误差
    表6.3.1 误差检验表
    序  号
    实际数据

    模拟数据

    残   差

    相对误差

     2
    20
    35.6704
    -15.6704
    78.3540%
    3
    40
    33.4303
    10.5697
    110.4242%
    4
    25
    31.3308
    -10.3308
    25.3232%
    5
    6
    7
    8
    9
    10
    11
    12
    13
    40
    45
    35
    21
    14
    18
    15.5
    17
    15
    29.3682
    210.5192
    25.7901
    24.1719
    22.6534
    21.2307
    19.8974
    18.6478
    110.4768
    10.6318
    110.4808
    9.2099
    -3.1719
    -8.6534
    -3.2307
    -4.3974
    -1.6478
    -2.4768
    210.5795%
    38.8642%
    210.3140%
    15.1043%
    61.8100%
    110.9483%
    28.3703%
    9.6926%
    110.5120%

    残差平方和很大,相对精度不到70%,需采用残差模型进行修正。取,得残差尾段

    =
    此为可建模残差尾段,取绝对值,得

    建立GM(1,1)模型,得的1-AGO序列的时间响应式:

    其导数还原值为

    由 =可得累减还原式的残差修正模型为

    其中的符号与原始残差序列的符号一致。
    按此模型,可对四个模拟值进行修正,修正后的精度如表10.3.2所示。
    表6.3.2 残差GM(1,1)模拟误差
    序  号
    实际数据

    模拟数据

    残   差

    相对误差

     10
    18
    110.1858
    0.8142
    4.52%
    11
    15.5
    110.4799
    -0.9799
    10.32%
    12
    17
    15.7604
    1.2396
    10.29%
    13
    15
    15.0372
    -0.0372
    0.25%

    由表6.3.2可以算出残差平方和

    平均相对误差
    残差修正GM(1,1)的模拟精度的得到了明显提高。因此时残差序列已不满足建模要求,若对修正精度仍不满意,就只有考虑采用其他模型或对原始数据序列进行适当取舍。

    习题6
    1. 试述灰色系统的五步建模思想。
    2. 在记号GM(1,1)中,各个字母和数字的含义是什么?
    3. 写出GM(1,1)模型的原始形式、基本形式、白化方程、时间响应式和参数向量估计的矩阵形式。
    4. 试比较新信息GM(1,1)模型和新陈代谢GM(1,1)模型。
    5. 写出Verhulst模型的基本形式、白化方程、时间响应式和参数向量估计的矩阵形式。
    6. 某市1995年至2001年居民储蓄存款年末余额数据序列为(单位:亿元)

    试建立GM(1,1)模型群,并作发展预测。
    第7章 随机性决策分析
    7.1 决策概论
    • 1. 什么是决策
    • 决策是对目标和为实现目标的各种方案进行抉择的过程。
    • 2. 决策的属性与特点
    • (1) 决策的主观性
    • (2) 决策的目的性
    • (3) 决策的选择性
    • (4) 决策的风险性
    • (5) 决策的科学性
    • (6) 决策的实践性
    • (7) 决策的时间性
    • (8) 决策的经济性
    • (9) 决策的动态性
    • (10) 决策优化准则的模糊性
    • 3. 决策的分类
    • (1) 安东尼模式
    Ø 战略决策:是有全局性的,具有深远影响的决策,如:企业的管理方针,长远发展规划的决策。
    Ø 战术决策:其目的是为了实现战略决策目标,在人力、财力、物力等资源方面的准备和组织上所进行的决策,如全厂生产能力资源和劳动力的合理调配,运输和转运方案的选择,销售渠道的选定,广告和推销费用的预算等
    Ø 业务决策(又称业务控制):是有关日常业务和计划的决策,其目的是为提高日常业务工作的效率和经济性。
    • (2) 西蒙模式
    Ø 程序化决策(也称为结构化决策)
     是指那些常规的反复出现的决策,这类决策一般都有明确的决策目标和决策准则,而且可以按一定的程序进行,无论是领导者或办事员都可按此程序加以解决。这类决策在中层和基层居多。
    Ø 非程序化决策(也称非结构化决策)
      是指不经常出现的、复杂的、特殊的决策。
    • 4.智囊团与决策机构
    • 世界肯几个著名的智囊团,它们是:
    • (1) 国际应用和系统分析研究所(International Institute of Applied System Analysis,IIASA)
    • (2) 兰德公司(Rand)
    • (3) 日本野村综合研究所(Nomura Research Institute)
    • 5. 企业决策机构的设计
    • (1) 信息部门:信息获取、信息处理及信息利用。
    • (2) 参谋机构:参谋人员包括专业专家、系统工程专家、数学家、管理专家等。
    • (3) 决策部门:由处于指挥地位的决策者所组成的机构。
    • (4) 执行和反馈部门:是将决策方案付诸实施的部门。
    7.2 随机决策问题的基本特点
    • 1. 什么是随机性决策
    •  随机性决策是指在未来不确定的因素和信息不完全的条件下进行的决策。
    • 2.随机性决策问题的基本特点
    • (1) 后果的不确定性
    • (2) 后果的效用

    • 3. 构成随机性决策问题的三要素
    • (1) 有若干个自然状态
    • 用非空集
    • 代表决策人遇到的所有可能的自然状态。
    • (2) 有若干个决策
    • 用非空集A={a1, a2 ,…, an}表示。
    • 代表决策人可能采取的决策方案。
    • (3) 后果是指在确定的自然条件下,决策人采取某种行动的后果,这种后果可以是非价值的,也可以是价值型的。
    7.3 随机性决策问题的基本分析方法
    •  解决随机性决策问题常用的决策基本分析方法:
    • 1.最大可能原则
    • 2.渴望水平原则
    • 3. 期望值最大原则
    •  利用期望值法进行问题决策的准确度,主要取决于先验信息的准确程度。
    • (1) 主观概率
    • 由决策人对事件所做出的主观估计的概率.
    • (2) 先验分布
    • 借助于先验信息所确定的主观概率的分布。
    第八章 马尔柯夫预测法

    马尔柯夫预测法是应用随机过程中马尔柯夫链的理论和方法研究分析有关经济现象变化规律并籍此对未来进行预测的一种方法。
    在经济现象中存在一种“无后效性”。即“系统在每一时刻的状态仅仅取决于前一时刻的状态,而与其过去的历史无关。”有一个例子可以很形象的说明“无后效性”。例如,池塘里有三张荷叶,编号为1,2,3,假设有一只青蛙随机地在荷叶上跳来跳去,在初始时刻,它在第二张荷叶上。在时刻,它有可能跳到第一张或者第三张荷叶上,也有可能在原地不动。我们把青蛙某个时刻所在的荷叶称为青蛙所处的状态。这样,青蛙在未来处于什么状态,只与它现在所处的状态有关,与它以前所处的状态无关。这种性质就是所谓的“无后效性”。下面我们来讨论马尔柯夫链及它在市场预测中的应用。

    8.1马尔柯夫链简介

    1. 马尔柯夫链
    所谓马尔柯夫链,就是一种随机时间序列,它在将来取什么值只与它现在的取值有关,而与它过去取什么值的历史情况无关,即无后效性。具备这个性质的离散性随机过程,称为马尔柯夫链。下面先介绍几个有关的基本概念。
    定义8.1.1 设随机时间序列满足如下条件:
    每个随机变量只取非负整数值;
    对任意的非负整数 及 ,当
    (8.1.1)
    时,有
    (8.1.2)
    则称为马尔柯夫链。
    所可能取到的每一个值称为状态。在如前所述的例子中,青蛙所处的那张荷叶,称为青蛙所处的状态。在经济系统的研究中,一种经济现象在某一时刻t出现的某种结果,就是该系统在该时刻t所处的状态。
    人们所研究的现象及预测目标的状态可以有不同的划分形式。比如:在市场预测中,可把销售状况划分为“畅销”、“一般”、“滞销”,或把经营状况划分为“盈利”、“亏损”(负增长)等等。
    2.状态转移概率

    由定义8.1.1可知,马尔柯夫链的概率特性取决于条件概率
    (8.1.2)
    在概率论中,条件概率表达了由状态B向状态A转移的概率,简称为状态转移概率。式(8.1.2)中条件概率的含义是,某系统在时刻处于状态的条件下,到时刻处于状态的概率。
    定义8.1.2 称
    (8.1.3)
    为步转移概率。
    特别地,当=1时, 称为一步转移概率,记为

    定义8.1.3 若对任意非负整数,马尔柯夫链的一步转移概率与无关,则称为齐次马尔柯夫链。齐次马尔柯夫链的一步转移概率记为。
    在本章中,我们主要讨论齐次马尔柯夫链。
    例8.1.1 某地区有甲、乙、丙三家食品厂生产同一食品,有1000个用户(或购货点),假设在研究期间无新用户加入也无老用户退出,只有用户的转移,已知2002年5月份有500户是甲厂的顾客;400户是乙厂的顾客;100户是丙厂的顾客。6月份,甲厂有400户原来的顾客,上月的顾客有50户转乙厂,50户转丙厂;乙厂有300户原来的顾客,上月的顾客有20户转甲厂,80户转丙厂;丙厂有80户原来的顾客,上月的顾客有10户转甲厂,10户转乙厂。试计算其状态转移概率。
    解:由题意得6月份顾客转移表8.1.1:

    表8.1.1 顾客转移表
    到     从
     甲
      乙
      丙
     合 计
      甲
     400
    50
    50
    500
      乙
    20
    300
    80
    400
      丙
    10
    10
    80
    100
     合 计
    430
    360
    210
    1000

    由表8.1.1可知,6月份有430户是甲厂的顾客;360户是乙厂的顾客;210户是丙厂的顾客。于是:
              
           
            
    3.状态转移概率矩阵
    定义8.1.4 称
    P=
    为一步转移概率矩阵。
    一步转移概率矩阵具有如下性质:
       (8.1.4)
    定义8.1.5 与定义8.1.4类似,称
      
    为步转移概率矩阵。
    步转移概率矩阵也具有与一步转移概率矩阵类似的性质:
       (8.1.5)
    从状态转移概率矩阵的性质可知,2步状态转移概率矩阵可由一步状态转移概率矩阵求出。
         (8.1.6)
    即系统从状态出发,经过2步转移到状态的概率等于系统从出发经一步转移到状态, 然后再从状态转移到状态的概率。故有:

    =
    =
    ==
    (8.1.7)
    即2步状态转移概率矩阵等于一步状态转移概率矩阵的平方。类似地,可以推出
    (8.1.8)
    即步状态转移概率矩阵等于一步状态转移概率矩阵的次方。
    例8.1.2 某经济系统有三种状态(比如畅销,一般,滞销)。系统状态转移情况见表8.1.2。试求系统的2步转移概率矩阵。

    表8.1.2系统状态转移情况表







    系 统 下 步 所 处 状 态

      


    系统本步所处状态

      21
      7
       14

      16
      8
       12

      10
      8
       2

    按照与例8.1.1相同的步骤可得一步状态转移概率矩阵
        
    于是:
     


    4.商品销售状态预测
                 
    马尔柯夫链预测方法的最简单类型是预测下一期最可能出现的状态。可按以下步骤来完成。
    第一步,划分预测对象(系统)所出现的状态。
    从预测目的出发,并考虑决策者的需要适当划分系统所处的状态。
    第二步,计算初始概率。
    在实际问题中,分析历史资料所得的状态概率称为初始概率。
    设有N个状态。观测了M个时期,其中状态()出现了次。于是

    就是出现的频率,我们用它近似地表示出现的概率。即()。
    第三步,计算状态转移概率。
    仍然以频率近似地表示概率进行计算。首先计算状态(由转移到)的频率

    从第二步知道出现了次,接着从个出发,计算下一步转移到的个数,于是得到:

    并令
    第四步,根据转移概率进行预测。
    由第三步可得状态转移概率矩阵P。如果目前预测对象处于状态,这时就描述了目前状态在未来将转向状态()的可能性。按最大概率原则,我们选择中最大者对应的状态为预测结果。即当

    时,可以预测下一步系统将转向状态。
    例8.2.1 某商店在最近20个月的商品销售量统计记录如下:

    表8.2.1 商品销售量统计表 单位:千件
    时间
    t
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    销售量
    40
    45
    80
    120
    110
    38
    40
    50
    62
    90
    110
    130
    140
    120
    55
    70
    45
    80
    110
    120

    试预测第21个月的商品销售量。
    解:依上述步骤
    1.划分状态
    按盈利状况为标准选取
      (1)销售量<60千件   属滞销;
      (2)60千件销售量100千件 属一般;
    (3)销售量>100千件 属畅销。
    2.计算初始概率
    为了使问题更直观,绘制销售散点图,并画出状态分界线,如图8.2.1所示。

    图8.2.1 销售量散点图

    由图8.2.1,可算出处于
    滞销状态的有
    一般状态的有
    畅销状态的有
    3.计算状态转移概率矩阵
    在计算转移概率时,最后一个数据不参加计算,因为它究竟转到哪个状态尚不清楚。
    由图8.2.1可得:
               
           
    从而
          
        
    所以

      4.预测第21个月的销售情况
      由于第20个月销售量处于畅销状态,而经由一次转移到达三种状态的概率分别为
       


    可知第21个月的销售量将处于“畅销”状态。因此,第21个月销售量超过100(千件)的可能性最大。

    §8.3 市场占有率预测

    企业的产品在市场销售总额所占的比例称为产品的市场占有率。利用马尔柯夫链预测模型,可以根据现有的市场占有率和转移概率预测企业未来的市场占有率。
    马尔柯夫链预测的基本原理是:本期市场占有率仅取决于上期市场占有率及转移概率。
    比如有甲乙丙3家工厂生产同种产品,他们在市场上的现时占有份额为:

    为初始市场占有率向量。
    表示甲厂的初始市场占有率
    表示乙厂的初始市场占有率
    表示丙厂的初始市场占有率
    又知:
      
    为市场占有率转移概率矩阵。在矩阵P中,表示各家工厂保留上期客户(或用户)的概率。当时,有两种意义。如对而言,其一种含义是甲厂丧失的顾客转移到乙厂的概率;另一种含义则为乙厂由甲厂转来顾客(或用户)的概率,等等。
    由马尔柯夫链预测模型的基本原理,可以建立市场占有率预测的数学模型如下:

    写成矩阵形式为

    同理,已知本期市场占有率,即可求出下期的市场占有率。
    比如第k期的市场占有率为:
    == (8.3.1)

    即第k期的市场占有率等于初始占有率与k步转移概率矩阵的乘积。
    例8.3.1 已知市场上有A,B,C三种牌子的洗衣粉,上月的市场占有分布为,已知转移概率矩阵为
     
    试求本月份和下月份的市场占有率。
    解:1.求本月份市场占有率

    =(0.25 0.37 0.38)
    2.求下月份的市场占有率

      =
      =(0.225 0.347 0.428)
    计算结果表明,在顾客(或用户)购买偏好改变不大的情况下,下个月A牌洗衣粉市场占有率为22.5%,B牌洗衣粉市场占有率为34.7%,C牌洗衣粉市场占有率为42.8%。
    如果市场的顾客(或用户)流动趋向长期稳定下去,则经过一段时期以后的市场占有率,将会出现稳定的平衡状态。
    所谓的稳定的市场平衡状态,就是顾客(或用户)的流动对市场占有率不起影响。即各厂丧失的顾客(或用户)与争取到的顾客相抵消。这时的市场占有率称为终极市场占有率。
    如何求出这种稳定的市场占有率以及预测长期趋势呢?为此,我们先讨论马尔柯夫链的遍历性。
    定义8.3.1.设 为有限状态齐次马尔柯夫链,对所有的,存在与 无关的极限
    , (8.3.2)
    其中为常数,则称此 为具有遍历性的马尔柯夫链。
    遍历性的含义是:无论系统从哪个状态出发,只要转移步数充分大,到达的概率都近似等于常数。因此,当转移步数充分大时,可以作为的近似值。
    定理8.3.1 设 为有限状态齐次马尔柯夫链,P为其一步转移概率矩阵,若存在正整数>0,使对所有的,有
    (8.3.3)
    则此马尔柯夫链满足遍历性。且式(8.3.2)中的为方程组
    (8.3.4)
    在条件
    (8.3.5)
    下的唯一解。
    由式(8.3.5)可知,
    ()
    为一概率分布,我们称之为马尔柯夫链的极限分布。定理8.3.1指出,在有限状态齐次马尔柯夫链的一步转移概率矩阵已知时,求极限分布()只需解方程组(8.3.4)和(8.3.5)即可。
    例8.3.2 讨论转移概率矩阵
    (1)(2)(3)
    的遍历性。
    解:(1)满足遍历性是明显的(=1)
    (2)易证也满足遍历性:

    即存在=2,使中的元素皆大于零。
    (3)不满足遍历性。因为对任意的正整数>0,恒有,。
    若转移概率矩阵P满足遍历性,必存在非零行向量使得:
    (8.3.6)
    称为转移概率矩阵P的平稳分布。对于有限状态齐次马尔柯夫链,平稳分布与极限分布()是一致的。
    在市场占有率预测中,当用户转移概率矩阵P满足遍历性时,经过充分步长转移后市场占有率将达到平衡状态。此时,各厂的用户占有率不再发生变化。所代表的就是终极市场占有率。
    例8.3.2 设东南亚各国主要行销我国大陆、日本、香港三个产地的味精。对目前市场占有情况的抽样调查表明,购买中国大陆味精的顾客占40%,购买日本、香港味精的顾客各占30%。
    顾客流动转移情况如表8.3.1所示。


    表8.3.1 顾客流动转移情况表

    中国大陆
    日 本
    香 港
    中国大陆
    40%
    30%
    30%
    日  本
    60%
    30%
    10%
    香  港
    60%
    10%
    30%

    表8.3.1中第一行表明,上月购买中国大陆味精的顾客,本月仍有40%的购买,各有30%的顾客转移去购买日本和香港的味精。其余类推。
    今设本月为第一个月,试预测第4个月味精市场占有率和预测长期的市场占有率。
    解:1.预测第4个月的市场占有率,即求三步转移后的市场占有率。
    已知 (0.4 0.3 0.3)及转移概率矩阵P为:

    三步转移概率矩阵为:

    于是,第4个月市场占有率为
    =(0.4 0.3 0.3)
      =(0.5008 0.2496 0.2496)
    即预测第4个月,中国大陆味精的市场占有份额为50.08%,日本、香港各为24.96%。
    2.预测长期的市场占有率
    易知,转移概率矩阵P满足遍历性。所以长期的市场占有率(极限分布)与平稳分布一致。
    设,由
    即  =
    以及  
    可得线性方程组
        
    解之得:
          
    于是,终极市场占有率为:中国大陆产的味精占50%,日本、香港产味精各占25%。
      
    §8.4 期望利润预测
       
    从事企业经营管理活动,需要把握销路的变化情况,同时还要对利润的变化进行预测。比如某商品的销售状态有畅销和滞销两种。通过调查、统计可以获得销售状态转移概率矩阵P和利润分布矩阵R:
          
    R称为状态转移利润矩阵。表示由转到的利润。当>0表示盈利,<0表示亏本,=0表示不亏不盈。根据已知的状态转移矩阵和利润矩阵可以对未来的期望利润进行预测。
    期望利润预测方法的基本思路如下:
    设为现在处于状态的商品,经过n步转移之后的期望利润。为讨论方便起见,我们这里以仅有2种状态的情形为例说明期望利润预测方法的基本思路。这时N=2,经过一步转移之后的期望利润为:
      , (8.4.1)
    这时,利润分布矩阵R变成期望利润分布矩阵


    由此可得二步转移之后的期望利润为:

    = ,  (8.4.2)
    以此类推,可得经过n步转移后的期望利润递推公式
     ,  (8.4.3)
    特别地,当n=1时,规定。并称一步转移的期望利润为即时期望利润。且记
     ,
    例8.4.1 某企业产品的销路转移情况及利润转移情况如表8.4.1和表8.4.1表所示
      
    表8.4.1  销路转移表     表8.4.2 利润转移表 单位:百万元


    j





    i

    畅销 1
    滞销 2
    畅销 1     
     0.4
    0.6
    滞销 2
    0.3
    0.7



    j




    i

    畅销 1
    滞销 2
    畅销 1
     5
    1
    滞销 2
    1
    -1

    (1)试求该企业即时期望利润。
    (2)求三个月后该企业的期望利润。
    解:由已知得
    状态转移概率矩阵:
    状态转移利润矩阵:
    (1)即时期望利润


    即:当本月处于滞销时,下个月期望亏损40万元。当本月处于畅销时,下个月可期望获得利润260万元。
    (2)当n=3时,有
      , 
     , 
    代入具体数值可得
     ==3.4
     =0.1
     =4.02
    =0.69
    即:当本月处于畅销时,预计三个月后可以期望获利402万元;当本月处于滞销时,三个月后可以期望获利69万元。

    习题8
    1.有三家企业A、B、C,由于产品质量、服务质量,价格,促销,分销等原因,订购户的变化如下:
    4月份:A家200户,B家500户,C家300户。
    5月份:A家保留160户,而从B转入35户,从C转入25户,B家保留450户,而从A转入20户,从C转入20户,C家保留255户,而从A转入20户,从B转入15户。试求其转移概率矩阵。
    2.某产品每月的市场销售状态分为畅销、滞销两种。6年来24个季度的状态如下表:

    季度









    10
    11
    12
    状态












    季度
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    状态













    试求市场状态转移的一步和二步转移概率矩阵。
    3.已知某经济系统的一步转移概率矩阵为

    试求它的三步转移概率矩阵。
    4.有三家企业生产同种商品,已知在当地他们的当月市场占有份额为(0.4 0.3 0.3),且已知状态转移概率矩阵为:

    求两个月后,求他们的市场占有率和终极占有率。
    5.已知某经济系统的状态转移矩阵和利润矩阵分别为
     
    求即时期望利润和三步转移期望利润。
    6.某市出租汽车公司有三个管理站,出租汽车司机可以从任何一站借车,也可交还到任何一站。其借、还规律如下:


    交       还







    0.8
    0.2
    0

    0.2
    0
    0.8

    0.2
    0.2
    0.6

    问该公司按什么比例配备管理人员才最恰当?
    第9章 模糊决策
    •  1965年,美国著名自动控制专家查德教授提出了模糊(fuzzy)的概念,并发表了第一篇用数学方法研究模糊现象的论文“模糊集合”,开创了模糊数学的新领域。
    • 模糊:是指客观事物差异的中间过渡中的“不分明性”或“亦此亦彼”性。
    相关教案

    初中数学苏科版七年级上册6.4 平行教案: 这是一份初中数学苏科版七年级上册6.4 平行教案,共1页。

    初中苏科版2.3 数轴教学设计: 这是一份初中苏科版2.3 数轴教学设计,共2页。

    初中数学苏科版八年级下册8.3 频率与概率教学设计: 这是一份初中数学苏科版八年级下册8.3 频率与概率教学设计,共2页。教案主要包含了预学指导,问题探究,拓展提升,课堂小结,板书设计,教学反思等内容,欢迎下载使用。

    免费资料下载额度不足,请先充值

    每充值一元即可获得5份免费资料下载额度

    今日免费资料下载份数已用完,请明天再来。

    充值学贝或者加入云校通,全网资料任意下。

    提示

    您所在的“深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载 10 份资料 (今日还可下载 0 份),请取消部分资料后重试或选择从个人账户扣费下载。

    您所在的“深深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载10份资料,您的当日额度已用完,请明天再来,或选择从个人账户扣费下载。

    您所在的“深圳市第一中学”云校通余额已不足,请提醒校管理员续费或选择从个人账户扣费下载。

    重新选择
    明天再来
    个人账户下载
    下载确认
    您当前为教习网VIP用户,下载已享8.5折优惠
    您当前为云校通用户,下载免费
    下载需要:
    本次下载:免费
    账户余额:0 学贝
    首次下载后60天内可免费重复下载
    立即下载
    即将下载:资料
    资料售价:学贝 账户剩余:学贝
    选择教习网的4大理由
    • 更专业
      地区版本全覆盖, 同步最新教材, 公开课⾸选;1200+名校合作, 5600+⼀线名师供稿
    • 更丰富
      涵盖课件/教案/试卷/素材等各种教学资源;900万+优选资源 ⽇更新5000+
    • 更便捷
      课件/教案/试卷配套, 打包下载;手机/电脑随时随地浏览;⽆⽔印, 下载即可⽤
    • 真低价
      超⾼性价⽐, 让优质资源普惠更多师⽣
    VIP权益介绍
    • 充值学贝下载 本单免费 90%的用户选择
    • 扫码直接下载
    元开通VIP,立享充值加送10%学贝及全站85折下载
    您当前为VIP用户,已享全站下载85折优惠,充值学贝可获10%赠送
      充值到账1学贝=0.1元
      0学贝
      本次充值学贝
      0学贝
      VIP充值赠送
      0学贝
      下载消耗
      0学贝
      资料原价
      100学贝
      VIP下载优惠
      0学贝
      0学贝
      下载后剩余学贝永久有效
      0学贝
      • 微信
      • 支付宝
      支付:¥
      元开通VIP,立享充值加送10%学贝及全站85折下载
      您当前为VIP用户,已享全站下载85折优惠,充值学贝可获10%赠送
      扫码支付0直接下载
      • 微信
      • 支付宝
      微信扫码支付
      充值学贝下载,立省60% 充值学贝下载,本次下载免费
        下载成功

        Ctrl + Shift + J 查看文件保存位置

        若下载不成功,可重新下载,或查看 资料下载帮助

        本资源来自成套资源

        更多精品资料

        正在打包资料,请稍候…

        预计需要约10秒钟,请勿关闭页面

        服务器繁忙,打包失败

        请联系右侧的在线客服解决

        单次下载文件已超2GB,请分批下载

        请单份下载或分批下载

        支付后60天内可免费重复下载

        我知道了
        正在提交订单

        欢迎来到教习网

        • 900万优选资源,让备课更轻松
        • 600万优选试题,支持自由组卷
        • 高质量可编辑,日均更新2000+
        • 百万教师选择,专业更值得信赖
        微信扫码注册
        qrcode
        二维码已过期
        刷新

        微信扫码,快速注册

        还可免费领教师专享福利「樊登读书VIP」

        手机号注册
        手机号码

        手机号格式错误

        手机验证码 获取验证码

        手机验证码已经成功发送,5分钟内有效

        设置密码

        6-20个字符,数字、字母或符号

        注册即视为同意教习网「注册协议」「隐私条款」
        QQ注册
        手机号注册
        微信注册

        注册成功

        下载确认

        下载需要:0 张下载券

        账户可用:0 张下载券

        立即下载
        账户可用下载券不足,请取消部分资料或者使用学贝继续下载 学贝支付

        如何免费获得下载券?

        加入教习网教师福利群,群内会不定期免费赠送下载券及各种教学资源, 立即入群

        返回
        顶部
        Baidu
        map