信息技术选修4 数据管理技术5.2 数据仓库与数据挖掘课文配套课件ppt
展开第1章 数据仓库与数据挖掘概述
1.1 数据仓库的兴起1.2 数据挖掘的兴起1.3 数据仓库和数据挖掘的结合
1.1.1 从数据库到数据仓库
(1)“数据太多,信息不足”的现状(2)异构环境的数据的转换和共享 (3)利用数据进行数据处理转换为利用数据支持决策
1.数据库用于事务处理
数据库中存放的数据基本上是保存当前数据,随着业务的变化随时在更新数据库中的数据。不同的管理业务需要建立不同的数据库。例如,银行中储蓄业务、信用卡业务分别要建立储蓄数据库和信用卡数据库。数据库是为满足事务处理需求建立的,在帮助人们进行决策分析时显得不适用。(举例)
数据库的局限性 传统数据库所能做到的只是对已有的数据进行存取以及简单的查询统计,即使是一些流行的OLAP工具,也无非是另一种数据展示方式而已。人们仍然无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。这也直接导致了目前“数据爆炸但知识匮乏”的现状。
2.数据仓库用于决策分析
数据库用于事务处理,数据仓库用于决策分析数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据数据仓库的数据是大量数据库的集成对数据库的操作比较明确,操作数据量少。对数据仓库操作不明确,操作数据量大
3.数据库与数据仓库对比
数据仓库与数据库的关系数据库的应用包括:事务型应用和分析型应用物理数据库实际存储的数据包括: 事务型数据(或称操作数据)和分析型数据(也可称为汇总数据、信息数据)。起初,两类数据放到一起,即分散存储在各底层的业务数据库中。后来,随着企业规模的扩展、数据量的增加、以及希望在决策分析时得到更多支持需求的日益迫切,并且考虑保证原有事务数据库的高效性与安全性。因此将分析型数据与事务型数据相分离,单独存放,即形成了所谓的数据仓库。
数据仓库与数据库的关系 数据仓库只不过是因为用户需求增加而对某一类数据库应用的一个范围的界定。单就其是数据的存储容器这一点而言,数据仓库与数据库并没有本质的区别。 而且在更多的时候,我们是将数据仓库作为一个数据库应用系统来看待的。 因此,不应该说数据库到数据仓库是技术的进步。
1.1.2从OLTP到OLAP
1.联机事物处理(OLTP)2.联机分析处理(OLAP)3.OLTP与OLAP的对比
1.联机事物处理(OLTP)
联机事物处理(On Line Transactin Prcessing,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。也称为实时系统(Real time System)。OLTP主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。如银行为分布在各地的自动取款机 (ATM)完成即时取款交易;机票预定系统能每秒处理的定票事务峰值可以达到20000个。
OLTP的特点在于事务处理量大,应用要求多个并行处理,事务处理内容比较简单且重复率高。大量的数据操作主要涉及的是一些增加、删除、修改、查询等操作。每次操作的数据量不大且多为当前的数据。 OLTP处理的数据是高度结构化的,数据访问路径是已知的,至少是固定的。OLTP面对的是事务处理操作人员和低层管理人员。但是,为高层领导者提供决策分析时, OLTP则显得力不从心。
2.联机分析处理(OLAP)
认为决策分析需要对多个关系数据库共同进行大量的综合计算才能得到结果。在1993年提出了多维数据库和多维分析的概念,即联机分析处理(On Line Analytical Prcessing,OLAP)概念。关系数据库是二维数据(平面),多维数据库是空间立体数据。 新的挑战:如何不被淹没在信息的海洋里
OLAP专门用于支持复杂的决策分析操作,侧重对分析人员和高层管理人员的决策支持,OLAP可以应分析人员的要求快速、灵活地进行大数据量的复杂处理,并且以一种直观易懂地形式将查询结果提供给决策制定人。 OLAP软件,以它先进地分析功能和以多维形式提供数据的能力,正作为一种支持企业关键商业决策的解决方案而迅速崛起。OLAP的基本思想是决策者从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。
3.OLTP与OLAP的对比
1.1.4数据仓库的定义与特点
1.数据仓库定义 (1)在《建立数据仓库》一书中,对数据仓库的定义为: 数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程。(2)SAS软件研究所观点: 数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。
(1)数据仓库是面向主题的是相对于传统数据库的面向应用而言的。所谓面向应用,指的是系统实现过程中主要围绕着一些应用或功能。而面向主题则考虑一个个的问题域,对问题域涉及到的数据和分析数据所采用的功能给予同样的重视。主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户。DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中能全面地分析客户数据,再决定是否继续给予贷款。
(2)数据仓库是集成的 最重要的特点。数据仓库中的数据来自各个不同的数据源(操作数据库)。由于历史的原因,各操作数据库的组织结构往往是不同的,在这些异构数据输入到数据仓库之前,必须经历一个集成过程。 对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。 将原始数据结构做一个从面向应用到面向主题的大转变。
(3)数据仓库是稳定的(不可修改的) 数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。(4)数据仓库是随时间变化的 数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。 而数据库只包含当前数据,即存取某一时间的正确的有效的数据。
(5)数据仓库的数据量很大 大型DW的数据是一个TB(1000GB)级数据量(一般为10GB级DW,相当于一般数据库100MB的100倍) (6)数据仓库软、硬件要求较高 需要一个巨大的硬件平台 需要一个并行的数据库系统
二十世纪末以来,全球信息量以惊人的速度急剧增长—据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据(信息)。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。
Why?数据挖掘的社会需求
所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。
数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。 1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(Knwledge Discvery in Database,KDD)这一术语。 随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。
(1) 1980年在美国召开了第一届国际机器学习研讨会 明确了机器学习是人工智能的重要研究方向(2) 1989年8月于美国底特律市召开的第一届知识发现(KDD)国 际学术会议; 首次提出知识发现概念(3) 1995年在加拿大召开了第一届知识发现和数据挖掘(DM)国际学术会议; 首次提出数据挖掘概念 IEEE的Knwledge and Data Engineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。数据挖掘已经成了国际学术研究的重要热点之一。
技术角度的定义 数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。 这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。 简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。
一种深层次的数据分析方法。 数据分析本身已有多年的历史,只不过在过去数据收集和分析的一般目的是用于科学研究;另外,由于当时计算能力的限制,很难实现大量数据的复杂分析。 现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据并不是为了分析的目的而收集的,而是在商业运作过程中由于业务需要而自然产生的。数据挖掘不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。
数据挖掘与传统分析方法的区别
数据挖掘与传统数据分析方法区别
(1)数据挖掘的数据源与以前相比有了显著的改变; 数据挖掘出现的背景是“数据爆炸但知识贫乏”,数据是海量的;数据有噪声;数据可能是非结构化的; (2)传统的数据分析方法一般都是先给出一个假设然后通过数据验证,在一定意义上是假设驱动的;与之相反,数据挖掘在一定意义上是发现驱动的,模式都是通过大量的搜索工作从数据中自动提取出来 。即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。
数据挖掘与其他科学的关系
数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。 此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。
与国外相比,国内对数据挖掘的研究起步稍晚,但发展势头强劲。我国于1987年召开了第一届全国机器学习研讨会。 1993年,国家自然科学基金首次资助复旦大学对该领域的研究项目。 目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。
近年来,数据挖掘的研究重点逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多学科之间的相互渗透。 例如,1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。
未来的热点应用领域
网站的数据挖掘(Web site data mining) 生物信息或基因的数据挖掘 文本挖掘(Textual mining) 多媒体挖掘
网站的数据挖掘(Web site data mining) 当前Internet上各类电子商务网站风起云涌,电子商务业务的竞争比传统的业务竞争更加激烈。客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可,电子商务环境下客户保持比传统商业更加困难。若想在竞争中生存进而获胜,您必须比竞争对手更了解客户。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Lg files)和登记表,如何对这些数据进行分析和挖掘,及时地了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加竞争力,几乎变得势在必行。
生物信息或基因的挖掘 生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。 对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法方面,都要复杂得多。从分析算法上讲,更需要一些新的和高效的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。
文本挖掘(Textual mining) 文本挖掘是人们关心的另外一个话题。例如,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。 无论是在数据结构还是在分析处理方法方面,文本数据挖掘和数据挖掘相差很大。文本挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正实现语义上的分析功能。
多媒体挖掘(Multimeadia Mining) 基于描述的检索系统基于图像的描述创建索引并实现对象检索,如关键字、标题、尺寸和创建时间等; 人工实现则极为费时、费力 ; 自动实现则往往结果不理想。 基于内容的检索系统支持基于图像内容的检索,例如颜色、质地、形状、对象及小波变换
1.2.3数据挖掘与OLAP的比较
1. OLAP的多维分析 在带层次的纬度和跨纬度进行多维数据分析。功能包括聚合、分配、比率、乘积等描述性的建模功能。 OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。2. 数据挖掘 数据挖掘是以变量和记录为基础进行分类。任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等,带有探索性的建模功能。
1.3 数据仓库和数据挖掘的结合
1.3.1 数据仓库和数据挖掘的区别与联系1.3.2 基于数据仓库的决策支持系统1.3.3数据仓库与商业智能
1. 数据仓库与数据挖掘的区别
数据仓库是一种存储技术,将大量数据按决策需求进行重新组织 ,为用户提供辅助决策的随机查询、综合信息以及随时间变化的趋势分析。它能适应于不同用户对不同决策需要提供所需的数据和信息。数据挖掘是从机器学习人工智能发展起来的。研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
2.数据仓库与数据挖掘的关系
数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。数据挖掘用于数据仓库实现决策支持:(1)预测客户购买倾向;(2)客户利润贡献度分析;(3)分析欺诈行为;(4)销售渠道优化分析等。数据仓库和数据挖掘的结合对支持决策会起更大的作用。
数据仓库中有大量的综合数据,为决策者提供了综合信息。数据仓库保存有大量历史数据,通过预测模型计算可以得到预测信息。联机分析处理(OLAP)对数据仓库中的数据进行多维数据分析,即多维数据的切片、切块、旋转、钻取等,得到更深层中的信息和知识。数据挖掘(DM)技术能获取关联知识、时序知识、聚类知识、分类知识等。数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等结合,形成决策支持系统。
1.3.2基于数据仓库的决策支持系统
1,6,8,9,18,19,23,25,28
信息技术选修5 人工智能初步2.1 知识说课ppt课件: 这是一份信息技术选修5 人工智能初步<a href="/xx/tb_c118955_t3/?tag_id=26" target="_blank">2.1 知识说课ppt课件</a>,共20页。PPT课件主要包含了安全用电常识,PART01,电气火灾处理,PART02,触电后受伤救治,PART03,户外用电安全,PART04等内容,欢迎下载使用。
高中粤教版2.1 知识背景图ppt课件: 这是一份高中粤教版<a href="/xx/tb_c118955_t3/?tag_id=26" target="_blank">2.1 知识背景图ppt课件</a>,共33页。PPT课件主要包含了电气安全概述,安全防护技术与应用,LOGO,CONTENTS,什么是电,电气安全,安全电压,安全距离,安全标志,安全标志分类等内容,欢迎下载使用。
粤教版选修5 人工智能初步2.1 知识教学课件ppt: 这是一份粤教版选修5 人工智能初步2.1 知识教学课件ppt,共39页。PPT课件主要包含了学习目的,法律法规,消防安全检查,预防火灾七不准等内容,欢迎下载使用。