高中信息技术浙教版 (2019)必修1 数据与计算4.2 大数据处理精品ppt课件
展开4.1 常用表格数据处理
4.3 大数据的典型应用
这种类型的数据又该如何处理?
分--将问题分解为规模更小的子问题治--将子问题逐个击破合--将已解决的子问题合并,得出原问题的解
是否会遇到新的问题?如何解决?
子任务同时进行——节约时间问题规模较小——节约成本
下列关于分治思想的说法,不正确的是( )A.处理大数据时,一般采用分治思想B.对于复杂的问题可以不断划分成小问题,直至可以求解C.运用分治思想,可以提升数据的处理速度D.运用分治思想,系统的容错性得不到保障
静态数据:在处理时,已收集完成、在计算时不会发生改变的数据流数据:是指不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低图数据:以社交网络、道路交通等数据为例的众多以图为数据呈现形式的数据
通过下列方式获取数据,数据类型属于静态数据的是( )A.各个监控不断向监控中心发送的数据B.同一时间内收到10万移动设备的位置信息C.服务器的近10天内的IP访问数据日志D.大型购物网站的广告推荐
下列关于流数据的描述,不正确的是( )A.数据必须采集完成后处理B.数据价值随着时间的流逝降低C.可以采用流计算进行实时分析D.实时分析流数据可以得到更有价值的结果
由二维表结构来进行逻辑表达和实现的数据严格遵守数据格式与长度 规范
数据结构不规则或不完整,没有预定义的数据模型例:文档、图片、各类报表、音频、视频等。
介于结构化数据和非结构化数据之间的数据
大数据采集的更多是非结构化和半结构化的数据
Hadp是一个可运行于大规模计算机集群上的分布式系统架构,适用于静态数据的批处理计算。
HDFS分布式文件系统主要功能:将大规模海量数据以文件的形式、用多个副本保存在不同的存储结点上,并用分布式系统进行管理是GFS的开源实现特点:容错性高,可以部署在廉价的机器中应用:云盘、网盘
Hbase分布式数据库主要功能:基于列的存储方式,用来存储非结构化和半结构化的数据,有良好的横向扩展能力,可管理PB级的大数据, 是BigTable的开源实现特点:高可靠、高性能、可伸缩、分布式
MapReduce(分布式并行计算模型)核心思想:将任务分解并发布到多个节点上进行处理,最后汇总输出处理大规模数据集的并行运算由Map(映射)和Reduce(归纳)组成HDFS提供分布式计算时的数据访问Map函数把处理要求映射为map任务进行计算Reduce函数归纳计算结果并输出
Hadp的设计初衷是面向大规模静态数据的批量处理,以下数据不适合使用Hadp进行处理的是( )A.某市高三学生模拟考成绩B.某小区所有住户上半年的用水量C.某市天气的实时变化情况D.某大型超市3年的生鲜销售情况
目前,云盘的底层一般采用的文件系统是( )A HDFSB FAT32C NTFSD Ext4
下列关于分布式数据库HBase的理解,不正确的是( )A.HBase是谷歌BigTable数据库的开源实现B.建立在HDFS提供的底层存储基础上C.采用基于行的存储方式,可管理PB级的大数据D.主要用于存储非结构化数据和半结构化数据
Hadp适用于处理静态数据,在流数据实时处理时性能不足。★ 流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合,用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。
Twitter的分层数据处理架构
流计算可以简单、高效、可靠地实现实时数据的获取、传输和存储。
实时处理与批处理的整合
2014年9月,大数据处理系统summingbird,它实现了批处理和流计算的整合(Hadp+strm)。
平台的整合缩短了批处理与流处理之间的切换延时时间,有利于减少系统的开销,降低使用成本。
★ 图计算:现实中有很多数据以图的形式呈现,或者转换为图以后再进行分析。★ 图由节点和边组成,关系错综复杂★ 目前通用的图处理软件主要包括两类: 一类是图数据库,如Ne4j、InfiniGraph、OrientDB等; 一类是并行图处理系统,如Ggle Pregel、Apache Giraph等
数据可视化是指以图形、图像、地图、动画等生动、易于理解的方式展示数据和诠释数据之间的关系、趋势与规律等,以便更好地理解数据。
数据可视化作用快捷观察与追踪数据实时分析数据增强数据的解释力与吸引力
数据可视化基本方法有关时间趋势的可视化有关比例的可视化有关关系的可视化有关差异的可视化有关空间关系的可视化
通过时间序列来观察事物变化的过程和趋势
各部分大小及其占总体比例情况
探究数据分布关系(指标之间的关联)
多种变量的对象与同类之间的差异
与地理位置有关的空间数据
工具:编程语言:可视化工具库:
大数据魔镜 (免费的大数据可视化分析工具)Gephi(动态和分层图的交互可视化与探测开源工具)Tableau(实时可视化分析)
R (用于统计分析,图形表示和报告的编程语言和软件环境)Pythn
D3.js (D3 是最流行的可视化库之一,可以创建实时交互网页)Highcharts (用纯JavaScript编写的一个图表库)Ggle Charts (为浏览器和移动设备定制,用于在web上可视化数据)
数据可视化案例风、气象、海洋状况的全球地图编程语言之间的影响力关系图“双十一”全网销售直播图航班飞行实时跟踪地图微博热词趋势图
2021年5月11日,国家统计局公布第七次全国人口普查主要数据结果,数据显示,在人口年龄构成方面,0至14岁人口为25338万人,占17.95%;15至59岁人口为89438万人,占63.35%;60岁及以上人口为26402万人,占18.70%。我们可以运用以下哪种图表形象地呈现我国人口年龄结构?( )A.折线图B.词云图C.饼图D.柱形图
可视化的作用不包括( )A.实时分析数据B.快捷观察数据C.增强数据吸引力D.增加数据精确度
以下哪项不是数据可视化的基本方法( )A.有关时间趋势的可视化B.有关关系的可视化C.有关物体的可视化D.有关差异的可视化
浙教版 (2019)第四章 数据处理与应用4.2 大数据处理一等奖课件ppt: 这是一份浙教版 (2019)<a href="/xx/tb_c4005642_t3/?tag_id=26" target="_blank">第四章 数据处理与应用4.2 大数据处理一等奖课件ppt</a>,共20页。PPT课件主要包含了数据处理,Python,编程处理数据,fclose,文本数据处理,jieba模块,目前仍难以实现等内容,欢迎下载使用。
高中信息技术浙教版 (2019)必修1 数据与计算4.1 常用表格数据的处理优质课件ppt: 这是一份高中信息技术浙教版 (2019)必修1 数据与计算<a href="/xx/tb_c4005641_t3/?tag_id=26" target="_blank">4.1 常用表格数据的处理优质课件ppt</a>,共45页。PPT课件主要包含了常用数据表格处理,EXCEL,单元格地址,区域地址,A3D11,表达式,B3C5E12,多区域单元格表示,校内排名如何统计,相对引用等内容,欢迎下载使用。
信息技术必修1 数据与计算3.2 Python语言程序设计完美版课件ppt: 这是一份信息技术必修1 数据与计算<a href="/xx/tb_c4005637_t3/?tag_id=26" target="_blank">3.2 Python语言程序设计完美版课件ppt</a>,共30页。PPT课件主要包含了函数名参数,函数的使用对象,import模块名,导入整个模块,导入模块中的指定函数,函数名实际参数,计算圆环的面积,大圆面积,小圆面积,自定义圆面积函数等内容,欢迎下载使用。