粤教版 (2019)必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集本节综合与测试优秀ppt课件
展开数据的来源广泛(主要是互联网和物联网)、类型丰富、规模巨大。采集数据首先要明确数据应用项目的需求,围绕选定的项目主题,制订数据采集的需求清单和内容大纲,再采用适当的方法和工具进行采集。
5.2.1 数据采集的方法和工具
数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据采集法。1.系统日志采集法在信息系统中,系统日志是记录系统中硬件,软件和系统问题的信息文件。系统日志包括操作系统日志,应用程序日志和安全日志。系统日志采集数据的 方法通常是在目标主机上安装个小程序,将目标主机的文本,应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。例如,安全管理信息系统就是以系统日志服务器采集原始目志数据,以目志记录文本文件实现日志数据的监控和保存,以数据库操作进行日志有效信息的管理工作。
2.网络数据采集法网络数据采集是指通过网络爬虫或网站公开API ( Aplicatin Pregramming Interface,应用程序楼口)等方式从网站上获取数据信息。网络爬虫从一个或若f初始网页的URL ( Unifrm Resuree Lcatr.统一资源定位符)开始,获得初始网页上的URL.在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件(图5-4)。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音额、视颖等文件或附件的采集,附件与正文可以自动关联。
拓展:Pythn网络数据采集程序使用的扩展库在众多的数据采集工具中,Pythn以其简洁、开源和包容的特性在教据采集和分析领域独树一帜。由于Pythn可以安装第三方扩展库模块来扩展功能, 因此使用Pythn进行网络数据采集和分析显得简单易用。以下是使用Pythn进行网络数据采集和分析所需要的一些第三方扩展库。(1) NumPyNumly ( Numerical Pyhn)是构建科学计算最基础的软件库,为Pythn中的n维数组和矩阵的操作提供了大量有用的功能。该库还提供了NumPy数组类型的数学运算向量化,可以提升性能,加快执行速度。(2)SciPySciPy是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块。Saily库的主要功能建立在NumPy的基础之上,因此它的数组大量使用了NumPy。它通过其特定的子模块提供高效的数值例程操作,如数值积分等。SciPy的所有子模块中的函数都有详细的介绍文档。(3) PandasPands是一个Pythn包,旨在通过标记(labeled)和关系(relatinal) 数据进行工作,简单直观。Pandas主要用于快速简单的数据操作、聚合和可视化呈现。库中有两个主要数教据结构,一维数组(Series)和二维数组(DataFrame )结构。(4) MapltlihMatpltlib是Pythn的一个2D绘图库,以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。在NumPy、 SciPy和Pandas的帮助下,通过Mapltib,开发者仅需输入几行代码,便可以生成绘图、直方图、功率谱、条彩图、散点图等。在Pythn模块库中有大量模块可供使用,要想使用这些文件,就需要用imprt语句把指定模块导入当前程序中。使用imprt句导入模块的语法如下:frm imprt语句也是导入模块的一种方法,是导入指定模块内的指定函教方法。使用frm imprt语句导入模块内指定方法的语法如下:
体验打开并运行配套学习资源包“第五章\课本素村\程序5-1”文件,其截图如图5-5所示,指出程序中imprt语句的作用。
实践利用配套学习资源包提供的装虚拟机文件,搭建“网络商城”网站,具体操作详见配套学习资源包的说明文件。打开并运行配套学习资源包“第五章\课本素材\程序5-2”。其中,语句imprt bs4和imprt requests用于调用爬虫模块,imprt re用于调用正则表达式模块,imprt xlwt用于调用Excel模块,imprt datetime用于调用日期和时间模块。程序5-2的关键过程及语句如下:
(1)爬取页面设置。(2)爬取商品标题。
(3)爬取商品价格。(4)爬取商品订单量。(5)爬取出售商品的店铺名称。
3.其他数据采集法对于企业生产经营或科学研究等保密性要求较高的数据,可通过与企业或研究机构合作,使用特定系统接口等相关方式收集数据。例如,科学研究的数据是通过科学实验的各种传感器采集,并传输到数据库管理系统中的。
5.2.2数据的存储和保护
1. 数据的存储存储数据主要有两种方式,一种是把数据存在本地内部, 另种是把数据放在第三方公共或私有的“云端”存储,如图5-6所示。
云存储已经成为存储发展的一种趋势, 其技术也日益成熟。云存储是把各类数据存储在虚拟的逻辑模型里,其物理空间存储在跨越多个地域放置的众多服务器中,为用户提供统一、灵活、安全的“云存储服务”。云存储供应商拥有并管理这些服务器, 负责管理数据的使用和访同权限,以及云存储环境的日常运营和维护。对于用户面言,无须关注云存储系统的具体运行,仅需获取存储空间,把自己的数据存储进去。数据的存储采用分布式文件存储或NsSQL数据库存储。分布式文件存储的特点之是为了解决复杂问题而将大任务分解为多项小任务,通过让多个处理器或多个计算机节点并行计算来提高解决问题的效率。分布式文件存储系统能够支持多台主机通过网络同时访问共享文件和存储目录,大部分采用了关系数据模型并且支持SQL语句查询。
2.数据的保护如今,无论是政府部门、企业还是个人,对数据的依赖性已越来越强。然面,数据安全的隐患无处不在,一旦数据滑密或丢失,造成的损失和影响将是巨大的。因此,对数据安全的保护非常重要。研究表明,如果在发生数据灾难后的两个星期内无法恢复公司的业务系统,75%的公司业务将会完全停顿,43%的公司将再也无法开业。在信息化社会,对数据的保护到不容缓。
(1)数据安全保护技术。数据安全保护指数据不被破坏、更改、泄露或丢失。安装杀毒软件和防火墙只能防备数据安全隐患,面采用拷贝、备份、复制、镜像、持续备份等技术进行数据保护才是更为彻底,有效的方法。- 般的数据安全保护技术的使用特点如表5-3所示。
为了防止他人对机密的数据、数据库进行非法访问、删除、修改、拷贝等操作。可以采用对数据进行加密等方法,保护数据在存储和传递过程中不被修改或泄露。选择何种加密算法、需要多高的安全级别、各算法之间如何协作等,都是进行数据加密要考虑的因素。加密技术通常分为对称式加密和非对称式加密两大类。对称式加密指加密和解密用的是同个密钥。非对称式加密指加密和解密用的是两个不同的密钥,必须配对使用,否则不能打开加密数据。
(2)数据的隐私保护。任何事物都有两面性,数据正在变成生活的第三只眼,敏锐地洞察却也正监控着我们的生活。我们上网浏览、出行、购物等数据,统统都被记录了,人人都成了数据的产生者和贡献者。数据带来的整体性变革,也使得数据的隐私保护的形势显得越发严峻。
隐私泄露的问题不是大数据时代特有的,在没有大数据的时候,我们就已经有很多隐私泄露的问题。可是到了大数据时代,数据发布多了,信息范围扩大了,信息传播和共享速度加快了,若不加以控制,其所含的商业信息或私密信息就可能泄露(图5-7)。解决办法有三个: 一是技术手段,常用的隐私保护有:①数据收集时进行数据精度处理:②数据共享时进行访同控制:③数据发布时进行人工加扰:④数据分析时进行数据置名处理等。二是提高自身的保护意识。三是要对数据使用者进行道德和法律上的约束。
数据作为一种资产, 用在什么地方,掌握在谁手里都是次要的,关键是看怎样利用这个工具。在安全的前提下,实现数据共享,才能真正创造数据价值,发挥数据真正的作用。
分析某用户在电脑客户端打开了某电商的网站,随意搜索了一下“行李箱”的购物信息,浏览了几个店铺,使关闭了该网站。热而,当他打开其他网站时,却“惊喜”地发现几乎所有的网页上都闪烁着行李箱的图片和价格,即使网页上没有出现广告,右下角也会弹出一个广告框,里面的内容依然是行李箱。用户主动访问某些网站时,便产生了网络缓存(Ckie)。Ckies是指用户测览网页时,网络服务器以文本格式存储在用户电脑硬盘上的少量数据。Ckies的主要目的是帮助网站记忆用户之前可能进行的操作。网站通过获取并分析属于用户的Ckies,为用户提供设置或推送服务。这样使得网站更人性化,操作更方便快捷。
实践1. 选择网页测览器,右键选择“属性"。2. 在弹出的"Interme选项”窗口选择“设置”按钮,如图5-8所示。3. 在弹出的新窗口“网站教据设置”中,当前位置就是Ckie所在的位置,可以选择“查看文件”按钮找到文件所在处,如图5-9所示。
交流很多网站利用Ckies跟踪用户行为。有人认为网站可能存在侵犯用户隐私的问题,也有人认为网站利用Ckies给用户带来了根多便利,免去了用户重复登录网站的麻烦。在小组中讨论交流,谈谈如何有效阻止Cki跟踪成者跨站跟踪的行为。
拓展:《中华人民共和国网络安全法》(节录)(2016年11月7日第十二届全国人民代表大会常务委员会第二十四次会议通过)第十八条国家鼓励开发网络数据安全保护和利用技术, 促进公共数据资源开放,推动技术创新和经济社会发展。国家支持创新网络安全管理方式,送用网络新技术,提升网络安全保护水平。第二十七条任何个人和组织不得从事非法侵入他人网络、平扰他人同络正常功能、窃取网络数据等危害网络安全的活动:不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具:明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。第三十一条国家对公共通信和信息服务、 能源、交通、水利、金融、公共服务、电子政务等重要行业和领域,以及其他一旦遭到破坏、丧失功能成者数据泄露,可能严重电害国家安全、国计民生、公共利益的关键信息基础设施,在网络安全等级保护制度的基础上,实行重点保护。关键信息基础设施的具体范围和安全保护办法山由国务院制定。国家鼓助关键信息基础设施以外的网络运营者自愿参与关键信息基础设施保护体系。
信息技术必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具精品课件ppt: 这是一份信息技术必修1 数据与计算<a href="/xx/tb_c4007095_t3/?tag_id=26" target="_blank">第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具精品课件ppt</a>,共16页。PPT课件主要包含了基本方法等内容,欢迎下载使用。
信息技术必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具多媒体教学ppt课件: 这是一份信息技术必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具多媒体教学ppt课件,共23页。PPT课件主要包含了知识回顾,PARTONE,什么是数据采集,数据编码,体验数据采集,经纬度,手机APP,GPS定位传感器,PARTTWO,数据采集的过程等内容,欢迎下载使用。
2021学年5.2.1 数据采集的方法和工具评优课课件ppt: 这是一份2021学年5.2.1 数据采集的方法和工具评优课课件ppt,共21页。PPT课件主要包含了数据的存储与保护,学习目标,重难点,课堂导入,数据的保护等内容,欢迎下载使用。