2021学年5.2.1 数据采集的方法和工具评优课课件ppt
展开1、数据采集的方法与工具
重点:数据采集的方法与工具
难点:数据的存储与保护
数据的来源广泛(主要是互联网和物联网)、类型丰富、规模巨大。采集数据首先要 明确数据应用项目的需求,围绕选定的项目主题,制订数据采集的需求清单和内容大纲, 再采用适当的方法和工具进行采集。
5 . 2 . 1 数据采集的方法和工具
1.系统日志采集法 系统日志是记录系统中硬件、软件和系统问题的信息文件。系统日志 包括操作系统日志、应用程序日志和安全日志。系统日志采集数据的方法通常是在目标主 机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推 送到日志服务器进行存储、监控和管理。 通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受 到攻击时攻击者留下的痕迹。
2.网络数据采集法 网络数据采集是指通过网络爬虫或网站公开API(Applicatin Prgramming Interface, 应用程序接口)等方式从网站上获取数据信息。网络爬虫从一个或若干初始网页的URL (Unifrm Resurce Lcatr,统一资 源定位符)开始,获得初始网页上的 URL,在抓取网页的过程中,不断从 当前页面上抽取新的URL放入队列, 直到满足系统的一定停止条件。该方法可以将非结构化数据 从网页中抽取出来,将其存储为统一 的本地数据文件,并以结构化的方式 存储。它支持图片、音频、视频等文 件或附件的采集,附件与正文可以自动关联。
3.其他数据采集法 对于企业生产经营或科学研究等保密性要求较高的数据,可通过与企业或研究机构合 作,使用特定系统接口等相关方式收集数据。例如,科学研究的数据是通过科学实验的各 种传感器采集,并传输到数据库管理系统中的。
5 . 2 . 2 数据的存储和保护
图5-6 数据的存储
云存储已经成为存储发展的一种趋势。云存储是把各类数据存储 在虚拟的逻辑模型里,其物理空间存储在跨越多个地域放置的众多服务器中,为用户提供 统一、灵活、安全的“云存储服务”。云存储供应商拥有并管理这些服务器,负责管理数 据的使用和访问权限,以及云存储环境的日常运营和维护。对于用户而言,无须关注云存 储系统的具体运行,仅需获取存储空间,把自己的数据存储进去。
数据的存储采用分布式文件存储或NSQL数据库存储。分布式文件存储的特点之一是 为了解决复杂问题而将大任务分解为多项小任务,通过让多个处理器或多个计算机节点并 行计算来提高解决问题的效率。分布式文件存储系统能够支持多台主机通过网络同时访问 共享文件和存储目录,大部分采用了关系数据模型并且支持SQL语句查询。
(1)数据安全保护技术。数据安全保护指数据不被破坏、更改、泄露或丢失。安装 杀毒软件和防火墙只能防备数据安全隐患,而采用拷贝、备份、复制、镜像、持续备份等 技术进行数据保护才是更为彻底、有效的方法。一般的数据安全保护技术的使用特点如表 5-3所示
表5-3 数据安全保护技术的使用特点一览表
加密技术通常分为对称式加密和非对称式加密两大类。对称式加密指加密和解密用的 是同一个密钥。非对称式加密指加密和解密用的是两个不同的密钥,必须配对使用,否则 不能打开加密数据。
常用的隐私保护有:①数据收集时进行数据精度处理;②数 据共享时进行访问控制;③数据发布时进行人工加扰;④数据分析时进行数据匿名处理 等。
图5-7 隐私泄露的途径
某用户在电脑客户端打开了某电商的网站,随意搜索了一下“行李箱”的购物信息, 浏览了几个店铺,便关闭了该网站。然而,当他打开其他网站时,却“惊喜”地发现几乎 所有的网页上都闪烁着行李箱的图片和价格,即使网页上没有出现广告,右下角也会弹出 一个广告框,里面的内容依然是行李箱。 用户主动访问某些网站时,便产生了网络缓存(Ckies)。Ckies是指用户浏览网 页时,网络服务器以文本格式存储在用户电脑硬盘上的少量数据。Ckies的主要目的是 帮助网站记忆用户之前可能进行的操作。网站通过获取并分析属于用户的Ckies,为用 户提供设置或推送服务。这样使得网站更人性化,操作更方便快捷。
很多网站利用Ckies跟踪用户行为。有人认为网站可能存在侵犯用户隐私的问题, 也有人认为网站利用Ckies给用户带来了很多便利,免去了用户重复登录网站的麻烦。 在小组中讨论交流,谈谈如何有效阻止Ckies跟踪或者跨站跟踪的行为。
《中华人民共和国网络安全法》(节录) (2016年11月7日第十二届全国人民代表大会常务委员会第二十四次会议通过) 第十八条 国家鼓励开发网络数据安全保护和利用技术,促进公共数据资源开放,推 动技术创新和经济社会发展。国家支持创新网络安全管理方式,运用网络新技术,提升网 络安全保护水平。 第二十七条 任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、 窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功 能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;明知他人从事危害网络 安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。
第三十一条 国家对公共通信和信息服务、能源、交通、水利、金融、公共服务、电 子政务等重要行业和领域,以及其他一旦遭到破坏、丧失功能或者数据泄露,可能严重危 害国家安全、国计民生、公共利益的关键信息基础设施,在网络安全等级保护制度的基础 上,实行重点保护。关键信息基础设施的具体范围和安全保护办法由国务院制定。国家鼓 励关键信息基础设施以外的网络运营者自愿参与关键信息基础设施保护体系。
信息技术必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具精品课件ppt: 这是一份信息技术必修1 数据与计算<a href="/xx/tb_c4007095_t3/?tag_id=26" target="_blank">第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具精品课件ppt</a>,共16页。PPT课件主要包含了基本方法等内容,欢迎下载使用。
信息技术必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具多媒体教学ppt课件: 这是一份信息技术必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具多媒体教学ppt课件,共23页。PPT课件主要包含了知识回顾,PARTONE,什么是数据采集,数据编码,体验数据采集,经纬度,手机APP,GPS定位传感器,PARTTWO,数据采集的过程等内容,欢迎下载使用。
信息技术必修1 数据与计算5.2.2 数据的存储和保护试讲课ppt课件: 这是一份信息技术必修1 数据与计算5.2.2 数据的存储和保护试讲课ppt课件,共26页。PPT课件主要包含了数据采集的方法和工具,数据的存储和保护,数据的存储,数据的保护,数据安全技术,隐私泄露的途径,数据的隐私保护等内容,欢迎下载使用。