







信息技术必修1 数据与计算5.2.2 数据的存储和保护试讲课ppt课件
展开复习:一、数据采集的方法和工具
数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据采集法。
Pythn网络数据采集程序使用的扩展库
4.Matpltlib
Pythn如何使用这些库?
1.使用imprt语句导入模块的语法:imprt mdule关键名 模块名例一:imprt numpy #导入numpy库模块例二:imprt numpy as ny #引入numpy库模块,程序代码中用np表示例三:imprt matpltlib.pyplt as plt #调用matpltlib库pyplt方法,用plt表示2.使用frm imprt语句导入(从库模块中调用方法):frm mdule imprt name关键字 模块名 关键字 方法名frm pylab imprt * #引入pylab库模块中的所有方法frm PLT imprt Image #从PLT库中调用Image方法
arrange()函数函数说明:arange([start,] stp[, step,], dtype=Nne)根据start与stp指定的范围以及step设定的步长,生成一个 ndarray。 dtype : dtype The type f the utput array. If `dtype` is nt given, infer the data type frm the ther input arguments. np.arange(0,60,2) 生成从0到60的步距为2的数组,其中0为初始值,60为终值,2步距np.arange(60 生成从0到59的默认步距为1的数组
运行结果分别为:[ 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58][ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59]
range(start, stp[, step])这是一个通用的函数来创建包含算术级数的列表。它最常用于fr循环。参数必须是纯整数。如果省略step参数,则默认为1。如果省略start参数,则默认为0。完整的形式返回一个普通整数列表。如果步骤是肯定的,最后一个元素是小于停止的最大元素; 如果step是负数,最后一个元素是大于stp的最小元素。 步骤不能为零(否则报错)。
1. bs4: beautifulsup4库,是一个解析和处理HTML和XML的第三方库
使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML页面格式,提取有用信息,这需要处理HTML和XML的函数库find_all()方法:BeautifulSup.find_all(name,attrs,recursive,string,limit)作用:根据参数找到对应标签,返回列表类型。
2. requests库:是一个简洁且简单的处理HTTP请求的第三方库它的最大优点是程序编写过程更接近正常URL访问过程。它支持非常丰富的链接访问功能,包括国际域名和URL获取、HTTP长连接和连接缓存、HTTP会话和Ckie保持、浏览器使用风格的SSL验证、基本的摘要认证、有效的键值对Ckie记录、自动解压缩、自动内容解码、文件分块上传、HTTP(S)代理功能、连接超时处理、流数据下载等。所以网络爬虫和信息提交只是requests库能支持的基本功能。
3. xlwt:Pythn语言中,写入Excel文件的扩展工具。相应的有xlrd扩展包,专门用于excel读取。可以实现指定表单、指定单元格的写入。
4. datetime 模块datetime是pythn处理时间和日期的标准库,功能要比 time模块 强大,且使用起来更为方便~datetime模块中定义的类datetime.date表示日期,常用的属性有:year, mnth和daydatetime.time表示时间,常用属性有:hur, minute, secnd, micrsecnddatetime.datetime表示日期时间
# 标题 all_title = sup.find_all('span', class_="title") fr j in all_title: sup_title = bs4.BeautifulSup(str(j), "html.parser", ) title.append()
# 店铺名称 all_stre = sup.find_all('span', class_="shpNick") fr k in all_stre: sup_stre = bs4.BeautifulSup(str(k), "html.parser", ) stre.append()
pythn自带的html.parser模块 网页解析器 1、网页解析器名词解释 首先让我们来了解下,什么是网页解析器,简单的说就是用来解析html网页的工具,准确的说:它是一个HTML网页信息提取工具,就是从html网页中解析提取出“我们需要的有价值的数据”或者“新的URL链接”的工具。 2、网页解析图解
# 价格 all_price = sup.find_all('span', class_="pricedetail") fr l in all_price: sup_price = bs4.BeautifulSup(str(l), "html.parser") price.append()# 销售量 all_paynum = sup.find_all('span', class_="payNum") fr m in all_paynum: sup_paynum = bs4.BeautifulSup(str(m), "html.parser") paynum.append()
# 数据验证print(len(title))print(len(stre))print(len(price))print(len(paynum))if len(title) == len(stre) == len(price) == len(paynum): print("数据完整,生成 %d 组商品数据!" % len(title))# 写入excel文档print("正在写入excel表格...")wkbk = xlwt.Wrkbk(encding='utf-8') # 创建工作簿data_sheet = wkbk.add_sheet('dem') # 创建sheet# 生成每一行数据fr n in range(len(title)): data_sheet.write(n, 0, n+1) data_sheet.write(n, 1, title[n]) # n 表示行, 1 表示列 data_sheet.write(n, 2, stre[n]) data_sheet.write(n, 3, price[n]) data_sheet.write(n, 4, paynum[n][:-3])wkbk.save("taba.xls") #保存文件print("写入excel表格成功!")
3.其他数据采集法应用领域:企业生产经营或科学研究等保密性要求较高的数据。使用方法:与企业或研究机构合作,使用特定系统接口等相关方式收集数据。
数据的存储的方式(1)把数据存在本地内部。(2)把数据放在第三方公共或私有的“云端”存储。
云存储已经成为存储发展的一种趋势,其技术也日益成熟。云存储是把各类数据存储在虚拟的逻辑模型里,其物理空间存储在跨越多个地域放置的众多服务器中,为用户提供统一、灵活、安全的“云存储服务”。云存储供应商的作用:拥有并管理这些服务器,负责管理数据的使用和访问权限,以及云存储环境的日常运营和维护。数据的存储的方式:采用分布式文件存储或NSQL数据库存储。
数据安全保护指数据不被破坏、更改、泄露或丢失。防备数据安全隐患的常规方法:杀毒软件和防火墙。数据保护的有效方法:拷贝、备份、复制、镜像、持续备份。加密技术分为对称式加密和非对称式加密对称式加密是指加密和解密用的是同一个密钥。非对称式加密是指加密和解密用是两个不同的密钥,必须配对使用,否则不能打开加密密钥
数据安全保护技术的使用特点。
数据的隐私保护方法(1)技术手段 常用的隐私保护有: ① 数据收集时进行数据精度处理; ② 数据共享时进行访问控制; ③ 数据发布时进行人工加扰; ④ 数据分析时进行数据匿名处理等。(2)提高自身的保护意识。(3)要对数据使用者进行道德和法律上的约束。
实践:自主阅读课本110页,了解什么是网络缓存? 同时查找自己的Internet临时文件。
信息技术必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具精品课件ppt: 这是一份信息技术必修1 数据与计算<a href="/xx/tb_c4007095_t3/?tag_id=26" target="_blank">第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具精品课件ppt</a>,共16页。PPT课件主要包含了基本方法等内容,欢迎下载使用。
2021学年5.2.1 数据采集的方法和工具评优课课件ppt: 这是一份2021学年5.2.1 数据采集的方法和工具评优课课件ppt,共21页。PPT课件主要包含了数据的存储与保护,学习目标,重难点,课堂导入,数据的保护等内容,欢迎下载使用。
高中信息技术粤教版 (2019)必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具优质课件ppt: 这是一份高中信息技术粤教版 (2019)必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具优质课件ppt,共28页。PPT课件主要包含了复习上节课内容,系统日志采集法,系统日志怎么查看,网络数据采集法,程序5-1,实践课本106页,运行结果等内容,欢迎下载使用。