高中信息技术粤教版 (2019)必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具优质课件ppt
展开大数据(big data)的基本概念:指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
数据(data):是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。
大数据对日常生活的影响
大数据与乔布斯癌症治疗乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
思考:数据的来源如此广泛,我们要如何进行数据采集呢?用什么方法和工具呢?
一、数据采集的方法和工具
数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据采集法。
在信息系统中,系统日志是记录系统硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。
通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
网络数据采集是指通过网络爬虫或网站公开API(应用程序接口)等方式从网站上获取数据信息。
网络爬虫从一个或若干个初始网页的URL(统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断地从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
Pythn网络数据采集程序使用的扩展库
1.Numpy 构建科学计算最基础的软件库,为Pythn中的n维数组和矩阵的操作提供了大量有用的功能。Numpy是用于处理含有同种元素的多维数组运算的第三方库。2.SciPySciPy是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块。它的主要功能建立在Numpy的基础之上
3.Pandas Pandas是一个Pythn包,旨在通过标记和关系数据进行工作简单直观。4.MatpltlibMatpltlib是Pythn的一个2D绘图库,以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。在Numpy、SciPy和Pandas的帮助下,通过Matpltlib,开发者仅需输入几行代码,便可以生成绘图、直方图、功率谱、条形图、散点图等。
Pythn如何使用这些库?
1.使用imprt语句导入模块的语法:imprt mdule关键名 模块名例一:imprt numpy #导入numpy库模块例二:imprt numpy as ny #引入numpy库模块,程序代码中用np表示例三:imprt matpltlib.pyplt as plt #调用matpltlib库pyplt方法,用plt表示2.使用frm imprt语句导入(从库模块中调用方法):frm mdule imprt name关键字 模块名 关键字 方法名frm pylab imprt * #引入pylab库模块中的所有方法frm PLT imprt Image #从PLT库中调用Image方法
# -*- cding: utf-8 -*-imprt numpy as np #引入numpy库模块,用np替代imprt matpltlib.pyplt as plt #引入matpltlib库模块中的pyplt方法,用plt替代frm pylab imprt * #引入pylab库模块中的所有方法x = np.arange(-5.0, 5.0, 0.02) #定义x轴数值为-5到5,步长为0.02y = np.sin(x) #利用正弦函数计算出x轴数值对应的y轴数值你plt.plt(x, y) #利用x,y轴对应的数值绘制出图形plt.shw() #显示出绘制的图形
matpltlib是提供数据绘图功能的第三方库,其pyplt子库主要用于实现各种数据展示图形的绘制
arrange()函数函数说明:arange([start,] stp[, step,], dtype=Nne)根据start与stp指定的范围以及step设定的步长,生成一个 ndarray。 dtype : dtype The type f the utput array. If `dtype` is nt given, infer the data type frm the ther input arguments. np.arange(0,60,2) 生成从0到60的步距为2的数组,其中0为初始值,60为终值,2步距np.arange(60 生成从0到59的默认步距为1的数组
运行结果分别为:[ 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58][ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59]
range(start, stp[, step])这是一个通用的函数来创建包含算术级数的列表。它最常用于fr循环。参数必须是纯整数。如果省略step参数,则默认为1。如果省略start参数,则默认为0。完整的形式返回一个普通整数列表。如果步骤是肯定的,最后一个元素是小于停止的最大元素; 如果step是负数,最后一个元素是大于stp的最小元素。 步骤不能为零(否则报错)。
fr i in range(0, 5): # 循环5次,就是5个页面的商品数据
paylad['page'] = i # 此处为页码,根据网页参数具体设置 resp = requests.get(url, params=paylad) sup = bs4.BeautifulSup(resp.text, "html.parser") print(resp.url) # 打印访问的网址 resp.encding = 'utf-8' # 设置编码
all_title = sup.find_all('span', class_="title") fr j in all_title: sup_title = bs4.BeautifulSup(str(j), "html.parser", ) title.append()
# 店铺名称 all_stre = sup.find_all('span', class_="shpNick") fr k in all_stre: sup_stre = bs4.BeautifulSup(str(k), "html.parser", ) stre.append()
# 价格 all_price = sup.find_all('span', class_="pricedetail") fr l in all_price: sup_price = bs4.BeautifulSup(str(l), "html.parser") price.append()
# 销售量 all_paynum = sup.find_all('span', class_="payNum") fr m in all_paynum: sup_paynum = bs4.BeautifulSup(str(m), "html.parser") paynum.append()
信息技术必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具精品课件ppt: 这是一份信息技术必修1 数据与计算<a href="/xx/tb_c4007095_t3/?tag_id=26" target="_blank">第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具精品课件ppt</a>,共16页。PPT课件主要包含了基本方法等内容,欢迎下载使用。
2021学年5.2.1 数据采集的方法和工具评优课课件ppt: 这是一份2021学年5.2.1 数据采集的方法和工具评优课课件ppt,共21页。PPT课件主要包含了数据的存储与保护,学习目标,重难点,课堂导入,数据的保护等内容,欢迎下载使用。
信息技术必修1 数据与计算5.2.2 数据的存储和保护试讲课ppt课件: 这是一份信息技术必修1 数据与计算5.2.2 数据的存储和保护试讲课ppt课件,共26页。PPT课件主要包含了数据采集的方法和工具,数据的存储和保护,数据的存储,数据的保护,数据安全技术,隐私泄露的途径,数据的隐私保护等内容,欢迎下载使用。