搜索
    上传资料 赚现金
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件
    立即下载
    加入资料篮
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件01
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件02
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件03
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件04
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件05
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件06
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件07
    5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件08
    还剩20页未读, 继续阅读
    下载需要30学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    高中信息技术粤教版 (2019)必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具优质课件ppt

    展开
    这是一份高中信息技术粤教版 (2019)必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具优质课件ppt,共28页。PPT课件主要包含了复习上节课内容,系统日志采集法,系统日志怎么查看,网络数据采集法,程序5-1,实践课本106页,运行结果等内容,欢迎下载使用。

    大数据(big data)的基本概念:指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
    数据(data):是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。 数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。
    大数据对日常生活的影响
    大数据与乔布斯癌症治疗乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
    思考:数据的来源如此广泛,我们要如何进行数据采集呢?用什么方法和工具呢?
    一、数据采集的方法和工具
    数据采集的基本方法包括系统日志采集法、网络数据采集法和其他数据采集法。
    在信息系统中,系统日志是记录系统硬件、软件和系统问题的信息文件。系统日志包括操作系统日志、应用日志和安全日志。系统日志采集数据的方法通常是在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理。        
    通过日志服务器可以监视系统中发生的事件,可以检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹。
    网络数据采集是指通过网络爬虫或网站公开API(应用程序接口)等方式从网站上获取数据信息。
    网络爬虫从一个或若干个初始网页的URL(统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断地从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
    Pythn网络数据采集程序使用的扩展库
    1.Numpy 构建科学计算最基础的软件库,为Pythn中的n维数组和矩阵的操作提供了大量有用的功能。Numpy是用于处理含有同种元素的多维数组运算的第三方库。2.SciPySciPy是一个工程和科学软件库,包含线性代数、优化、集成和统计的模块。它的主要功能建立在Numpy的基础之上
    3.Pandas Pandas是一个Pythn包,旨在通过标记和关系数据进行工作简单直观。4.MatpltlibMatpltlib是Pythn的一个2D绘图库,以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。在Numpy、SciPy和Pandas的帮助下,通过Matpltlib,开发者仅需输入几行代码,便可以生成绘图、直方图、功率谱、条形图、散点图等。
    Pythn如何使用这些库?
    1.使用imprt语句导入模块的语法:imprt mdule关键名 模块名例一:imprt numpy #导入numpy库模块例二:imprt numpy as ny  #引入numpy库模块,程序代码中用np表示例三:imprt matpltlib.pyplt as plt #调用matpltlib库pyplt方法,用plt表示2.使用frm imprt语句导入(从库模块中调用方法):frm  mdule imprt  name关键字 模块名  关键字  方法名frm pylab imprt * #引入pylab库模块中的所有方法frm PLT imprt Image #从PLT库中调用Image方法
    # -*- cding: utf-8 -*-imprt numpy as np #引入numpy库模块,用np替代imprt matpltlib.pyplt as plt #引入matpltlib库模块中的pyplt方法,用plt替代frm pylab imprt * #引入pylab库模块中的所有方法x = np.arange(-5.0, 5.0, 0.02) #定义x轴数值为-5到5,步长为0.02y = np.sin(x) #利用正弦函数计算出x轴数值对应的y轴数值你plt.plt(x, y) #利用x,y轴对应的数值绘制出图形plt.shw() #显示出绘制的图形
    matpltlib是提供数据绘图功能的第三方库,其pyplt子库主要用于实现各种数据展示图形的绘制
    arrange()函数函数说明:arange([start,] stp[, step,], dtype=Nne)根据start与stp指定的范围以及step设定的步长,生成一个 ndarray。 dtype : dtype The type f the utput array. If `dtype` is nt given, infer the data type frm the ther input arguments. np.arange(0,60,2) 生成从0到60的步距为2的数组,其中0为初始值,60为终值,2步距np.arange(60 生成从0到59的默认步距为1的数组
    运行结果分别为:[ 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58][ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59]
    range(start, stp[, step])这是一个通用的函数来创建包含算术级数的列表。它最常用于fr循环。参数必须是纯整数。如果省略step参数,则默认为1。如果省略start参数,则默认为0。完整的形式返回一个普通整数列表。如果步骤是肯定的,最后一个元素是小于停止的最大元素; 如果step是负数,最后一个元素是大于stp的最小元素。 步骤不能为零(否则报错)。
    fr i in range(0, 5): # 循环5次,就是5个页面的商品数据
    paylad['page'] = i # 此处为页码,根据网页参数具体设置 resp = requests.get(url, params=paylad) sup = bs4.BeautifulSup(resp.text, "html.parser") print(resp.url) # 打印访问的网址 resp.encding = 'utf-8' # 设置编码
    all_title = sup.find_all('span', class_="title") fr j in all_title: sup_title = bs4.BeautifulSup(str(j), "html.parser", ) title.append()
    # 店铺名称 all_stre = sup.find_all('span', class_="shpNick") fr k in all_stre: sup_stre = bs4.BeautifulSup(str(k), "html.parser", ) stre.append()
    # 价格 all_price = sup.find_all('span', class_="pricedetail") fr l in all_price: sup_price = bs4.BeautifulSup(str(l), "html.parser") price.append()
    # 销售量 all_paynum = sup.find_all('span', class_="payNum") fr m in all_paynum: sup_paynum = bs4.BeautifulSup(str(m), "html.parser") paynum.append()
    相关课件

    信息技术必修1 数据与计算第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具精品课件ppt: 这是一份信息技术必修1 数据与计算<a href="/xx/tb_c4007095_t3/?tag_id=26" target="_blank">第五章 数据处理和可视化表达5.2 数据的采集5.2.1 数据采集的方法和工具精品课件ppt</a>,共16页。PPT课件主要包含了基本方法等内容,欢迎下载使用。

    2021学年5.2.1 数据采集的方法和工具评优课课件ppt: 这是一份2021学年5.2.1 数据采集的方法和工具评优课课件ppt,共21页。PPT课件主要包含了数据的存储与保护,学习目标,重难点,课堂导入,数据的保护等内容,欢迎下载使用。

    信息技术必修1 数据与计算5.2.2 数据的存储和保护试讲课ppt课件: 这是一份信息技术必修1 数据与计算5.2.2 数据的存储和保护试讲课ppt课件,共26页。PPT课件主要包含了数据采集的方法和工具,数据的存储和保护,数据的存储,数据的保护,数据安全技术,隐私泄露的途径,数据的隐私保护等内容,欢迎下载使用。

    免费资料下载额度不足,请先充值

    每充值一元即可获得5份免费资料下载额度

    今日免费资料下载份数已用完,请明天再来。

    充值学贝或者加入云校通,全网资料任意下。

    提示

    您所在的“深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载 10 份资料 (今日还可下载 0 份),请取消部分资料后重试或选择从个人账户扣费下载。

    您所在的“深深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载10份资料,您的当日额度已用完,请明天再来,或选择从个人账户扣费下载。

    您所在的“深圳市第一中学”云校通余额已不足,请提醒校管理员续费或选择从个人账户扣费下载。

    重新选择
    明天再来
    个人账户下载
    下载确认
    您当前为教习网VIP用户,下载已享8.5折优惠
    您当前为云校通用户,下载免费
    下载需要:
    本次下载:免费
    账户余额:0 学贝
    首次下载后60天内可免费重复下载
    立即下载
    即将下载:资料
    资料售价:学贝 账户剩余:学贝
    选择教习网的4大理由
    • 更专业
      地区版本全覆盖, 同步最新教材, 公开课⾸选;1200+名校合作, 5600+⼀线名师供稿
    • 更丰富
      涵盖课件/教案/试卷/素材等各种教学资源;900万+优选资源 ⽇更新5000+
    • 更便捷
      课件/教案/试卷配套, 打包下载;手机/电脑随时随地浏览;⽆⽔印, 下载即可⽤
    • 真低价
      超⾼性价⽐, 让优质资源普惠更多师⽣
    VIP权益介绍
    • 充值学贝下载 本单免费 90%的用户选择
    • 扫码直接下载
    元开通VIP,立享充值加送10%学贝及全站85折下载
    您当前为VIP用户,已享全站下载85折优惠,充值学贝可获10%赠送
      充值到账1学贝=0.1元
      0学贝
      本次充值学贝
      0学贝
      VIP充值赠送
      0学贝
      下载消耗
      0学贝
      资料原价
      100学贝
      VIP下载优惠
      0学贝
      0学贝
      下载后剩余学贝永久有效
      0学贝
      • 微信
      • 支付宝
      支付:¥
      元开通VIP,立享充值加送10%学贝及全站85折下载
      您当前为VIP用户,已享全站下载85折优惠,充值学贝可获10%赠送
      扫码支付0直接下载
      • 微信
      • 支付宝
      微信扫码支付
      充值学贝下载,立省60% 充值学贝下载,本次下载免费
        下载成功

        Ctrl + Shift + J 查看文件保存位置

        若下载不成功,可重新下载,或查看 资料下载帮助

        本资源来自成套资源

        更多精品资料

        正在打包资料,请稍候…

        预计需要约10秒钟,请勿关闭页面

        服务器繁忙,打包失败

        请联系右侧的在线客服解决

        单次下载文件已超2GB,请分批下载

        请单份下载或分批下载

        支付后60天内可免费重复下载

        我知道了
        正在提交订单

        欢迎来到教习网

        • 900万优选资源,让备课更轻松
        • 600万优选试题,支持自由组卷
        • 高质量可编辑,日均更新2000+
        • 百万教师选择,专业更值得信赖
        微信扫码注册
        qrcode
        二维码已过期
        刷新

        微信扫码,快速注册

        还可免费领教师专享福利「樊登读书VIP」

        手机号注册
        手机号码

        手机号格式错误

        手机验证码 获取验证码

        手机验证码已经成功发送,5分钟内有效

        设置密码

        6-20个字符,数字、字母或符号

        注册即视为同意教习网「注册协议」「隐私条款」
        QQ注册
        手机号注册
        微信注册

        注册成功

        下载确认

        下载需要:0 张下载券

        账户可用:0 张下载券

        立即下载
        账户可用下载券不足,请取消部分资料或者使用学贝继续下载 学贝支付

        如何免费获得下载券?

        加入教习网教师福利群,群内会不定期免费赠送下载券及各种教学资源, 立即入群

        即将下载

        5.2大数据采集第一课时-【新教材】粤教版(2019)高中信息技术必修一课件
        该资料来自成套资源,打包下载更省心 该专辑正在参与特惠活动,低至4折起
        [共10份]
        浏览全套
          立即下载(共1份)
          返回
          顶部
          Baidu
          map