搜索
    上传资料 赚现金
    浙教版 信息技术 必修1 4.2 大数据处理 课件(34张幻灯片)
    立即下载
    加入资料篮
    浙教版 信息技术 必修1 4.2 大数据处理  课件(34张幻灯片)01
    浙教版 信息技术 必修1 4.2 大数据处理  课件(34张幻灯片)02
    浙教版 信息技术 必修1 4.2 大数据处理  课件(34张幻灯片)03
    浙教版 信息技术 必修1 4.2 大数据处理  课件(34张幻灯片)04
    浙教版 信息技术 必修1 4.2 大数据处理  课件(34张幻灯片)05
    浙教版 信息技术 必修1 4.2 大数据处理  课件(34张幻灯片)06
    浙教版 信息技术 必修1 4.2 大数据处理  课件(34张幻灯片)07
    浙教版 信息技术 必修1 4.2 大数据处理  课件(34张幻灯片)08
    还剩26页未读, 继续阅读
    下载需要25学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    高中信息技术浙教版 (2019)必修1 数据与计算4.2 大数据处理优质课ppt课件

    展开
    这是一份高中信息技术浙教版 (2019)必修1 数据与计算4.2 大数据处理优质课ppt课件,共34页。PPT课件主要包含了大数据处理的基本思想,数据可视化,课堂导入,批处理计算,流计算,问题与讨论,拓展链接,1标签云,2文本情感分析等内容,欢迎下载使用。

    批处理计算和流计算、图计算,编程处理数据
    文本数据处理,文本数据分析与应用
    重点:大数据处理的思想和编程处理数据。难点:编程处理数据。
    大数据具有数据量大、数据来源与类型多样、处理速度快等特点,简单的表格处理软件已经无法满足大数据的处理需求,同时,大数据技术、理论和处理方法也在不断发展,为大数据的处理提供了越来越有力的支持。
    处理大数据时,一般采用分治思想。就是把一个复杂的问题分成两个或更多相同的可相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。
    统计文件filename中各单词出现的频率,用pythn编程实现的代码如下:
    wrdcunt={}fr wrd in pen(filename,’r’).read(): wrdcunt[wrd]+=1
    分布式计算与并行处理 分布式计算(Distributed Cmputing)是把一个需要非常巨大的计算能力才能解决的问题分成许多小部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终的结果。例如,利用分布在世界各地成千上万台闲置计算机的计算能力,分析来自外太空的电讯号,探索可能存在的外星智慧生命。 并行处理(Parallel Prcessing)是计算机系统中能同时执行两个或更多处理的一种计算方法。并行处理的主要目的是节省大型和复杂问题的处理时间。
    Hadp是一个运行于计算机集群上的分布式系统基础架构,适用于静态数据 的批处理计算。
    Spark是一种与hadp相似的,应用较广的开源分布式计算架构。Spark 启用了内存存储中间结果,运行速度比hadp快。
    图4.2.2 Hadp的组成
    图4.2.3 MapReduce的工作流程
    Hadp的发展历史 Hadp最早起源于Nutch项目。Nutch是一个开源的网络搜索引擎,由Dug Cutting于2002年创建。随着网页数量的增加,项目组遇到了数十亿网页的存储和索引问题。 2003年底,谷歌发表了关于谷歌分布式文件系统的论文。该论文描述了谷歌搜索引擎网页相关数据的存储架构,该架构可解决Nutch 遇到的网页抓取和索引过程中产生的超大文件存储需求问题。由于谷歌仅开源了思想而未开源代码,Nutch项目组便根据论文开源实现了Nutch的分布式文件系统(NDFS). 2004年,谷歌发表了关于谷歌分布式计算框架MapReduce的论文,该框架可用于处理海量网页的索引问题。Nutch的开发人员依据论文完成了MapReduce的开源实现。 2006年初,NDFS和MapReduce从Nutch项目分离,Dug Cutting用儿子的棕黄色大象玩具的名字为项目起名为Hadp.同年2月,Apache Hadp项目正式启动以支持MapReduce和HDFS的独立发展。 2008年1月,Hadp成为Apache顶级项目,迎来了它的快速发展期。
    图4.2.4 流计算的发展
    图4.2.5 Twitter的分层数据处理架构
    主要的流计算软件系统 目前,处理流数据的软件系统主要有IBM InfSphere Streams、Twitter Strm、Yah!S4、银河流数据处理平台(淘宝)、Facebk Puma等。Strm和S4是目前较为流行的开源分布式实时计算系统。Hern是Strm的替代产品,其外部接口和Strm保持兼容,在流数据处理性能方面与Strm相比有了大幅提升。
    图4.2.6 蛋白质激素构成图(由2.7万个节点和794万条边组成)
    目前通用的图处理软件主要包括两类:一类是图数据库,如Ne4j、InfiniGraph、OrientDB等;加一类是并行图处理系统,如Ggle Pregel、Apache Giraph等
    4、实时处理与批处理的整合
    2014年9月,大数据处理系统summingbird,它实现了批处理和流计算的整合(Hadp+strm)。
    结合生活实践,查找资料,列举静态数据、 流数据处理实例。
    Hadp应用实例:北京城市数据映像-流动的城市“北京城市数据映像”项目采集了北京市地铁一卡通数据、出租车GPS定位轨迹数据、移动手机基站定位、地理位置微博数据、工商业POI地点等约2TB的数据。数据计算平台采用了服务器集群、Hadp和HBase架构。 通过收集北京市各相关行业的数据,运用大数据分析和可视化表达技术,将城市的发展和变化过程变得直观、透明和可视。大数据分析为城市管理提供了技术支撑,是发现、分析城市问题的新思维和技术方法。
    4.2.2 编程处理数据
    1、利用pandas模块处理数据
    Pandas 提供了series和DataFrame两种数据结构,这两种数据结构可完成 数据的整理、计算、统计、分析及简单可视化。
    imprt pandas as pd
    (1)series(一维)
    S1=pd.series([166,178,180])Print(s1)运行结果:0 166 1 1782 180dtype:int64
    创建1个series结构类型的对象s1,存储3名同学的身高值。
    例2 查看例1中s1对象的index、values属性值。
    fr i in s1.index: print(i)运行结果:012
    fr i in s1.values: print(i)运行结果:166178180
    fr i in s1: print(i)运行结果:166178180
    (2)dataFrame(二维)
    例3 使用相等长度列表的字典构建一个DataFrame对象dfl,存储3名同学的姓名、性别、图书借阅次数数据。imprt pandas as pddata=(“姓名”:[“王静怡”,“张佳妮”,“李臣武”],”性别”:[“女”,“女”,“男”],”借阅次数”:[28, 56, 37])dfl=pd. DataFrame(data,clumns=["姓名",“性别",“借阅次数"])print (df1)运行结果:设定dfl中数据列的顺序 姓名 性别 借阅次数0 王静怡 女 281 张佳妮 女 562 李臣武 男 37
    例4读取Excel文件“test.xlsx”中的数据,创建DataFrame对象df。imprt pandas as pddf=pd.read_excel ("test.xlsx")print (df)
    运行结果: 地区 规格 单位 价格 采价点 采集时间0 北京市 红富士一级 元/500克 2.98 超市2 11月中旬1 北京市 红富士一级 元/500克 4.88 超市1 11月中旬 2 天津市 红富士一级 元/500克 5.00 超市1 11月中旬 3 天津市 红富士一级 元/500克 5.00 超市2 11月中旬石家庄市 红富士一级 元/500克 3.98 超市1 11月中旬石家庄市 红富士一级 元/500克 3.98 超市2 11月中旬
    例5 查看df1对象的索引、列标题、值,并将行、列转置。
    fr i in df1.index:print(i)运行结果:0 12
    fr i in df1.clumns: print(i)运行结果:姓名性别借阅次数
    fr i in df1.index: print(i)运行结果:[‘王静怡’‘女’56][‘张佳怩’‘女’52][‘李臣武’‘男’68]
    Df1.T #转置行、列运行结果: 0 1 2姓名 王静怡 张佳怡 李臣武性别 女 女 男借阅次数 56 52 68
    2.利用matpltlib模块绘图
    表4.2.4 常用绘图函数
    例10 绘制正弦曲线图
    imprt numpy as npimprt matpltlib.pyplt as pltx=np.linspace (0, 10, 1000)yl=np.sin (x)y2=np.sin (x**2)plt.figure (figsize= (8, 4) ) #创建图表对象plt.title (“sin (x) and sin (x**2) ”) #设置图表标题文字plt.plt (x,y1,label=“sin (x) ”,clr=“r”,linewidth=2) #绘制线形图plt.scatter (x,y2,label="sin (x**2) ") #绘制散点图plt.ylim (-1. 5, 1. 5) #设置y坐标轴的取值范围plt.xlim (0, 10) #设置x坐标轴的取值范围plt.legend() #显示图例plt.shw ()
    4.2.3 文本数据处理
    1、文本数据的一般过程
    图 典型的文本处理过程
    2、文本数据分析与应用
    图 某语文作文智能阅卷流程
    4.2.4 数据可视化
    图 国家统计局分析大陆总人口情况
    图 用户满意度和收货天数关系图
    图 卡特里娜飓风路径图
    相关课件

    浙教版 (2019)必修1 数据与计算4.2 大数据处理优秀ppt课件: 这是一份浙教版 (2019)必修1 数据与计算4.2 大数据处理优秀ppt课件,文件包含4223《编程处理数据matplotlib》课件PPTpptx、4223《编程处理数据matplotlib》教案docx等2份课件配套教学资源,其中PPT共15页, 欢迎下载使用。

    高中信息技术浙教版 (2019)必修1 数据与计算4.2 大数据处理课文ppt课件: 这是一份高中信息技术浙教版 (2019)必修1 数据与计算4.2 大数据处理课文ppt课件,共18页。PPT课件主要包含了创建绘图对象,画一条直线,画两条正弦曲线,设置标题与坐标轴,增加图例,改变颜色和粗细,完整程序,项目练习选考数据等内容,欢迎下载使用。

    浙教版 (2019)必修1 数据与计算4.2 大数据处理课文ppt课件: 这是一份浙教版 (2019)必修1 数据与计算4.2 大数据处理课文ppt课件,共28页。PPT课件主要包含了自主学习,数据可视化,快捷观察与追踪数据,实时分析数据,可视化的基本方法,有关空间关系的可视化,有关关系的可视化,有关比例的可视化,有关差异的可视化,有关时间趋势的可视化等内容,欢迎下载使用。

    • 精品推荐
    • 所属专辑

    免费资料下载额度不足,请先充值

    每充值一元即可获得5份免费资料下载额度

    今日免费资料下载份数已用完,请明天再来。

    充值学贝或者加入云校通,全网资料任意下。

    提示

    您所在的“深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载 10 份资料 (今日还可下载 0 份),请取消部分资料后重试或选择从个人账户扣费下载。

    您所在的“深深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载10份资料,您的当日额度已用完,请明天再来,或选择从个人账户扣费下载。

    您所在的“深圳市第一中学”云校通余额已不足,请提醒校管理员续费或选择从个人账户扣费下载。

    重新选择
    明天再来
    个人账户下载
    下载确认
    您当前为教习网VIP用户,下载已享8.5折优惠
    您当前为云校通用户,下载免费
    下载需要:
    本次下载:免费
    账户余额:0 学贝
    首次下载后60天内可免费重复下载
    立即下载
    即将下载:资料
    资料售价:学贝 账户剩余:学贝
    选择教习网的4大理由
    • 更专业
      地区版本全覆盖, 同步最新教材, 公开课⾸选;1200+名校合作, 5600+⼀线名师供稿
    • 更丰富
      涵盖课件/教案/试卷/素材等各种教学资源;900万+优选资源 ⽇更新5000+
    • 更便捷
      课件/教案/试卷配套, 打包下载;手机/电脑随时随地浏览;⽆⽔印, 下载即可⽤
    • 真低价
      超⾼性价⽐, 让优质资源普惠更多师⽣
    VIP权益介绍
    • 充值学贝下载 本单免费 90%的用户选择
    • 扫码直接下载
    元开通VIP,立享充值加送10%学贝及全站85折下载
    您当前为VIP用户,已享全站下载85折优惠,充值学贝可获10%赠送
      充值到账1学贝=0.1元
      0学贝
      本次充值学贝
      0学贝
      VIP充值赠送
      0学贝
      下载消耗
      0学贝
      资料原价
      100学贝
      VIP下载优惠
      0学贝
      0学贝
      下载后剩余学贝永久有效
      0学贝
      • 微信
      • 支付宝
      支付:¥
      元开通VIP,立享充值加送10%学贝及全站85折下载
      您当前为VIP用户,已享全站下载85折优惠,充值学贝可获10%赠送
      扫码支付0直接下载
      • 微信
      • 支付宝
      微信扫码支付
      充值学贝下载,立省60% 充值学贝下载,本次下载免费
        下载成功

        Ctrl + Shift + J 查看文件保存位置

        若下载不成功,可重新下载,或查看 资料下载帮助

        本资源来自成套资源

        更多精品资料

        正在打包资料,请稍候…

        预计需要约10秒钟,请勿关闭页面

        服务器繁忙,打包失败

        请联系右侧的在线客服解决

        单次下载文件已超2GB,请分批下载

        请单份下载或分批下载

        支付后60天内可免费重复下载

        我知道了
        正在提交订单

        欢迎来到教习网

        • 900万优选资源,让备课更轻松
        • 600万优选试题,支持自由组卷
        • 高质量可编辑,日均更新2000+
        • 百万教师选择,专业更值得信赖
        微信扫码注册
        qrcode
        二维码已过期
        刷新

        微信扫码,快速注册

        还可免费领教师专享福利「樊登读书VIP」

        手机号注册
        手机号码

        手机号格式错误

        手机验证码 获取验证码

        手机验证码已经成功发送,5分钟内有效

        设置密码

        6-20个字符,数字、字母或符号

        注册即视为同意教习网「注册协议」「隐私条款」
        QQ注册
        手机号注册
        微信注册

        注册成功

        下载确认

        下载需要:0 张下载券

        账户可用:0 张下载券

        立即下载
        账户可用下载券不足,请取消部分资料或者使用学贝继续下载 学贝支付

        如何免费获得下载券?

        加入教习网教师福利群,群内会不定期免费赠送下载券及各种教学资源, 立即入群

        即将下载

        浙教版 信息技术 必修1 4.2 大数据处理 课件(34张幻灯片)
        该资料来自成套资源,打包下载更省心 该专辑正在参与特惠活动,低至4折起
        [共10份]
        浏览全套
          立即下载(共1份)
          返回
          顶部
          Baidu
          map