|课件下载
搜索
    上传资料 赚现金
    【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件
    立即下载
    加入资料篮
    资料中包含下列文件,点击文件名可预览资料内容
    • 课件
      【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件.pptx
    • 教案
      【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》教案.doc
    【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件01
    【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件02
    【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件03
    【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件04
    【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件05
    【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件06
    【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件07
    【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件08
    【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件01
    【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件02
    【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件03
    还剩35页未读, 继续阅读
    下载需要30学贝 1学贝=0.1元
    使用下载券免费下载
    加入资料篮
    立即下载

    信息技术九年级上册第三单元 我的课外读物——网络爬虫第2节 处理网络信息获奖ppt课件

    展开
    这是一份信息技术九年级上册第三单元 我的课外读物——网络爬虫第2节 处理网络信息获奖ppt课件,文件包含核心素养川教版2019信息技术九上32《处理网络信息》课件pptx、核心素养川教版2019信息技术九上32《处理网络信息》教案doc等2份课件配套教学资源,其中PPT共43页, 欢迎下载使用。

    01.学会使用BeautifulSup模块,对获取到的信息进行清理。。
    02.了解Html标签在使用BeautifulSup模块时的作用。
    03.学会字符串合并、替换等简单操作。
    04.掌握在Pythn中使用pen函数保存文件,了解常用编码方式UTF-8与GBK。
    上一节中,我们在Pythn中用requests模块获取到了“好书推荐”的网页信息,接下来,根据需要对数据进行处理和保存。让我们按前面分析的步骤一步一步来实现吧。
    (一)、提取书籍的名称
    使用BeautifulSup模块,可以很简单地将我们需要的内容从网贝中提取出来。
    sm是所有书籍名称列表,按在网页中出现的先后顺序依次编号为0,1,2,3,4……
    我们只需要对上一节中的代码稍做修改,即可达到目的,代码如下:
    保存上面代码,运行,结果如图3-2-1所示。
    上图,使用BeautifulSup模块清除掉了除书籍名称之外的所有内容,得到一个列表,列表中第0项内容是:三国演义,……,以此类推。每一项目中都有不需要的span标签,再将上面代码完善一下,用fr循环提取出列表中的每一项内容,并只打印其中的书籍名称,代码如下:
    运行结果如图3-2-2所示。
    如上图所示,我们依次获取到了全部书名并清除了其他内容。
    使用BeautifulSup模块从网页中获取到需要的信息,关键在于从Html中找到所需信息的“标签”,通过标签的值,就可以将需要的信息提取出来。
    获取好评数、价格等信息与获取书籍名称的方法相同,只是关键词不同。同学们可试试修改一下上面的代码,来提取书籍的好评数、内容简介和价格。
    提取书籍好评数的代码如下:
    运行结果如图3-2-3所示。
    每种书籍的好评数后面部有“条好评”这几个文字,可以使用字符串替换的方法将文字删除,只保留数字,替换命令是replace。
    请同学们运行下面代码,并观察运行结果,思考 replace命令的作用。
    不难发现第一个 replace语句将苹果替换成了桃子,而第个语句中,因为字符串stra中没有“西瓜”,所以替换不成功,返回原字符串。
    只保留好评数数字部分的代码就是:
    运行结果如图3-2-4所示。
    (二)、同时提取书名和好评数
    前面分别提取到了书名和好评数,我们要将二者结合起来一起显示,这就要使用字符串合并的方法。
    请同学们运行下面代码,仔细观察打印结果,并思考其中的+号起了什么作用?
    由上面代码可以发现:使用+号,可以将两个字符串合并在一起。使用+号合并字符串在七年级上册Pytbn编程时已经使用过了。用+号合并字符串时,两个字符串之间是没有间隔的。
    我们已陉分别提取了所有的书名列表和好评数列表,下一步要将每一本书的名称和对应的好评数合并,中间用逗号分隔。用fr循环来实现,用fr来依次枚举列表little中的每一个书名,同时增加变量i表示列表litle-sub的索引号来依次获取对应的好评数,即litle-sub[i],变量i从0开始,依次加1,代码如课本所示。
    运行结果如图3-2-5所示。
    根据前面的分析,下一步就是将这些信息保存到文件中,以便对数据进行后期处理。像图3-2-5中的数据,数据与数据之间用英文逗号来分隔,我们可以将其保存为扩展名为csv的文件,其实就是最简单的Excel文档,可以使用“Excel”或者“WPS表格”来打开它。
    请同学们编写下面代码,将该代码文件保存在Pythn目录文件夹下,然后运行它,看看会发生什么情况。
    在Pythn中,我们通常使用pen函数来打开、保存、读取及写入文件。
    运行程序后,什么结果都没有,再看看代码所在的文件夹呢?文件夹中出现了一个空白的文件,名字就叫“测试文件。txt”显然,上面的代码做了一件事,那就是新建了一个空白的文件。代码中的w,是单词 write(写入)的缩写,意思是以“写入”的方式打开这个文件。文件编码方式是GBK,为默认编码方式,可以不写。如果编码方式是UTF8,则必须指定。
    现在用 write方法试试往这个文件中写入内容,看看会发生什么情况。请同学们修改代码如下,观察“测试文件txt”中发生了什么变化。
    运行结果如图3-2-6所示。
    请同学们再修改代码,往文件中写入另一句话,观察“测试文件txt”中发生了什么变化,代码如下:
    运行之后再打开“测试文件txt”,发现了什么呢?原始文件中的内容“我是欢欢!”这句话不见了。只有“我喜欢玩Pythn!”也就是说,使用w方式打开文件,再写入内容,会覆盖掉文件中原来的内容。
    网络爬虫,又被称为网页蜘蛛、网络机器人等。它的本质,是一种按照一定的规则,自动爬取网络信息的程序或脚本。网络爬虫帮助搜索引擎从互联网上读取网页,是搜索引擎最重要也是最基础的组成部分网络爬虫能快速、高效地帮助我们获取到有用的信息,特别是当我们需要从网络上大规模的获取某类信息时,网络爬虫将会使我们的工作事半功倍。所以,理解网络爬虫的基本原理,甚至能够自己编写爬虫,是我们生活在信息时代应该具备的技能。
    使用pen函数打开文件,要注意打开方式的参数:读“r”、写“w”、追加“a'”、读文件时要求文件已经存在,写或者追加时,若文件不在可以自动创建一个新文件。写入文件时要注意,“w”方式会把原来的内容覆盖,"a”方式会把新内容加在原文末尾。
    GBK编码与UTF-8编码 无论是保存文件、读取文件,还是往文件中写入内容,都要注意,文件可能会有不同的编码。中文Windws系统下,默认的文件编码是GB2312(GBK),所以程序中使用pen函数时,并没有用encding=编码方式’这个参数强行指定某种编码。但是从网页上去爬取数据时,网页的编码方式绝大多数都是UTF-8的,要把网页上的数据保存到电脑上时,最好就强行指定编码为GBK。否则编码不正确,会导致保存、读取或者写入的文本变成乱码。所以,通常使用pen函数将内容写入到文件时,可直接写为: 文件变量名=pen("文件名.txt","a",encding="GBK") 那么,GBK编码与UTF-8编码到底有什么区别呢?最早的电脑都是使用英文的,英文一个字母只占一个字符,为了在电脑中使用中文,我国就制定了一个名叫GB2312的编码标准。但GB2312只有常用汉字,并没有包含所有汉字。为此,又在GB2312的基础上扩展,形成了GBK编码,包含了几乎所有汉字与特殊字符。
    其他国家也存在文字编码方式需要统一的问题,所以UTF-8编码产生了。如果中文网页使用了UTF-8编珥,外国人访问也没有问题;如果中文网页使用了GBK编码,则外国人访问就必须下载中文字体,否则就看到乱码。所以,UTF-8是全球统一的通用编码,而GBK编码是中文环境中的一种编码,并不通用。 在我们学习Pythn编程语言时,可使用网上太量的现成模块,这些模块的作者来自于全球各地。所以,使用Pytbn编写代码时,建议大家尽量使用UTF-8的编码方式来保存自己的代码当调用了UTF-8编码的外部模块时,可能我们编写的程序会出现一些出乎意料的问题。
    前面爬虫获取到的书名和好评数的数据,可以保存为后缀名为csv的文件,数据与数据之间,使用英文逗号来分隔。代码如下:
    运行代码即可得到“书籍数据。csv”文件,首先用记事本打开这个文件,效果如图3-2-6所示。
    如图3-2-6所示,每本书的价格与好评数,都被爬取并保存了下来,数据之闾是用英文逗号分隔开的。再用“WPS表格”或“Excel”打开这个文件,效果如图3-2-7所示。
    上面是把所有的书名和好评数依次合并在一个字符串中,最后用write0方法写入这一个字符串,能用追加的方式来做吗? 上面只是获取了书名和好评数、能把书籍价格也加入表格吗?
    通过前面的学习,我们可以用Pythn编写程序,在网络上获取需要的信息,并将其保存到文件中。而后根据需要对保存的数据信息进行加工和处理,提取出对我们有价值的信息。
    刚才保存下来的csv文件可以用“WPS表格”或“Excel”打开,那我就可以用图表中的柱形图来显示每种书的好评数或者价格了,这样看起来更直观。
    谢谢老师!我觉得,虽然获取到了数据,但这些数据太多了,我能知道哪些书好评数最高,哪些书价格最便宜就更好啦。
    嗯,我们还可以用排序的功能按好评数从高到低排序,就能看到哪些书最受欢迎;按价格从低到高排序,就能看到哪些书最便宜啦。
    我们上学期学习的数据分析还能通过写Pythn程序来实现呢,用pandas模块中的srt_values函数进行排序。
    老对,我们以前学的表格数据处理这下都能用上了。
    你们说的都很对,把以前学习的知识灵活地运用起来,就能解决很多生活中的问题。通过这一次学习网络爬虫你们学到了很多知识,能用思维导图的方式把这些知识梳理一下吗?
    相关课件

    川教版(2019)九年级上册第三单元 我的课外读物——网络爬虫第1节 爬取网络信息完整版ppt课件: 这是一份川教版(2019)九年级上册<a href="/xx/tb_c4024181_t3/?tag_id=26" target="_blank">第三单元 我的课外读物——网络爬虫第1节 爬取网络信息完整版ppt课件</a>,文件包含核心素养川教版2019信息技术九上31《爬取网络信息》课件pptx、核心素养川教版2019信息技术九上31《爬取网络信息》教案doc等2份课件配套教学资源,其中PPT共30页, 欢迎下载使用。

    初中信息技术川教版(2019)九年级上册第2节 建造智能温室优质ppt课件: 这是一份初中信息技术川教版(2019)九年级上册<a href="/xx/tb_c4024177_t3/?tag_id=26" target="_blank">第2节 建造智能温室优质ppt课件</a>,文件包含核心素养川教版2019信息技术九上22《建造智能温室》课件pptx、核心素养川教版2019信息技术九上22《建造智能温室》教案doc等2份课件配套教学资源,其中PPT共35页, 欢迎下载使用。

    初中信息技术川教版(2019)九年级上册第1节 设计智能温室获奖课件ppt: 这是一份初中信息技术川教版(2019)九年级上册<a href="/xx/tb_c4024176_t3/?tag_id=26" target="_blank">第1节 设计智能温室获奖课件ppt</a>,文件包含核心素养川教版2019信息技术九上21《设计智能温室》课件pptx、核心素养川教版2019信息技术九上21《设计智能温室》教案doc等2份课件配套教学资源,其中PPT共21页, 欢迎下载使用。

    免费资料下载额度不足,请先充值

    每充值一元即可获得5份免费资料下载额度

    今日免费资料下载份数已用完,请明天再来。

    充值学贝或者加入云校通,全网资料任意下。

    提示

    您所在的“深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载 10 份资料 (今日还可下载 0 份),请取消部分资料后重试或选择从个人账户扣费下载。

    您所在的“深深圳市第一中学”云校通为试用账号,试用账号每位老师每日最多可下载10份资料,您的当日额度已用完,请明天再来,或选择从个人账户扣费下载。

    您所在的“深圳市第一中学”云校通余额已不足,请提醒校管理员续费或选择从个人账户扣费下载。

    重新选择
    明天再来
    个人账户下载
    下载确认
    您当前为教习网VIP用户,下载已享8.5折优惠
    您当前为云校通用户,下载免费
    下载需要:
    本次下载:免费
    账户余额:0 学贝
    首次下载后60天内可免费重复下载
    立即下载
    即将下载:资料
    资料售价:学贝 账户剩余:学贝
    选择教习网的4大理由
    • 更专业
      地区版本全覆盖, 同步最新教材, 公开课⾸选;1200+名校合作, 5600+⼀线名师供稿
    • 更丰富
      涵盖课件/教案/试卷/素材等各种教学资源;900万+优选资源 ⽇更新5000+
    • 更便捷
      课件/教案/试卷配套, 打包下载;手机/电脑随时随地浏览;⽆⽔印, 下载即可⽤
    • 真低价
      超⾼性价⽐, 让优质资源普惠更多师⽣
    VIP权益介绍
    • 充值学贝下载 本单免费 90%的用户选择
    • 扫码直接下载
    元开通VIP,立享充值加送10%学贝及全站85折下载
    您当前为VIP用户,已享全站下载85折优惠,充值学贝可获10%赠送
      充值到账1学贝=0.1元
      0学贝
      本次充值学贝
      0学贝
      VIP充值赠送
      0学贝
      下载消耗
      0学贝
      资料原价
      100学贝
      VIP下载优惠
      0学贝
      0学贝
      下载后剩余学贝永久有效
      0学贝
      • 微信
      • 支付宝
      支付:¥
      元开通VIP,立享充值加送10%学贝及全站85折下载
      您当前为VIP用户,已享全站下载85折优惠,充值学贝可获10%赠送
      扫码支付0直接下载
      • 微信
      • 支付宝
      微信扫码支付
      充值学贝下载,立省60% 充值学贝下载,本次下载免费
        下载成功

        Ctrl + Shift + J 查看文件保存位置

        若下载不成功,可重新下载,或查看 资料下载帮助

        本资源来自成套资源

        更多精品资料

        正在打包资料,请稍候…

        预计需要约10秒钟,请勿关闭页面

        服务器繁忙,打包失败

        请联系右侧的在线客服解决

        单次下载文件已超2GB,请分批下载

        请单份下载或分批下载

        支付后60天内可免费重复下载

        我知道了
        正在提交订单

        欢迎来到教习网

        • 900万优选资源,让备课更轻松
        • 600万优选试题,支持自由组卷
        • 高质量可编辑,日均更新2000+
        • 百万教师选择,专业更值得信赖
        微信扫码注册
        qrcode
        二维码已过期
        刷新

        微信扫码,快速注册

        还可免费领教师专享福利「樊登读书VIP」

        手机号注册
        手机号码

        手机号格式错误

        手机验证码 获取验证码

        手机验证码已经成功发送,5分钟内有效

        设置密码

        6-20个字符,数字、字母或符号

        注册即视为同意教习网「注册协议」「隐私条款」
        QQ注册
        手机号注册
        微信注册

        注册成功

        下载确认

        下载需要:0 张下载券

        账户可用:0 张下载券

        立即下载
        账户可用下载券不足,请取消部分资料或者使用学贝继续下载 学贝支付

        如何免费获得下载券?

        加入教习网教师福利群,群内会不定期免费赠送下载券及各种教学资源, 立即入群

        即将下载

        【核心素养】川教版(2019)信息技术九上3.2《处理网络信息》课件
        该资料来自成套资源,打包下载更省心 该专辑正在参与特惠活动,低至4折起
        [共10份]
        浏览全套
          立即下载(共1份)
          返回
          顶部
          Baidu
          map