中图版 (2019)必修1 数据与计算第3章 数据处理与应用3.3 数据分析与可视化3.3.2 数据可视化试讲课课件ppt
展开复习:数据可视化之图表
问题:文本数据如何可视化?
北京空气污染调查报告 北京市预警中心、北京市空气重污染应急指挥部办公室11月26日发布了“空气重污染蓝色预警”称,受不利扩散条件影响,北京空气质量已达“5级重度污染”水平,建议公众做好健康防护,减少户外运动等。这也是北京今年(2016年)入冬以来第二次发布空气重污染预警。 于是,北京的空气质量以及对人体健康影响再度引发公众的热议。 空气中微生物和重金属会致病吗 ? 对拉森团队的研究成果,北京市卫计委表示,细菌的耐药性和致病性是完全不同的概念,耐药性的增加不意味着致病性的增强。
文本可视化的方式:词云
奥地利科学家维克托·迈尔-舍恩伯格是最早洞见大数据时代发展趋势的数据科学家之一,2012年他在《大数据时代》中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维方式。
根据国际互联网数据中心预测:2025年全球每年产生的数据将达到175ZB。如果把175ZB全部存在DVD光盘中,那么DVD叠加起来的高度可以绕地球222圈。
现实问题:数据量大幅度增加
数据挖掘是指从大量的数据中通过算法获取隐藏于其中信息的过程。数据挖掘通过统计学、机器学习、专家系统和模式识别等诸多方法来实现上述目标。
数据挖掘的一个分支,叫做文本数据挖掘,顾名思义,文本数据挖掘,就是从文本中进行数据挖掘,以快速获得文本中的重要信息。
文本可视化最常用的方法就是词云。
文本数据挖掘的主要步骤:文本获取、文本处理、文本可视化
你发现了词云的哪些特点?
特点:图片词汇颜色大小
词云是一种可视化描绘词语出现在文本数据中的频率的方式。
1、词汇区分(分词)2、统计词频3、图形显示
鸡蛋 牛奶 面包 豆浆 油条 鸡蛋 鸡蛋牛奶 包子 鸡蛋 牛奶 面包
体验词云:人工制作词云
鸡蛋牛奶面包豆浆油条包子
鸡蛋 牛奶 面包 豆浆 油条 鸡蛋 鸡蛋 牛奶 包子 鸡蛋 牛奶 面包
请大家暂停视频,按照前面的操作步骤,人工制作早餐食物的词云图,把制作的词云图拍照或者截图粘贴在任务单中。
步骤一:打开网站打开浏览器并在地址栏输入网址httpswrdart.cm/create
步骤2:导入文本点击 “WORDS”菜单下方的“imprt” 按钮。
在弹出的对话框中输入文本。然后点击“imprt wrds”按钮
系统自动显示分词结果和词频统计。
点击右侧的“Optins”按钮,设置文字重复次数。
在弹出的对话框中的“Repeat”选项中选择“Nne”。
点击“SHAPES”菜单,选择一个词云的图形,选中的图形背景显示为蓝色。
打开“FONTS”菜单,然后点击下方的“Add fnt”按钮添加字体。
在对话框中定位到素材文件夹中的宋体字体文件“SimSun.ttf”。
添加完成后,该字体会出现在系统的字体列表中,点击选中该字体。选中后背景为蓝色。
点击上方红色的“Visualize”按钮,即可生成词云图。
活动任务:素材文件夹中的“kngqi.txt”文档内容为《北京空气污染调查报告》,请应用此文档在wrdart网站在线生成词云,将生成的词云图截图并填写活动任务单。
Pythn语言实现词云
jieba,中文分词工具包。根据汉字之间的关联概率形成分词结果。wrdclud,词云生成工具包。可以图形化的展示文本文字及其出现的频率。imagei,image类型图片工具包。提供image类型图片相关操作工具。
右图为某招聘网站的招聘信息文档截图,制作这个的词云图以快速了解应聘所需的关键技术。
文本文件(必备)字体文件(可选)图像文件(可选)程序文件(参考)
运行命令行工具:AnacndaPrmpt在窗口依次输入以下命令:pip install imagei pip install jiebapip install wrdclud
步骤2:运行Spyder软件。
在左侧编辑区输入程序代码(详细代码在后文)
#1、导入需要用到的库frm imagei imprt imreadimprt matpltlib.pyplt as pltfrm wrdclud imprt WrdCludimprt jieba#2、读取文本并分词text = pen(“zhapin.txt","rb").read()text_jieba = " ".jin(jieba.cut(text))bg_pic = imread(“back.png")
代码对应解释导入imagei工具包导入matpltlib工具包导入wrdclud工具包导入jieba工具包读取文档区分词汇加空格读取图片文件
#3、配置词云参数,生成词云wc = WrdClud( fnt_path = "simsun.ttf", backgrund_clr = "white", max_wrds = 200, mask = bg_pic, max_fnt_size = 100 )wc.generate(text_jieba)
代码对应解释定义词云对象读取字体文件设置背景颜色设置最大词汇数量设置词云应用图片设置最大字体尺寸用文本生成词云对象
#4、生成图片并显示plt.figure()plt.imshw(wc)plt.axis("ff")plt.shw() wc.t_file("map.jpg")
代码对应解释生成图形实例实现词云图形绘制关闭坐标轴显示词云图形生成词云图片文件
在右侧的Cnsle面板中会显示生成的词云图片。
活动三:Pythn语言实现词云
活动任务: “zhapin.txt”文档内容为某招聘网站的招聘信息,请使用Pythn语言生成此文档的词云图,将生成的词云图截图,从图中找出五个关键词,完成后填写活动任务单。
词云的时代背景、概念、用途。
制作词云的三种方式:人工方式、在线方式、编程方式
高中中图版 (2019)3.3.2 数据可视化精品ppt课件: 这是一份高中中图版 (2019)3.3.2 数据可视化精品ppt课件,文件包含中图版高中《信息技术必修1数据与计算》第三章第三节“数据分析与可视化”第二课时PPTpptx、中图版高中《信息技术必修1数据与计算》第三章第三节“数据分析与可视化”第二课时教案docx等2份课件配套教学资源,其中PPT共22页, 欢迎下载使用。
高中中图版 (2019)3.3.2 数据可视化优秀ppt课件: 这是一份高中中图版 (2019)3.3.2 数据可视化优秀ppt课件,文件包含中图版高中《信息技术必修1数据与计算》第三章第三节“数据分析与可视化”第一课时PPTpptx、中图版高中《信息技术必修1数据与计算》第三章第三节“数据分析与可视化”第一课时教案docx等2份课件配套教学资源,其中PPT共27页, 欢迎下载使用。
中图版 (2019)第3章 数据处理与应用3.3 数据分析与可视化3.3.2 数据可视化课前预习ppt课件: 这是一份中图版 (2019)第3章 数据处理与应用3.3 数据分析与可视化3.3.2 数据可视化课前预习ppt课件,共21页。PPT课件主要包含了什么是数据可视化,体验数据可视化,数据可视化之图表,数据可视化之词云,数据可视化之,常用图表类型,表格软件制作图表步骤,操作步骤一,操作步骤二,操作步骤三等内容,欢迎下载使用。