大数据处理PPT课件免费下载
展开一、【新课导入】
百度搜索:信息技术难不难?
搜索引擎情报分析自动摘要、自动校对论文查重、文本分类垃圾邮件过滤机器翻译自动应答
文本数据处理的主要目的是从大规模的文本数据中提取出符合需求的、感兴趣的和隐藏的信息。
二、【课程主要内容】
非结构化数据:各类的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频无结构的文本
结构化:行数据,二维表结构,遵循数据格式与长度规范结构化、便于计算机处理
有位书生到亲戚家串门,顷刻间外面就下起雨来,这时天已将晚,他只得打算住下来。但这位亲戚却不乐意,于是就在纸上写了一句话:下雨天留客天留人不留。书生看了,即刻明白亲戚的意思,却又不好明说,就心想一不做、二不休,干脆加了几个标点:下雨天,留客天,留人不?留!亲戚一看,这句话的意思完全反了。也就无话可说,只好给书生安排了住宿。
下雨天留客,天留人不留
下雨天,留客天,留人不?留!
分词是将连续的字序列按照一定的规范重新组合成词序列的过程。
1、基于词典的分词方法根据设定好的词典进行分词2、基于统计的分词方法依据上下文中相邻字出现的频率统计3、基于规则的分词方法模拟人的思维,根据资料和规则进行学习分词。(尚在探索)
一般采用词典法和统计法两者结合
jieba分词IKAnalyzerNLPIR语言云BsnNLP
cut()lcut()
全模式把所有可以成词的找出来,速度非常快
中文文本可以采用字、词或短语作为表示文本的特征项。相比较而言词的切分难度小且更能表达文本含义。目前,大多数中文文本分析中都采用词作为特征项,这种词称作特征词。特征项能够表达该文章的信息,区分文章的不同通常可以直接用分词算法和词频统计得出的结果作为特征词,但若文本很大,特征词会很多,用特征提取效率更高
1、根据专家的知识挑选有价值的特征2、用数学建模的方法构造评估函数自动选取目前大多数采用基于概率统计的构造评估函数方法进行特征提取,随着大数据分析,深度学习等技术的发展,这一方法的提取会更加准确、科学。
取得特征词后,根据项目需求,确定解决问题的路径,选取合适的工具,设计算法抽取出文本隐含的价值。·标签云·文本情感分析
以词频表现文本特征,将关键词按照一定的顺序和规律排列,以文字的大小来代表词语的重要性。(文本可视化)
数据分析:文本情感分析
通过计算机技术对文本的主观性、观点、情绪等进行挖掘和分析,判断文本的情感倾向。
情感分析:这城市那么空,这回忆那么凶,这街道车水马龙,我能和谁相拥
词语级是在分词的基础上,根据情感词典进行特征提取和分类,再给特征词赋予权重进行统计分析。例如:满意+5,差-5
可以根据分析的粒度不同进行划分
今天跟集美出去逛街啦,搞点神仙甜品778顺便暴风吸入好喝到剁jiji的加芋圆加布丁加椰果加芋泥加奥奥碎加脆啵啵加奶盖加花生加燕麦加红豆加砒霜的奶茶,茶百道yyds,今天跟集美也是在逃公主的一天
应用:网络舆情监控、用户评论分析和决策、信息预测等众多领域
三、【随堂练习】
文本数据处理的一般过程不包括( )A.分词B.特征提取C.数据分析D.机器翻译
以下哪项不是中文分词的一般方法( )A.基于词典法B.基于统计法C.基于阿尔法D.基于规则法
构造评估函数的特征提取法大多是基于( )设计的A.语义分析B.情感分析C.概率统计D.专家知识
数据排序PPT课件免费下载: 浙教版(2019)高中信息技术选修1数据与数据结构课文《数据排序》,完整版PPT课件免费下载,优秀PPT背景图搭配,精美的免费ppt模板。轻松备课,欢迎免费下载使用。
数组PPT课件免费下载: 浙教版(2019)高中信息技术选修1数据与数据结构课文《数组》,完整版PPT课件免费下载,优秀PPT背景图搭配,精美的免费ppt模板。轻松备课,欢迎免费下载使用。
链表PPT课件免费下载: 浙教版(2019)高中信息技术选修1数据与数据结构课文《链表》,完整版PPT课件免费下载,优秀PPT背景图搭配,精美的免费ppt模板。轻松备课,欢迎免费下载使用。