高中信息技术学考复习必修1数据与计算第四章课时1大数据处理的基本思想与架构教学课件
展开☆数据处理的核心是数据,在数据分析、挖掘前通常先对数据进行整理。考点1数据整理1.数据整理的目的(1)检测和修正错漏的数据(2)整合数据资源(3)规整数据格式(4)提高数据质量
2.常见的数据问题(1)数据缺失①忽略含有缺失值的实例或属性(可能因数据集不完整导致分析结果偏差)。·Excel的筛选查找空值或错误标识符②采用平均值、中间值或概率统计值来填充缺失值。·Excel的<查找-替换>,找出缺失值并替换为指定的插补值。
(2)数据重复①检测数据集中的重复数据的两个方面:·基于字段·基于记录②检查到重复数据,在审核后可进行合并或删除操作·统计重复数据个数:Excel的COUNTIF函数、排序。·标记重复数据:Excel→条件格式→突出显示单元格规则→重复值(颜色标记)·删除重复数据:Excel→数据→数据工具→删除重复项
(3)数据异常异常数据指数据集中不符合一般规律的数据对象,它可能是要去掉的噪声,也可能是含有重要信息的数据对象。(4)逻辑错误√数据集中的属性值与实际值不符,或违背业务规则,或不符合逻辑。√判别、剔除异常数据:Excel→数据→数据验证(数据有效性)。(5)格式不一致对于不同来源的数据中存在格式不一致的情况,可根据后续分析和挖掘的需要进行数据转换。
考点2数据计算1.专业的数据处理和统计分析的工具:SPSS、SAS、MATLAB等,也可以通过R、Pythn、Java等计算机语言编程进行数据处理。2.Excel数据计算与分析常见操作:(1)公式计算步骤①选中结果单元格②输入等号“=”或者单击“插入函数”按钮③编辑公式(公式显示在编辑栏内)④回车确认
(2)公式中可以引用函数、单元格、区域、数值、字符等。结果单元格内显示计算结果,编辑栏上显示公式。(3)常用函数①SUM求和例如“=SUM(B1,D2:E5)”,对B1单元格和D2:E5区域的数据求和②AVERAGE求平均例如“=AVERAGE(B2:C6,E8)”,对B2:C6区域和E8单元格的数据求平均③MAX求最大值例如“=MAX(B1,D2:E5)”,对B1单元格和D2:E5区域的数据求最大值④MIN求最小值例如“=MIN(B2:C6,E8)”,对B2:C6区域和E8单元格的数据求最小值
(4)要点①“=”是公式计算的标志,公式必须以“=”开头。没有“=”,系统认为是普通的字符输入,不予计算。②公式中不能引用结果单元格自己,以及引用了依赖结果单元格值的其他单元格。否则系统会报错(循环引用)。
(5)自动填充→相对引用&绝对引用某些情况下,自动填充时不希望行号或列号发生改变,而因为自动填充会默认发生相对引用的改变,则在不希望变化而实际上发生了变化的行号或列号前加上$锁定不让其发生改变。
①相对引用<1>被填充单元格和填充的样版单元格公式在形式上保持一致。<2>填充时公式中行号或列号发生递变,递变值为被填充单元格行号或列号与样板单元格行号或列号的差值。<3>系统默认在自动填充时发生相对引用②绝对引用
③总结规律<1>按列纵向填充,默认相对引用变化的是行号,若需某行号不变,则需要在样板单元格(作为样版进行自动填充的单元格)相应的行号前加绝对引用符号$进行锁定。<2>按行横向填充,默认相对引用变化的是列号,若需某列号不变,则需要在样板单元格相应的列号前加绝对引用符号$进行锁定。④以有公式计算的单元格为样版单元格对其他单元格进行自动填充,则样版单元格和被填充单元格的公式在形式上保持高度一致。⑤对有公式计算的单元格A进行“复制”操作,在别的单元格B执行“粘贴”操作,等同于A向B自动填充。
3.用Excel软件进行数据计算的一般方法(1)分析表格数据(2)抽象计算模型(3)计算(4)分析计算结果,描述其含义
典例1写出下图所示数据中结果单元格的公式。
(1)F2单元格赵文昊同学的总分公式(2)G2单元格赵文昊同学的平均分公式(3)C18单元格语文学科最高分的公式(4)C19单元格语文学科最低分的公式(5)C20单元格的语文“学科百分比(%)”【语文学科总分÷F17单元格中所有学科的总分×100】向右自动填充得到其他两门学科的“学科百分比(%)”数据,求C20单元格的公式(6)H2单元格赵文昊同学的“总分占比(%)” 【赵文昊总分÷F17单元格中所有同学的总分之和×100】向下填充得到其他同学的“总分占比(%)”,求H2单元格公式
答案 (1)=SUM(C2:E2)或者=C2+D2+E2(2)=AVERAGE(C2:E2)或者=F2/3(3)=MAX(C2:C16)(4)=MIN(C2:C16)(5)=C17/$F17 * 100 解析 横向自动填充,默认发生相对引用,被填充单元格的列号相对样板单元格发生改变,而公式中的分母F17单元格不能变化,所以将分母F17单元格的列号F加上$锁定不让它发生改变。
(6)答案=F2/F$17 * 100 解析 纵向自动填充,默认发生相对引用,被填充单元格的行号相对样板单元格发生改变,而公式中的分母F17单元格不能变化,所以将分母F17单元格的行号17加上$锁定不让它发生改变。
考点3数据图表呈现1.用Excel软件创建图标呈现数据的一般方法:分析表格数据→选择图表类型→创建图表→检查图表,表述数据特征。2.图表类型:依据数据间的关系选择相应的图表类型
(1)柱形图:比较一组数据的多少
(2)条形图:比较一组数据的多少
(3)饼图:分析所占份额
(4)圆环图:分析所占份额
(5)折线图①分析一组数据的变化趋势部分少数民族人口变化趋势图
②分析2组数据之间是否存在相关性(前提:其中一组数据有序)
平均温度和地理纬度相关性分析
(6)雷达图:可对两组或多组变量进行多指标对比,反映数据相对中心点和其他数据点的变化情况。常用于多项指标的全面分析。
(7)散点图:用两组数据构成多个坐标点,反映坐标点的分布情况,常用于反映2~3个变量之间的关联或分布趋势。
(8)气泡图:散点图的演变,将散点图的数据点变为气泡,通过气泡面积大小反映第三维度变量值,通过气泡颜色反映第四维度变量值。常用于反映3~4个变量之间的关联或分布趋势。
典例2依据下图所示“人口普查.xls”文件中的数据,完成以下小题。
(1)H5~H13的值由H4单元格自动填充得到,写出H4单元格的公式[各年龄文盲占比(%)=各年龄文盲人口总数÷文盲人口总数(G14单元格)×100)]。(2)“全国15~24岁文盲人口比例统计图”如图所示,分析并描述图中数据的特征和规律(写出两条)。
全国15~24岁男女文盲人口比例统计图
①_____________________________________ ②_____________________________________
考点4大数据处理的基本思想与架构1.大数据处理的分治思想(1)把一个复杂的问题分成两个或更多相同或相似的子问题,找到求这几个子问题的解法后,再找出合适的方法把它们组合成求整个问题的解法。
(2)若这些子问题还难以解决,可以再把它们分成几个更小的子问题,以此类推,直至求出解为止。
2.大数据处理类型(1)静态数据:在处理时已收集完成,在计算时不会发生改变的数据,一般采用批处理计算进行处理。(2)流数据:不间断地、持续地到达的实时数据,随着时间的流逝,流数据的价值也随之降低,可采用流计算进行实时分析。(3)图数据:现实世界中的许多数据,如社交网络、道路交通等数据,可采用图计算进行处理。
3.批处理计算(1)Hadp:一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据的批处理计算。(2)Hadp计算平台的组成①Cmmn公共库②分布式文件系统HDFS<1>主要功能是将大规模海量数据以文件的形式、用多个副本保存在不同的存储节点中,并用分布式系统进行管理。<2>是一个高度容错性系统,适合部署在廉价的机器上(云盘、网盘的底层一般采用HDFS)。
③分布式数据库HBase建立在HDFS提供的底层存储基础上,采用基于列的存储方式,主要用来存储非结构化数据和半结构化数据,可管理PB级的大数据。④分布式并行计算模型MapReduce<1>是一种分布式并行编程模型,能够处理大规模数据集的并行运算,主要由Map(映射)和Reduce(归纳)2个函数构成。<2>核心处理思想:将任务分解并分发到多个节点上进行处理,最后汇总输出。
MapReduce的工作流程
4.流计算:流计算系统可以简单、高效、可靠地实现实时数据的获取、传输和存储,在与数据库、Hadp、编程语言等整合后可开发出功能强大的实时计算与分析应用。
Twitter的分层数据处理框架5.图计算:现实世界中的很多数据是以图的形式呈现的,或者是可以转换为图以后再进行分析的,如社交网络、网络浏览与购买行为、传染病的传播路径等。6.实时处理与批处理的整合整合可以缩短批处理与流处理之间的切换时延,有利于降低成本。
高中信息技术学考复习必修1数据与计算第五章人工智能及应用教学课件: 这是一份高中信息技术学考复习必修1数据与计算第五章人工智能及应用教学课件,共15页。
高中信息技术学考复习必修1第四章课时3编程处理图片、文本数据处理、数据可视化、大数据典型应用课件: 这是一份高中信息技术学考复习必修1第四章课时3编程处理图片、文本数据处理、数据可视化、大数据典型应用课件,共46页。PPT课件主要包含了☆kde密度图,☆常见的分词系统,标签云,城市心情,卡特里娜飓风路径图,答案A等内容,欢迎下载使用。
高中信息技术学考复习必修1数据与计算第四章课时2编程处理数据教学课件: 这是一份高中信息技术学考复习必修1数据与计算第四章课时2编程处理数据教学课件,共60页。PPT课件主要包含了答案C,常用属性,常用函数等内容,欢迎下载使用。