高中信息技术第3章 数据处理与应用3.2 数据采集与整理3.2.2 数据整理完美版ppt课件
展开回顾 数据处理一般过程
数据采集到的数据,是怎样保存的呢?常见的数据保存形式是云存储、数据库、文件。
文件格式保存,最常见的是txt、csv格式。csv文件也是一种保存了数据的文本文件,其中的数据通常以英文逗号分隔开。excel、wps等表格软件可以兼容打开该格式的文件。
上图是学生体质健康数据的部分原始数据,观察该数据存在什么问题。
原始数据可能存在的问题
金山银山不如绿水青山,最近这些年,国家落实严控环境污染、修复生态环境等政策。随着环境改善,你家乡的空气质量情况是否有所改善?我们需要数据来帮助判断。
每小时采集的空气质量原始数据
请暂停视频,下载资源包中的文件。 打开 原始数据.csv。 观察数据表中的数据,思考是否存在什么问题。
存在重复值——需要去重
存在太多数据——需要筛选
日期格式不正确——需要数据标准化
存在数据缺失——需要尽可能补缺
1、存在重复数据!——去重2、数据太多了,我们只需要某个城市数据!——筛选3、日期格式不正确!——标准化4、现有缺失数据!——尽可能补缺
Pandas库是数据分析和整理常用的一个第三方库。包含现成方法读写多种文件格式数据。能够高效操作大型数据集。非常擅长处理类似于表格类型的数据。
Pandas库有两个常用的主要数据结构Series——这是一串数据组成的集合DataFrame——这是一个表格型的数据结构
Pandas库——DataFrame结构
活动2:空气质量数据去重
暂停视频请下载 课堂活动(去重).py 文件 和 原始数据.csv 放在同目录下。
目标——删除重复数据打开下载的程序文件
删除重复数据用三句代码实现
(savename,index=False)——保存文件B.df=pd.read_csv(file,encding='utf-8',header=0)——读取文件C.data=df.drp_duplicates(keep='first')——删除重复数据
正确的顺序是 B C A
df=pd.read_csv(file,encding='utf-8',header=0)data=df.drp_duplicates(keep='first')data.t_csv(savename,index=False)请大家参考老师提供的代码,将缺失的代码补全,然后运行,看看去重后的效果吧!
活动3:空气质量数据筛选
目标——筛选数据现在数据太多了,我需要筛选某个城市的数据!例如 筛选北京的数据。
DataFrame筛选用法
DataFrame筛选数据df[列索引]筛选某列的数据df['北京']筛选红色区域数据
DataFrame筛选数据df[列索引列表]筛选多列数据df[ ['date','北京'] ]筛选两列数据
DataFrame筛选数据更多筛选、定位数据的方法请参考学习资料包中的阅读材料
暂停视频请下载 课堂活动(筛选).py 文件 和 STEP1_删除重复数据.csv 放在同目录下。
筛选出date、hur、type、北京 这四列数据
df=pd.read_csv(file,encding='utf-8',header=0)data=df[ ['date','hur','type',city] ]data.t_csv(savename,index=False)请大家参考老师提供的代码,将缺失的代码补全,然后运行。看看筛选后的效果吧!
活动4:空气质量数据标准化处理
暂停视频请下载 课堂活动(标准化).py 文件 和 STEP2_筛选后数据.csv 放在同目录下。
目标——数据标准化(日期标准化) 日期格式应该是2020-10-01的形式。我们需要对这一列数据处理。
datestr[0:4]
datestr[4:6]
datestr[6:8]
datestr[0:4] + '-' + datestr[4:6] + '-' + datestr[6:8]
课堂活动:STEP3 标准化
暂停视频请运行 课堂活动(标准化).py 文件运行结束,观察新生成的数据文件
活动5:空气质量数据补缺
暂停视频请下载 课堂活动(补缺).py 文件 和 STEP3_日期标准化后数据.csv 放在同目录下。
目标——补全缺失数据对于未发布数据,无法补全。对于偶发性缺失数据,可以补全。方法很多,比如线性插值法、均值插值、临近值补缺。这些属于高等数学、线性代数的内容,请课下了解。
目标——数据补缺打开 课堂活动(补缺).py 自定义函数supplyData实现了补缺。修改city为指定的城市名称。(注意一定和csv文件中的城市名一致)。运行程序,体验下补缺过程。
我们通过课堂体验活动,体验了删除重复数据、筛选数据、标准化数据、补全缺失值的整理过程。其实数据整理除了编程工具还有多种工具可以使用,如表格软件、在线数据分析平台等。选择Pythn编程工具来做数据整理有哪些优势呢?
编程可灵活实现使用者的需求
中图版 (2019)必修1 数据与计算4.1.2 感受人工智能的魅力获奖ppt课件: 这是一份中图版 (2019)必修1 数据与计算4.1.2 感受人工智能的魅力获奖ppt课件,文件包含感受人工智能的魅力第二十九课时-课件ppt、感受人工智能的魅力第二十九课时-学习任务单docx、感受人工智能的魅力第二十九课时-教学设计docx、感受人工智能的魅力第二十九课时-课后练习docx、GoogleAI-Duplex打电话谷歌人工智能中文字幕mp4、人工智能让艺术作品动起来mp4等6份课件配套教学资源,其中PPT共26页, 欢迎下载使用。
高中信息技术中图版 (2019)必修1 数据与计算3.3.1 数据分析优秀ppt课件: 这是一份高中信息技术中图版 (2019)必修1 数据与计算3.3.1 数据分析优秀ppt课件,文件包含数据分析第二十四课时-数据分析pptx、数据分析第二十四课时-任务单docx、数据分析第二十四课时-教学设计doc、数据分析第二十四课时-课后练习docx等4份课件配套教学资源,其中PPT共39页, 欢迎下载使用。
高中信息技术中图版 (2019)必修1 数据与计算第3章 数据处理与应用3.2 数据采集与整理3.2.1 数据采集精品ppt课件: 这是一份高中信息技术中图版 (2019)必修1 数据与计算第3章 数据处理与应用3.2 数据采集与整理3.2.1 数据采集精品ppt课件,文件包含数据采集第二十二课时-课件pptx、数据采集第二十二课时-任务单docx、数据采集第二十二课时-教学设计docx、数据采集第二十二课时-课后练习docx等4份课件配套教学资源,其中PPT共40页, 欢迎下载使用。