川教版(2019)九年级上册第3节 爬虫中的法律和道德评优课ppt课件
展开(1)了解编写爬虫程序可能带来的法律和道德问题。
(2)了解并遵守爬虫道德规范。
《中华人民共和国网络安全法》
全国人民代表大会常务委员会在2016年11月7日通过了《中华人民共和国网络安全法》,2017年6月1日正式实施。
法律规定:任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息;爬取数据过程中不应侵犯他人的知识产权。
我们在编写爬虫程序时,一定要遵守相关道德准则和法律法规。
恩,好主意,还可以再加个“乐乐推荐四川美食”。
爬虫真好玩,我准备在我的个人网站上加个“欢欢推荐四川旅游”栏目。把九寨沟、杜甫草堂等这些四川风景名胜景区的相关评价“爬”取出来放到这个栏目上,这样我的网站访问量肯定会大大提升。
公开的数据不一定被允许用于第三方盈利,这样可能会面临法律风险。成熟的大数据公司在爬取并使用一个网站的数据时,一般都需要专业的律师进行审核,看是否有禁止爬取或者禁止用于商业用途的相关内容。
我写了一个爬虫程序从学校教务处的网站上爬取到了所有人的半期考试成绩,再进行加工处理,可以看到每个人每个学科的成绩,还有排名呢。我到时候发一份给你看看。
这次半期考试的成绩我们只能看到自己的,看不到其他人的,我想知道我在年级上排名多少呢。
每个人只能通过登录自己的账号查看自己的成绩。编写程序爬取所有人的成绩,甚至公开数据,可能违反学校相关规定。
互联网公司A向网络用户提供生活服务App,主要内容是商户基本信息及点评信息。互联网公司B使用技术手段在此App上爬取了商户的基本信息及点评信息,用户使用其运营的地图App查询位置时,无须跳转至A公司运营的生活服务App界面,就可直接在地图App界面获取商户的基本信息和点评信息。
互联网公司B使用技术手段爬取并使用互联网公司A软件平台的用户点评等内容,被认定为构成不正当竞争。
R bts协议,又称作爬虫协议,全名是网终肥虫排除标准(RbtsExclusin Prtcl),用来告诉爬虫和搜索引擎哪些页面可以爬取,哪些不可以爬取,通常是一个rbts.txt文本文件,一般放在网站的根目录下。
搜索引擎爬虫爬取的网站的第一个文件便是Rbts文件,可以在浏览器的地址栏上使用“主域名/rbts.txt”来查看,如图3-3-1所示。
在图3-3-1中我们可以看到里面有很多脚本语言,主要是下面三种:
1.User-agent:爬虫名称 代表下面设置的规则对这个“爬虫名称”是有效的,如果有很多条的“User-agent:”,就会有多个爬虫受到限制。如“User-agentBaiduspider",是指对百度爬虫有限制。
2.Disallw:目录 指定不允许爬取的目录,如果只为/,则表示不允许爬取所有页面。如“Disallw:/baidu"。
3.Allw:目录 指定允许爬取的目录,用来排除某些限制、一般是和Disallw一起使用,不会单独使用。
川教版(2019)九年级上册第3节 揭开物联网的面纱精品ppt课件: 这是一份川教版(2019)九年级上册<a href="/xx/tb_c4024178_t3/?tag_id=26" target="_blank">第3节 揭开物联网的面纱精品ppt课件</a>,文件包含核心素养川教版2019信息技术九上23《揭开物联网的面纱》课件pptx、核心素养川教版2019信息技术九上23《揭开物联网的面纱》教案doc等2份课件配套教学资源,其中PPT共27页, 欢迎下载使用。
初中信息技术川教版(2019)九年级上册第2节 建造智能温室优质ppt课件: 这是一份初中信息技术川教版(2019)九年级上册<a href="/xx/tb_c4024177_t3/?tag_id=26" target="_blank">第2节 建造智能温室优质ppt课件</a>,文件包含核心素养川教版2019信息技术九上22《建造智能温室》课件pptx、核心素养川教版2019信息技术九上22《建造智能温室》教案doc等2份课件配套教学资源,其中PPT共35页, 欢迎下载使用。
初中信息技术川教版(2019)九年级上册第1节 设计智能温室获奖课件ppt: 这是一份初中信息技术川教版(2019)九年级上册<a href="/xx/tb_c4024176_t3/?tag_id=26" target="_blank">第1节 设计智能温室获奖课件ppt</a>,文件包含核心素养川教版2019信息技术九上21《设计智能温室》课件pptx、核心素养川教版2019信息技术九上21《设计智能温室》教案doc等2份课件配套教学资源,其中PPT共21页, 欢迎下载使用。