网络搜索的道德规范

扫描, Jan-25-20225 分钟阅读

网络搜索并不是一个新概念,因为整个互联网都是基于网络搜索。例如,当你在 Facebook 上分享一个 Youtube 视频链接时,它的数据就会被抓取,这样人们就能在你的帖子中看到视频的缩略图。因此,有无穷无尽的方法可以利用数据挖掘为每个人谋福利。但是

目录

网络搜索并不是一个新概念,因为整个互联网都是基于网络搜索。例如,当你在 Facebook 上分享一个 Youtube 视频链接时,它的数据就会被抓取,这样人们就能在你的帖子中看到视频的缩略图。因此,有无穷无尽的方法可以利用数据挖掘为每个人谋福利。但是,从网络上获取数据也涉及到一些道德问题。

假设你申请了一份医疗保险计划,并欣然将自己的个人信息提供给医疗服务提供商,以换取他们提供的服务。但是,如果某个陌生人对你的数据施展 "网络搜刮魔法",并将其用于个人目的呢?事情可能会变得越来越不恰当,对吗?这就需要我们践行合乎道德的网络搜索。 

在本文中,我们将讨论网络刮擦行为准则以及法律和道德方面的考虑因素。

网络抓取行为准则

要进行合法的网络搜刮,您需要遵守以下简单规则。

不要破坏互联网 - 您需要知道,并非所有网站都能承受每秒数千次的请求。有些网站允许这样做,但如果你使用同一 IP 地址发送多个请求,其他网站可能会阻止你。例如,如果你编写了一个跟踪超链接的刮擦工具,你应该先在一个较小的数据集上进行测试,确保它能完成它应该做的事情。此外,您还需要调整刮擦程序的设置,允许请求之间有一定的延迟。 

查看 robots.txt 文件 - 网站使用 robots.txt 文件让机器人知道网站是否可以被抓取。从网上提取数据时,您需要认真了解并尊重 robots.txt 文件,以避免法律后果。 

分享你能分享的东西--如果你获得了在公共领域刮擦数据的许可并刮擦了这些数据,你就可以将其公布于众(例如在 datahub.io),供其他人重复使用。如果您编写了网络搜刮工具,您可以共享其代码(例如,在 Github 上),以便他人从中受益。 

不要非法分享下载的内容--出于个人目的搜刮数据有时是可以的,即使这些信息是受版权保护的。但是,分享无权分享的数据则属于非法行为。

你可以礼貌地询问--如果你的项目需要某个组织的数据,你可以直接询问他们是否可以提供你想要的数据。或者,您也可以使用该组织网站上的主要信息,省去创建网络搜刮器的麻烦。 

网络抓取的道德考虑

在从网络搜刮数据时,您需要牢记以下道德规范。

不要窃取数据

你需要知道,在某些情况下,网络搜刮可能是非法的。如果我们要搜刮的网站的条款和条件禁止用户复制和下载内容,那么我们就不应该搜刮这些数据,并尊重该网站的条款。

在不破坏网站的前提下,刮除不在密码保护验证系统(公开可用数据)后面的数据是没有问题的。但是,如果你进一步分享刮擦的数据,就会带来潜在的问题。例如,如果你从一个网站下载内容并发布到另一个网站上,你的搜刮行为将被视为非法,并构成侵犯版权。 

不要破坏网络

每当你编写网络搜刮程序时,你都会重复查询一个网站,并有可能访问其大量页面。每访问一个页面,都会向网站的网络服务器发送一个请求。服务器会处理请求,并将响应发送回运行代码的计算机。我们发送的请求会消耗服务器的资源。因此,如果我们在短时间内发送过多的请求,就会导致其他普通用户无法在这段时间内访问网站。

黑客经常使用拒绝服务(DoS)攻击来关闭网络或机器,使目标用户无法访问。他们向服务器发送信息,引发服务器崩溃,或向目标网站发送大量流量。 

由于 DoS 攻击在互联网上很常见,因此大多数现代网络服务器都有防止非法使用其资源的措施。它们对来自单一 IP 地址的大量请求保持警惕。如果该地址在短时间内发送多个请求,它们就会阻止该地址。

询问与分享

根据您的项目范围,值得询问您计划搜刮的数据的馆长或所有者。您可以询问他们是否有符合您项目需求的结构化格式的数据。如果你想以他们可能感兴趣的方式将他们的数据用于研究目的,你就可以省去编写网络搜刮工具的麻烦。 

您还可以免去他人编写网络搜刮工具的麻烦。例如,如果您发布了作为研究项目一部分的数据或文档,可能会有人想获取您的数据以供使用。如果您愿意,您可以为他人提供下载结构化格式原始数据的方法,从而省去编写网络刮刀的麻烦。

安全第一

数据隐私和版权立法因国家而异。您需要查看适用于您的情况的法律。例如,在澳大利亚等国家,即使电话号码、电子邮件地址和姓名等个人信息是公开的,搜刮这些信息也是非法的。

为个人使用目的采集数据时,应遵守网络搜刮行为准则。但是,如果你想为商业或研究目的获取大量数据,你可能需要寻求法律建议。

道德网络搜索的代理服务器

大家都知道,代理服务器的应用非常广泛。它们的主要用途是隐藏 IP 地址和用户的位置。代理还允许用户在上网时访问受地理限制的内容。因此,用户可以访问隐藏的网页,因为代理可以绕过内容和地理限制。

您可以使用代理来最大限度地提高搜刮器的输出,因为代理会降低拦截率。如果不使用代理,您只能从网络上抓取极少的数据。这是因为代理服务器超过了抓取率,允许蜘蛛提取更多数据。抓取率表示在给定时间内可以发送的请求数量。该比率因网站而异。 

选择代理

您可以根据项目要求选择代理。您可以使用专用代理或共享代理。

  • 如果您的项目需要高性能和最大化连接,专用代理是最好的选择。
  • 当您在预算有限的情况下开展小规模项目时,共享代理服务器的表现非常出色。
  • 从网络上提取数据时,不鼓励使用免费代理。这是因为它们向公众开放,经常被用于非法活动。

除了为项目选择代理服务器,您还可以识别 IP 来源。代理服务器分为三类。 

数据中心代理 - 这是用于网络搜索的最便宜、最实用的代理。这些 IP 在独立服务器上创建,可有效用于完成大型搜索项目。

住宅代理--由于它们隶属于第三方,因此可能很难获得。 

移动代理--它们是最昂贵的,但如果要收集只能在移动设备上看到的数据,它们就非常适合使用。

关于网络搜索伦理的结论

到目前为止,我们已经讨论过,只要牢记法律和道德方面的注意事项,就可以从互联网上提取数据。例如,你不应该从网上窃取数据。你不能共享你无权共享的数据。如果你的项目需要某个组织的数据,你可以礼貌地询问他们是否可以共享结构化格式的原始数据。或者,如果他们允许,你可以编写自己的网络搜刮程序,从网站上提取数据。此外,我们讨论过,你可以根据项目需要选择不同的代理。您可以使用数据中心住宅IP,因为它们被广泛用于网络搜刮。