学术研究的代用品

代理, Mar-06-20245 分钟阅读

学术研究涉及从各种来源收集大量数据,无论您的研究是定量还是定性的。由于这些在线数据的全面性,学术研究人员必须依靠技术来提取这些数据。本文将探讨的一种自动化技术就是网络搜刮。然而,网络

学术研究涉及从各种来源收集大量数据,无论您的研究是定量还是定性的。由于这些在线数据的全面性,学术研究人员必须依靠技术来提取这些数据。

本文将探讨的自动技术之一就是网络搜刮。然而,仅靠网络搜索并不能带来丰硕的成果。你还必须依赖代理,并考虑到道德因素。

但首先,我们要探讨一下这些数据的性质。 

学术研究在线数据的主要特点

对于学术研究而言,网络数据包括结构化、非结构化和半结构化的定量和定性数据。它们分散在博客、推特、电子邮件、数据库、网页、HTML 表格、照片、视频等网络中。

从网络中提取如此大量的数据时,通常需要解决几个技术难题。这些挑战来自数据的数量、种类、真实性和速度。让我们逐一了解这些变量:

数据量--就数据量而言,它们以 Zettabytes(数十亿千兆字节)为单位,因为它们是大量数据。

多样性--其次,存储这些数据的存储库或数据库有多种格式,并依赖于多种技术和监管标准。 

速度--第三,网络上的数据是动态的,因为它们的生成速度更快。

真实性--可用于研究的数据的最后一个特点是数据的真实性。由于数据在网络上的交互是匿名的,具有自由和开放的性质,因此没有研究人员能够确认所需的数据在网络上是否存在,这就足以肯定数据的质量。

基于上述变量,学术研究人员手动启动数据收集工作是不切实际的。因此,最新兴的研究数据收集方法就是网络抓取。我们将在下一节对此进行探讨。

网络搜索如何帮助您开展学术研究?

因此,网络搜刮就是从学术期刊、研究论坛、学术论文、数据库以及学术研究所需的其他来源中自动提取网络数据,以供进一步分析。

网络搜刮包括以下几个阶段:

网站分析

这是对存储数据的实体的底层结构进行调查的过程。该实体可以是网站或数据库等存储库。调查的目的是了解您需要的数据是如何存储的。这需要了解构成网络架构的构件:HTML、CSS、XML 等标记语言和 MySQL 等网络数据库。

网络抓取

网站抓取是使用 Python 等高级编程语言创建自动脚本,浏览网页以提取所需数据。您可以选择从头开始创建脚本,也可以购买已经开发好的脚本。

Python 包含Scrapy 和 Beautiful Soap Library 等库,用于自动抓取和解析数据。本文将介绍有关网络爬行和刮擦的更多信息。

数据组织

在抓取工具从网站或资源库中收集到所需数据后,您需要对其进行清理、预处理和整理,以便进一步分析。因此,有必要采用编程方法来节省时间。同样,Python 等编程语言包含的自然语言处理 (NLP) 库可以帮助您组织和清理数据。 

现在,你应该已经意识到,要实现整个刮擦过程的自动化是相当具有挑战性的。它需要一定程度的人工监控。 

现在,您已经对整个网络搜索过程有了大致的了解。现在是时候来了解一下网络搜刮的一些道德问题了,因为你需要知道在搜刮时什么能做,什么不能做。  

学术研究中网络搜索的伦理问题

有了自动抓取工具,就能随处抓取吗?包括登录页面或私人论坛背后的研究数据?

虽然法律中存在与网络搜刮相关的灰色地带,但你应该注意,搜刮普通用户不应该访问的数据是不道德的,这一点我们将在下文讨论。

毕竟,网络搜刮可能会对网站所有者造成意想不到的伤害。这些伤害和危险很难预测和界定。

以下是网络搜索可能造成的一些破坏性后果:

个人隐私

依赖于从网站收集数据的研究项目可能会意外危及参与网站活动的个人隐私。例如,通过将从网站收集的数据与其他在线和离线资源进行比较,研究人员会无意中暴露数据的创建者。

组织隐私和商业秘密

就像个人有隐私权一样,组织也有权对其业务的某些部分保密。 

另一方面,自动搜索很容易暴露网站所属组织的商业机密或保密信息。例如,通过统计招聘网站上的招聘广告,一个聪明的用户就能确定该公司的大约收入。这种情况会导致公司声誉受损,甚至可能造成经济损失。

组织价值下降

如果不访问网站的前端或界面,就不会接触到网站用来增加收入的营销活动。同样,网络搜刮项目可能会导致客户不太可能从实际产品所有者那里购买产品。这将再次导致组织因价值下降而蒙受经济损失。

为学术研究搜索社交媒体数据

社交媒体是提取各种研究数据的重要来源之一。这是因为从社会行为到政治新闻都有不同的信息。然而,从道德的角度来看,收集所有数据并不像听起来那么简单。

原因之一是社交媒体包含大量个人数据。各种法律法规也保护这些数据。此外,科学界的道德标准也要求您保护用户的隐私。这意味着,您必须不惜一切代价避免因与研究中提到的实际人物建立联系而造成任何伤害。

事实上,您不能在私人环境中看到任何与您的研究相关的研究对象。这当然也适用于访问他们的 Facebook 个人档案、个人主页或您无法访问的私人信息。 

显然,在进行定量研究时,你不会因为数据泄露而伤害到个人。因此,在进行定性研究时,要注意引用用户帖子作为证据,以免泄露个人信息。

最终的解决方案是使用 "化名"技术,这样就可以在不损害受试者隐私的情况下研究数据并跟踪其活动。

代理如何帮助学术研究中的伦理搜索

在为学术研究搜索数据时,代理可以发挥巨大作用。有大量来自不同来源的数据可供选择,各种限制会使研究变得更加复杂。代理可以帮助您克服这些障碍。让我们一起来了解一下。

绕过地理位置限制-- 有些期刊和学术论文限制某些国家的用户访问。通过使用代理,您可以绕过这一限制,因为它可以掩盖您的 IP 地址。此外,您还可以选择全球各地的住宅代理,这样代理就不会暴露您的位置。

将数据收集过程自动化-- 正如你在上一节中发现的,网络刮擦工具可以刮擦大量数据。但是,它们无法绕过网站施加的限制,例如验证码。代理可以帮助你克服这些限制,并帮助刮擦工具刮擦大部分数据。

帮助您安全匿名-- 当您为机构开展研究项目时,您可能会成为黑客的受害者。这是因为黑客可能会拦截你的连接并窃取机密数据。 但是,当你在代理服务器后面时,你将是匿名的,因为你的 IP 地址被隐藏了。因此,它可以防止黑客窃取您的数据。

哪种代理最合适?

您可以使用数据中心代理和住宅代理,将您的 IP 地址屏蔽在可用代理之外。 

通过住宅代理,您可以使用来自多个国家的 IP 地址池,这一点我们在上文已经讨论过。

此外,当你使用代理池时,你可以轮流使用它们,让目标网站看起来是不同的来源在访问它。因此,你最不可能被屏蔽 IP。

此外,某些研究网站会向不同国家的用户显示不同的信息。因此,轮换代理的另一个好处是,您可以改变您的位置,并验证数据是否也随着这些不同的代理而改变。这样做可以确保您的研究从不同国家的多个来源全面有效地进行。 

数据新闻中的代理人

数据记者在抓取期刊数据时,大多数记者都会担心自己的身份。有些记者认为,从特定网站采集数据时,必须表明自己的身份。这就好比在采访前向别人介绍自己。

因此,如果您是一名记者,并希望表明自己的身份,您必须在 HTTP 标头中写明您的姓名以及您是一名记者。如果网站管理员希望与您联系,您还可以留下电话号码。

相反,如果你是一名记者,在为报道收集数据时不想暴露自己,那么你可以在代理的协助下匿名搜索数据。不过,如上所述,您必须坚持最佳道德实践,遵守网站规则。这种情况类似于在被采访对象不知道你在采访他们的情况下进行卧底采访。 

结论

我们希望您了解学术研究的数据采集过程。在进行数据搜刮时,您必须遵守一些道德准则,以免对网站所有者造成任何无意的损害。

在这种情况下,代理可以成为你的救星,还可以克服本文中提到的限制。

我们希望您喜欢阅读这篇文章,并将采用本文中提到的方法为您的研究工作搜刮研究数据。