深色proxyscrape 徽标

如何抓取 Google 搜索结果页面 (SERP)

方法, 刮削, 2021 年 8 月 1 日5 分钟阅读

It needs no introduction that Google is the widely used platform for search-related queries of people across the globe. According to the Statista website, Google’s share of the global search market is 87.35%. Further, the stats have shown that Google exceeds 2 trillion users annually, indexing over 130 trillion pages.  These statistics prove that Google

毋庸赘言,谷歌是全球人们广泛使用的搜索相关查询平台。根据 Statista 网站的数据,谷歌在全球搜索市场的份额为87.35%。此外,统计数据还显示,谷歌每年的用户数量超过 2 万亿,索引的网页数量超过 130 万亿。 

这些统计数据证明,谷歌在其 SERP 上拥有全面的公开数据,对网络营销人员和其他人都很有价值。因此,搜索 SERP 已成为网络营销人员的首要任务。不过,当你的请求超过一定数量时,谷歌就会屏蔽你的 IP 地址。

因此,本文将深入探讨如何在不被屏蔽的情况下搜刮 SERP。在此之前,我们将介绍网络搜索的基础知识。

什么是网络搜索?

假设您需要从多个网页中复制大量数据。一开始,你可能会想把这些内容复制并粘贴到电子表格中。但是,由于这是一个大型网页文档,手动提取数据将非常耗时。因此,您需要自动执行刮擦过程,这将为您节省大量时间。

这种自动化的数据搜刮过程被称为网络搜刮。使用这种方法,无需在浏览器中输入网站 URL,即可下载 HTML 源代码。

您可以在此阅读有关网络搜索的更多信息。 

什么是搜索引擎结果页面(SERP)搜索?

与网络搜索一样,搜索 SERP 也是从谷歌搜索中提取一系列关键字的前 10 条或更多结果的过程。大多数搜索引擎优化(SEO)公司都采用这种技术来跟踪客户网站在目标关键词上的排名。 

为 SERPS 进行刮削还有其他原因,如广告验证线索生成内容聚合

通常,有一些自动化工具可以对 SERP 进行搜索,您将在本文接下来的章节中了解到这些工具。另外,您也可以使用 Python 等编程语言创建自己的脚本。不过,如果您只对编码有信心,并具备较高的专业技术知识,也可以这样做。此外,您还可以使用cURL搜索 Google SERP。

一旦这些工具从相关网页中抓取了数据,它们就会将这些数据保存为数据库、CSV 文件、XML 或 JSON 文件。然后,这些数据就会以结构化的格式出现,您就能确定自己的搜索引擎优化工作是否正确。这是因为您可以看到网页在一段时间内的排名情况。

此外,SERP 不仅包括文字内容,还包括图片、视频、特色片段、本地搜索地图等。

在下一节中,您将发现从 SERP 搜刮的一个重要好处。

搜索 SERP 如何帮助您挽回黑客造成的损失?

被黑客攻击总是会给你带来负面影响。您被黑客攻击的网站及其登录凭据可能会被放到黑网上。黑客甚至可能出售反向链接或在你的网站上运行黑网恶意软件。同样,黑客也会对搜索引擎优化产生负面影响。

在谷歌搜索 SERPs 的一个重要好处是,它能够识别黑客可能造成的损害。当你辛辛苦苦地在 SERPs 上实现搜索引擎优化排名时,黑客很容易渗透到你的安全设置中,并破坏你所有的搜索引擎优化努力。 

您可以在这里找到有关黑客如何劫持您的搜索引擎优化工作的全面详情。

一项调查显示,48% 的搜索引擎优化专业人员表示,谷歌需要花费数月时间才能恢复其 SERFs 结果的原始状态。 

跟踪网站的 SERP 可以帮助您了解排名的变化情况。它们还可以帮助您确定在黑客攻击期间排名的潜在结果。因此,您可以迅速请求 Google 恢复以前的排名。这样,您的网站宕机和搜索引擎排名下降的情况就会大大减少。

另一方面,如果您的网站感染了恶意软件,就会影响您的搜索引擎排名。您的网站被列入黑名单的可能性也更大。据 Godaddy 称,小型企业网站的情况更为严重。90% 的 Godaddy 网站不知道它们已经感染了恶意软件。

因此,持续搜索您的所有 SERP 可以让您提前发现潜在的黑客企图,当然也有助于 Google 恢复您的搜索结果。

如何抓取 Google 搜索结果?

正如我之前提到的,有几种方法可以搜索 Google SERP。在本节中,你将发现几种可以做到这一点的方法。

可视化网络抓取器

Octoparse

这是一款通用的网络搜刮工具,可用于搜刮 Google SERP。它不仅能抓取 SERP,还能从 Google 地图中抓取数据。

Octoparse 的一个重要特点是,它能巧妙地避开目标网站提出的反搜索措施。此外,使用它的可视化搜索工具并不需要你是一名程序员。它使用起来相当方便,既可以作为基于云的解决方案,也可以作为可安装软件。

有关 Octoparse 的更多信息,请点击此处

浏览器扩展

Webscraper.io 

Webscraper.io 是谷歌 Chrome 浏览器的一个免费扩展。它可以从谷歌网页中提取 HTML 和 CSS 形式的数据。然后,它可以 CSV 格式导出数据。浏览器扩展版本完全免费,足以管理你的搜刮活动。如果您选择基于云的选项,则需要付费。

你还可以用它提取谷歌地图,并将其转换为数据库。有关该扩展的更多信息,请点击此处

谷歌搜索 API

你知道谷歌提供了一种从其搜索引擎中提取数据的官方方法吗?虽然它有其局限性,但如下所述,目前任何需要 SERP 数据的人都可以使用它。以下是其局限性:

  • 与可视化网络搜刮工具、浏览器扩展或其他网络搜刮工具相比,它提供的信息有限。
  • 谷歌开发它的初衷是搜索一个或几个网站。不过,您也可以将其配置为搜索整个万维网(WWW),这需要大量的专业技术知识。
  • 发送大量请求将花费巨额资金,因此费用高得惊人。

因此,考虑到其局限性和成本,谷歌搜索 API 并不是搜索 SERPs 结果的理想平台。最好还是采用本文中提到的其他方法。

使用 Python、请求和 BeautifulSoup

对于那些精通 Python 编程的人来说,这种方法会很方便。毫无疑问,它首先会降低成本,而且你还能有更多的控制权。

在本程序中,我们将提取搜索查询 "如何学习 Python "的 SERP。为了简化操作,我们将对搜索查询进行硬编码。提取结果集后,我们将打印结果的标题。让我们开始吧。

import requests
from bs4 import BeautifulSoup
import random
 
text = 'How to learn Python programming'
url = 'https://google.com/search?q=' + text
useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36"
       )
 
Agent = useragent[random.randrange(len(useragent))]
 
headers = {'user-agent': Agent}
req = requests.get(url, headers=headers)
 
soup = BeautifulSoup(req.text, 'lxml')
for info in soup.find_all('h3'):
    print(info.text)
    print('__________')
 

在此,我将对每一行代码进行清晰的解释:

进口请求

我们使用 Python 的请求库下载 SERP。然后,请求模块向 Google 服务器发送获取请求。这样,程序就能下载 SERP 的 HTML 内容。

从 bs4 导入 BeautifulSoup

接下来的一行不言自明,它将加载 BeautifulSoup 库。该库可以解析 HTML 和 XML 文档。

文本 = '如何学习 Python 编程
url = 'https://google.com/search?q=' + text

这段代码设置了搜索引擎的 URL,以便从中抓取数据。因此,我将 URL 设置为 google.com,并将文本变量中的文本 "如何学习 Python 编程 "作为搜索查询。

useragent = ("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36" )

      

然后,上述代码会设置用户代理字符串

req = requests.get(url, headers=headers)

上述代码向网络服务器发送请求,下载搜索结果中要求的 HTML 内容。

soup = BeautifulSoup(req.text, 'lxml')

创建 BeautifulSoup 实例,其中包含上述代码从 "lxml "解析头请求的数据。您必须先安装 "lxml "软件包,上述代码才能运行。

for info in soup.find_all('h3'):
    print(info.text)
    print('__________')

然后使用 for 循环提取所有 h3 标记,以显示标题。

使用住宅代理服务器搜索 Google SERP

如前所述,谷歌等搜索引擎会施加限制,包括在您超过搜索限制时禁止您的 IP 地址。这就是代理在掩盖 IP 地址方面发挥关键作用的地方。在所有的代理服务器中,住宅代理服务器是最理想的选择。这是因为它们的 IP 源自真正的住宅业主。

但是,当您在搜索结果的前几位搜索结果时,谷歌就会发现您的行为是不人道的。然后,它就会屏蔽你的代理 IP 地址,你就不得不面对验证码了。

这时,住宅代理服务器网络就成了你的救星。使用住宅代理服务器网络时,每个代理服务器都有一个唯一的 IP 地址。这样,您就可以通过旋转 IP 地址从 SERP 中进行搜索。这样,您的行为在搜索引擎看来就像人类一样。

有关住宅代理的详细解释,请参阅本文

使用住宅代理服务器搜索 Google SERP 时的法律问题

现在,您应该清楚地了解了什么是住宅代理,以及它们如何帮助您克服 IP 禁止。现在,我们将探讨一个关键因素,许多用户在从谷歌 SERPs 搜索时都会忽略这个因素。这就是使用住宅代理所涉及的法律问题。

首先,使用住宅代理搜索 Google SERP 是合法的。因此,考虑到这一点,你可能会向谷歌等搜索引擎发送无限制的请求。这样,大量的请求将使谷歌服务器超负荷运转。即使根据谷歌 SERPs 算法,这样做也是不对的。

因此,您需要确保您始终尊重您要搜刮数据的目标网站或搜索引擎。你还必须尽可能采用最好的搜刮方法,包括你的搜刮器要尊重目标搜索引擎。

如果您或您的代理提供商收到来自目标网络服务器的投诉,您必须立即限制请求或停止刮擦过程。投诉的原因可能是目标网站服务器由于你的无限制请求而工作负荷过高。因此,您需要谨慎对待此类情况。

常见问题

从 Google 搜索是否违法?

通常情况下,谷歌不喜欢搜刮者从它那里搜刮数据。正如我在本文中多次提到的,它可以封禁你的 IP 地址。而且,到目前为止,谷歌还没有对过度搜刮数据采取任何行动。显然,如果谷歌采取此类行动,搜索引擎优化公司将无路可走。

结论

现在,我们希望您已经全面了解了网络清除者从 SERP 中清除数据的不同方法。最后,您还了解了如何使用住宅代理服务器来搜索 SERP 及其法律影响。

希望这篇文章对您有所帮助,请继续关注我们的更多文章。