Scrapoxy:无限制网络抓取的终极工具

扫描, 指南, 如何, Jun-15-20245 分钟阅读

对于希望从网站中提取有价值数据的开发人员、数据科学家和 IT 专业人员来说,网络搜刮已成为一种必不可少的工具。然而,如何避免禁令、管理请求率和保持匿名性是一项艰巨的挑战。进入 ProxyScrape Scrapoxy 这两款功能强大的工具,它们集成在一起后,能使网络搜索更高效、更有效。

在本篇文章中,我们将探讨如何将ProxyScrape 与 Scrapoxy 结合起来,为您的网络搜索需求提供无缝解决方案。让我们开始吧!

Fancy a video instead? - Watch this!

刮环氧树脂和ProxyScrape

什么是 Scrapoxy?

Scrapoxy是一款代理管理工具,可简化将代理集成到网络搜刮项目中的过程。它通过轮换代理和管理请求率,确保您的搜索活动不被发现。

ProxyScrape 是什么?

ProxyScrape 是一项强大的服务,提供广泛的代理解决方案,包括免费代理列表、高级代理、住宅代理和网络搜刮 API。ProxyScrape 具有地理定位、JavaScript 渲染和动作执行等功能,可以处理最复杂的搜索任务。

代理在网络搜索中的重要性

使用代理至关重要,原因有几个:

  • 数据收集:通过代理,您可以从网站上收集数据,而不会被屏蔽。
  • 匿名性:它们通过屏蔽你的 IP 地址来帮助你保持匿名性。
  • 绕过限制:代理可以绕过地理限制,访问不同地区的内容。

将ProxyScrape 与 Scrapoxy 集成

将ProxyScrape 与 Scrapoxy 集成是一个简单直接的过程,可以显著提高网络搜索效率。请按照以下步骤开始操作:

第 1 步:从以下网站获取代理服务器ProxyScrape

  • 注册ProxyScrape :访问ProxyScrape 网站并注册账户。
  • 选择代理计划:根据您的需要,选择免费代理列表或提供住宅代理或专用代理的高级计划。
  • 下载代理列表:访问仪表板并下载 .txt 格式的代理列表。

步骤 2:安装环氧树脂

要安装 Scrapoxy,首先必须了解它是以 Docker 容器的形式运行的。这样可以轻松部署和管理代理管理器。请按照以下步骤在本地计算机上运行 Scrapoxy:

  • 如果尚未安装,请先安装 Docker
  • 启动**终端**,执行以下命令:
dockerrun-d -p 8888:8888 -p 8890:8890 -v ./scrapoxy:/cfg -eAUTH_LOCAL_USERNAME=admin-eAUTH_LOCAL_PASSWORD=password-eBACKEND_JWT_SECRET=secret1-eFRONTEND_JWT_SECRET=secret2-eSTORAGE_FILE_FILENAME=/cfg/scrapoxy.jsonfabienvauchelles/scrapoxy
  • adminpasswordsecret1 secret2 替换为您自己的值。
  • 现在您可以通过http://localhost:8890 访问用户界面,用户名为 "admin",密码为 "password"。

步骤 3:设置新项目

在 Scrapoxy 中,项目指的是您为特定网络搜索任务管理的一组特定配置和代理服务器。每个项目都允许您定义要使用的代理服务器、设置凭证、配置请求率和轮换策略。这种模块化方法可以更轻松地处理不同网站的需求,并提高网络搜索活动的整体效率和成功率。

首先,让我们建立一个项目,以便进入下一个步骤:

  • 在主页上点击 "创建新项目 "按钮。
  • 在这里,您会看到一张表格,需要填写上述信息:
  • 名称:项目的唯一标识符;
  • 用户名:请求中用于代理验证的验证用户名 
  • 密码:请求中用于代理验证的验证密码 
  • 更新令牌:单击此按钮更新用户名和密码;
  • 最少代理:项目状态为 CALM 时在线代理的最少数量;
  • 自动旋转代理:如果启用,代理将在指定的延迟范围内以随机间隔自动旋转;
  • 自动升级:启用后,项目状态会在收到请求时切换为 HOT,并启动所有代理;
  • 自动缩减:启用后,如果在指定延迟后没有收到任何请求,项目状态将切换为 "平 静",并且所有代理都将停止;
  • 使用 MITM 拦截 HTTPS 请求:如果启用,Scrapoxy 会拦截并修改 HTTPS 请求和响应。
  • 证书:安装此 CA 证书可避免浏览器或 Scrapers 中的安全警告;
  • 通过 cookie 注入保持相同的代理: 如果启用,Scrapoxy 会注入 cookie,以便在浏览器会话中保持相同的代理(粘性 cookie);
  • 覆盖用户代理:如果启用,Scrapoxy 会用分配给代理实例的值覆盖 User-Agent 头信息。使用该实例发出的所有请求都将使用相同的 User-Agent 头信息;

在项目中,我们可以使用 Scrapoxy 中称为连接器的功能将代理连接起来。下一步,让我们来了解一下这其中的奥秘。

步骤 4:设置 ProxyList 连接器

顾名思义,连接器是代理提供商与 Scrapoxy 之间的桥梁。它允许您从代理提供商处获取代理并对其进行有效管理。由于 Scrapoxy 无法直接支持所有代理提供商,因此您可以输入任何提供商的代理列表,然后将它们集成到 Scrapoxy 中。在 Scrapoxy 中,这个连接器被称为代理列表。以下是如何将代理列表集成到 ProxyList 连接器的分步指南。

在创建连接器之前,我们需要建立一个新的凭证。顾名思义,凭据允许你通过连接器对代理进行身份验证。在本例中,我们使用的是代理列表连接器。由于我们已经有了代理列表,因此无需在 Scrapoxy 中对它们进行验证。不过,请记住,每次创建连接器时,我们都必须为其创建一个凭证实例。在 ProxyList 连接器中,凭证只是一个占位符。

在下面的章节中,我们将指导你首先设置凭证,然后配置 ProxyList 连接器

  • 打开 Scrapoxy 用户界面,进入所需项目并选择市场
  • 创建新凭证:
  • 选择 "代理列表"创建新凭证(必要时使用搜索)。
  • 填写表格,输入证书名称,然后点击 "创建"。
  • 在左侧面板上点击 "连接器",创建一个新的连接器,并选择代理列表作为提供者:
  • 填写表格并提供以下信息:
    • 证书: 之前的证书;
    • 名称:连接器的名称;
    • # 代理:要创建的实例数量。
    • 代理超时:将代理视为脱机前连接代理的最长时间;
    • 代理启动:如果启用,代理从池中移除前的最长离线时间;
    • 自由代理超时:与代理服务器超时相同,但针对自由代理服务器池;
    • 自由代理 Kick:与 "踢代理 "相同,但针对自由代理池。

添加代理源

  • 在连接器上,点击更新
  • 将ProxyScrape 代理列表粘贴到文本区域,然后单击加号图标。

Scrapoxy 支持以下格式:

  • ip:port
  • IP:port:username:password
  • http://ip:port
  • http://username:password@ip:port
  • https://ip:port
  • https://username:password@ip:port
  • socks://ip:port (shortcut for socks5://ip:port)
  • socks://username:password@ip:port (shortcut for socks5://username:password@ip:port)
  • socks4://ip:port
  • socks4://username:password@ip:port
  • socks5://ip:port
  • socks5://username:password@ip:port

 启动连接器

  • 启动项目;
  • 启动连接器。

第 5 步:将 Scrapoxy 整合到网络搜索流程中。

在本例中,我们将展示如何将 scrapoxy 与著名的 Python HTTP 库Requests 集成。

  • 安装图书馆
    • pip install requests
  • 读取 CA 证书和项目令牌
    • 打开 Scrapoxy 用户界面,进入项目设置
    • 单击下载 CA 证书并保存文件(请记住项目令牌(格式为USERNAME:PASSWORD));
  • 创建并运行脚本
    • 创建一个文件requests.py,内容如下:
import requests
ca = "/tmp/scrapoxy-ca.crt"
proxy = "http://USERNAME:PASSWORD@localhost:8888"
r = requests.get(
   "https://fingerprint.scrapoxy.io",
   proxies={"http": proxy, "https": proxy},
   verify=ca
)
print("proxy instance:", r.headers["x-scrapoxy-proxyname"])
print(r.json())

USERNAMEPASSWORD替换为您之前复制的凭据。

Scrapoxy 会在每个响应中包含一个x-scrapoxy-proxyname标头,显示为请求分配的代理实例名称。

如需了解更多 Scrapoxy 应用实例,请访问此链接

有效网络抓取的最佳实践

要充分利用ProxyScrape 和 Scrapoxy,请考虑以下最佳做法:

  • 轮换代理服务器:定期轮换代理,以避免被发现和禁用。
  • 管理请求率:保持合理的请求率,防止目标网站超负荷运行。
  • 不被发现:使用标题和 Cookie 来模仿人类行为,避免让人注意到你的刮擦活动。

实际应用案例 

比方说,您正在从一个电子商务网站上抓取产品数据。通过将ProxyScrape 与 Scrapoxy 集成,您可以

  • 获取产品 URL:使用ProxyScrape 的代理服务器收集产品 URL,而不会被阻止。
  • 提取产品详细信息:使用 Scrapoxy 旋转代理,以获取价格、可用性和评论等产品详细信息
  • 高效存储数据:将提取的数据保存到数据库中,以便分析。

结论

将ProxyScrape 与 Scrapoxy 集成,可为高效网络搜索提供无缝解决方案。通过使用代理来保持匿名性、绕过限制和管理请求率,您可以大大提高数据提取能力。

准备好让您的网络搜索更上一层楼了吗?立即注册ProxyScrape 并开始将其与 Scrapoxy 集成,以获得流畅、高效和强大的搜索体验。

我们很想听听您使用ProxyScrape 和 Scrapoxy 的经验!请在下面的评论中分享您的成功故事、挑战和技巧。别忘了在我们的博客上浏览更多有关网络搜索的内容。搜索愉快