通过网络抓取获取潜在客户：成千上万的潜在客户尽在指尖

扫描, 2021 年 3 月 26 日5 分钟阅读

销售线索生成为何重要销售线索生成是业务增长的重要组成部分。如果你的销售团队没有潜在客户，他们就无法开展工作。给潜在客户打冷电话很少有效，尤其是销售高价值产品的品牌，因为这些产品在购买时会产生一些摩擦。每次销售都始于

为什么 "潜在客户生成 "很重要
每一笔销售都始于潜在客户
指尖上的网络力量
什么是网络抓取？
网络抓取器如何工作？
使用刮板的挑战
为高质量线索选择数据源
谨慎选择数据源
考虑需要登录的网站
正确构建查询
Scraper 软件选项：热门工具
编码自己的刮板
为自己的扫瞄器编码的利与弊
网络抓取的黄金法则
排除刮板问题
刮板采集不到任何数据
刮板工作了一会儿，然后就停止了
刮板陷入混乱，无休止地循环浏览页面
道德营销：明智使用 "废料 "信息
清理和维护您的数据库

为什么 "潜在客户生成 "很重要

创造销售线索是业务增长的重要组成部分。如果你的销售团队没有潜在客户，他们就无法开展工作。给潜在客户打冷电话很少有效，尤其是对于销售高价值产品的品牌来说，因为这些产品在购买时会产生一些摩擦。

每一笔销售都始于潜在客户

销售来自线索。技术内容营销：内容营销协会（ContentMarketing Institute）和 MarketingProfs 编制的《基准、预算和趋势》报告强调，77% 的技术营销人员使用营销合格的线索来推动销售（2019 年为 64%）。

合格的潜在客户更容易转化，因为他们是已经对您的产品或服务表示出兴趣的人（或企业）。通过确定目标受众并将营销工作重点放在这些人身上，您可以节省销售团队的时间和精力，让他们专注于最高质量的潜在客户。

指尖上的网络力量

如今，潜在客户的挖掘比以往任何时候都要容易。即时通信、高度针对性的社交媒体营销选择以及对包含几乎任何可以想象到的信息的数据库的访问，意味着小企业主有能力实现他们想做的任何事情。

过去，如果你想接触到特定的目标受众，就必须向营销公司支付巨额费用，才能向他们数据库中的公司邮寄传单。

如今，这已经没有必要了。如果你想查找东海岸的墨西哥餐馆或所在州的 K-12 学校名单，你可以在网上找到。在 B2B 领域开展业务的公司可以方便快捷地建立潜在客户数据库，然后对名单进行筛选，发送定制的营销信息。

对于以相对较小的地理区域为目标的 B2B 实体来说，简单的网络搜索就足以找到潜在客户名单。但是，如果您希望接触到全州甚至全国范围内的企业，手动收集所有数据将非常耗时。

网络搜索可以为您和您的营销团队节省大量的时间和金钱，自动收集您所需的数据。

什么是网络抓取？

网络抓取是一种自动技术，用于从一个或多个网站中提取数据，以便在其他应用程序中使用这些数据。例如，假设您想建立一个您所在地区餐馆名称和地址的列表，而不是手动访问 Yelp 或 Tripadvisor 上列出的每一家本地餐馆。在这种情况下，您可以使用网络搜刮工具浏览这些页面并提取这些详细信息，从而创建一个可用于邮件发送的列表。

在建立营销列表时，网络搜索可以为企业节省大量的时间和精力。如果你有合适的工具或编程诀窍，做起来也非常容易。

网络抓取器如何工作？

网络刮擦工具的工作原理是加载您想要提取数据的网页，然后读取网页，查找您想要查找的信息类型。这些信息可能是

公司名称
电话号码
电子邮件地址
邮政地址
网站地址

网络搜刮程序下载网页时，会读取源代码以寻找模式。根据所下载数据的网站不同，它可以简单地查找与电话号码的 123-456-78901 模式或电子邮件地址的[email protected]格式相匹配的内容。

另外，刮擦工具的开发者可能知道，在某个目录网站上，联系方式是由 HTML 中的一组特定标记包围的，因此刮擦工具可以从这些标记之间提取信息。

有些刮板软件可以由最终用户进行配置，因此可以教它了解几乎任何网站。

使用刮板的挑战

使用搜刮软件的一个问题是，欧盟的GDPR等法规意味着用户必须非常小心地处理他们收集的数据以及如何使用这些数据。根据 GDPR，组织必须获得个人许可才能持有或处理有关个人的数据。

有些网站为了保护用户隐私和自己的服务器资源，会尝试阻止网络搜刮程序。有几种方法可以做到这一点，包括检查客户端软件返回的 "用户代理"，以及限制来自特定 IP 地址的网页请求数量。

如果你想有效地使用刮擦工具，你需要确保你了解你所在国家的营销规则，负责任地处理你收集到的任何数据，并知道如何以高效、非破坏性的方式从你选择的来源收集数据，而不会导致你被该网站禁止。

例如，在ProxyScrape ，我们提供可用于数据收集目的的住宅代理。我们建议，如果您考虑使用这些代理，请确保您的搜索器不会在短时间内向目标网站发出过多请求。以负责任的方式进行抓取，以免对合作网站造成危害。

为高质量线索选择数据源

通过内容搜索，企业主可以获得原本难以收集的大量信息，但这些信息的有用性取决于其来源。

从搜刮中收集数据的挑战之一是确保信息是最新的。网络上有成千上万的目录，其中许多都是未经精心整理的过时目录。

如果你从过时的、低质量的来源收集数据，最好的情况是，你把时间浪费在不会被阅读的电子邮件上。最糟糕的情况是，你可能会发现自己因为反复拨打一个未经请求的电话而遭到投诉，而这个号码已经不属于你以为的企业了。

那么，如何提高所收集数据的有用性呢？

谨慎选择数据源

在开始使用刮擦工具收集数据之前，请对您考虑使用的网站进行人工审核。手工收集一些线索并进行调查。

企业是否仍在运营？联系方式是否仍然正确？目录所有者在添加信息之前是否对信息进行了审核？

假设您手动收集的线索中有一半是死的、过时的或可能是假的。在这种情况下，你通过搜索该网站建立的数据库很有可能是低质量的。

Tripadvisor、Yelp 或 FourSquare 等大型目录网站比规模较小、知名度较低的目录网站更有可能获得高质量的数据，因为这些平台有更多的用户在更新数据。

如果你想向一个不知名的兴趣小组或高度专业化的公司进行营销，利基目录可能会有价值，但在将收集到的信息用于营销目的之前，你应该预计要做大量的数据清理工作。

考虑需要登录的网站

在很多情况下，从需要登录的网站收集数据会更有价值。例如 LinkedIn 和 Twitter，如果使用速率限制器将机器人发送的请求数量控制在合理范围内，并且在请求时登录了网站，就可以进行数据采集。

另一种方法是使用 API 而不是简单的 HTTP 搜刮器，从流行的地图服务中收集详细信息。例如，谷歌提供了一个企业搜索 API，可用于收集谷歌地图中包含的组织信息，但在访问 API 之前，您必须同意遵守谷歌的条款和条件。

一般来说，如果有应用程序接口（API），最好使用该应用程序接口收集数据，而不是使用网络搜刮。与网站所有者发生问题的可能性要小得多，而且通过 API 提供的数据也更容易清理。

正确构建查询

计算机编程中有一句话叫 "垃圾进，垃圾出"，这句话当然也适用于数据收集。请务必仔细构建您执行的任何搜索。

例如，如果您想向纽卡斯尔的建筑商推销产品，不要忘记英格兰有不止一个纽卡斯尔，澳大利亚也有一个纽卡斯尔。如果您通过代理搜索 "纽卡斯尔"，大多数网站都会通过查看与代理地理位置最接近的纽卡斯尔来猜测您指的是哪个纽卡斯尔。

尽量缩小搜索范围，在目标网站允许的情况下，提供城市、州甚至国家的信息。这将帮助您避免在数据库中搜索到距离您所需地区数百英里之外的组织的详细联系信息。

Scraper 软件选项：热门工具

网络搜索既可以很简单，也可以很复杂。如果你只是第一次尝试网络搜索，就没有必要花大价钱购买复杂的软件。

一些不错的选择包括

刮刀
ProWebScraper
废料

Scraper是一款网络浏览器扩展工具，可让用户快速、轻松地从网页中提取数据。如果你想从单个结果页面或少量页面中提取信息，Scraper 是一种简单有效的方法，而且你可能会发现它比更复杂的网络爬虫更容易使用。

ProWebScraper是一款更高级的工具，有免费和高级两个版本。免费版工具最多可用于搜索 100 个网页，这意味着对于规模较小的利基企业来说足够了。ProWebScraper 是一款比较容易使用的搜刮软件，具有点击式界面和预先设计的规则，即使你对技术方面没有信心，也可以使用它来设置搜刮。

ProWebScraper 可以下载图片并生成 JSON、CSV 或 XML 转储。它甚至可以设置为按计划搜索网站，以便您收集数据并更新营销记录。

Scrapy是一个免费开源的网络搜刮框架。该工具需要技术知识，但它快速、灵活，可用于搜索大量数据。Scrapy 可在自己的 Linux、OS X、Windows 或 BSD 计算机上或网络服务器上运行。

Scrapy 社区非常活跃，包括 IRC 聊天、Reddit 和 StackOverflow。你可以向社区寻求建议，还可以利用社区创建的扩展或模块，即使你自己不是一个自信的开发者，也能释放 Scrapy 的力量。

编码自己的刮板

如果您需要收集大量数据或计划定期刮擦，免费工具和基于图形用户界面的工具可能不够强大，无法满足您的使用需求。编写自己的搜索工具代码，或聘请开发人员代劳，都是不错的选择。

有几种免费的开源框架可用于用 Python、Perl、Java、R 或 PHP 等流行语言编写刮板程序。

BeautifulSoup 是最流行的网络搜刮库之一。这是一个 Python 搜刮工具，能快速、轻松地从 HTML 或 XML 文件中提取数据。你需要具备一定的编程知识才能使用它，但它能为你完成大量细致的搜刮工作，让你无需重新发明轮子。

提取数据后，您可以将其导出为 CSV 文件，或使用Pandas 等数据处理库以各种格式显示。

为自己的扫瞄器编码的利与弊

如果你有一定的编程知识，编写自己的搜刮工具是个好主意。如果你需要从一个不寻常的网页中提取大量数据，而免费的搜索工具又无法处理这些数据，那么编写自己的搜索器可能也很有用。

如果你有特殊、复杂的需求，那么自己编码或花钱请人代劳可能是个好主意。与一般工具相比，定制编码的搜索器可以更有效地围绕目标页面进行设计，因此遇到错误或数据处理问题的可能性较小。

反之，自定义编码的刮擦程序对于小型、简单的工作也很有用。一旦你编写了一个刮擦程序，你就可以调整解析程序，并使用相同的脚本从其他页面提取数据。

使用自定义编码的刮板的缺点是，第一次编写刮板需要时间，如果你不是一个经验丰富的开发人员，你可能要花费更多的时间来处理 JSON 格式或尝试学习一个新的库，而不是仅仅阅读 ProWebScraper 的手册并配置它。

根据任务的不同，付费购买工具可能比定制工具更划算。

此外，如果您打算编写自己的刮擦程序，您需要了解刮擦最佳实践和编码问题，例如：

使用用户代理识别机器人
如何处理需要登录的网站的身份验证
遵守网站的任何条款和条件
限制请求的速率，避免给网站带来过重的负担
发送格式正确的请求
使用（并定期轮换）代理人
对服务器返回的任何信息进行消毒处理
关于如何以及在何处存储返回信息的数据保护规则
解决验证码问题

编写一个小型搜索器来获取几百家或几千家公司的信息是非常有意义的。如果您要获取更大量的数据，您可能需要寻求建议或与专家合作，以确保您完全符合当地的隐私法规。

网络抓取的黄金法则

如果您决定编写自己的搜刮程序，请记住要 "友好"。尽量以体贴的方式进行搜刮，发送格式正确的请求，慢慢搜刮，并在搜刮时使用一定范围的 IP 地址。

尽量让你的搜索器看起来像人一样。这意味着请求页面的速度要慢，在浏览页面时尽量不要遵循固定的模式。例如，考虑拉出搜索结果列表，列出结果页面上的链接列表，然后以随机顺序访问这些链接，这样就不会让人看出你是一个机器人。

不要同时从同一 IP 发送多个请求。反抓取工具会检测到您对服务器造成了异常负载。

尊重网站 Robots.txt 文件中的信息。如果有些网页，网站管理员不希望被收录。忽视这一点是不道德的。

考虑使用Selenium等库，通过向页面发送点击或以其他方式与之互动，让你的机器人看起来更像人。一些更复杂的蚂蚁爬虫工具会寻找 "类似于机器人的交互模式"，如果发现缺少滚动、点击和其他交互，就会阻止一个 IP 地址。

刮擦工具开发者和试图阻止网站使用刮擦工具的人之间正在进行一场技术军备竞赛。要制作一个能在不被发现的情况下收集大量数据的刮擦工具非常困难。不过，对于小型或中型项目，如果你遵守 "不贪婪、不吝啬 "的原则，你应该可以通过缓慢、稳定的刮擦工具和一些代理服务器获得所需的数据。

请记住，您的机器人可以每天 24 小时工作，在后台收集数据，因此无需一次性下载 Yelp 上的所有小企业列表。

排除刮板问题

在运行铲运机时，您可能会遇到一些潜在问题。这些问题包括

您的 IP 被网站管理员屏蔽
网站管理员阻止您的搜索客户端
您的刮擦程序在尝试浏览网站时出现混乱
通过隐藏在网站上的 "蜜罐 "收集垃圾数据
费率限制使刮板无法快速工作
对网站设计的修改破坏了曾经有效的搜索器

好消息是，如果您了解刮板的工作原理，这些问题都是可以解决的。

简单的网络刮擦器会遵循一种模式：

刮板向网站发送 HTTP 请求
网站发送响应，就像向普通网络浏览器发送响应一样
刮擦器会读取响应，在 HTML 中寻找模式
提取模式并将其存储在 JSON 文件中，以便日后处理
然后，刮擦器会继续读取响应，寻找更多模式，或者发送下一个请求

有几个方面可能会出错。

刮板采集不到任何数据

如果搜刮器根本没有采集到任何数据，这可能是因为你设置解析器的方式有问题，也可能是搜刮器看到的网站与你使用网络浏览器时看到的网站不一样。

要找出问题所在，可将刮擦器设置为输出页面的 HTML，然后将其与正常的浏览器输出进行比较。

如果您看到错误或不同的页面，可能是您的搜刮客户端被禁用了。网站可能禁止了你的 IP 地址或搜刮客户端软件。

尝试将刮擦器识别的User-Agent更改为现代网络浏览器（如 Firefox 或 Chrome）。这可以帮助你绕过某些网站的简单限制。

如果还不行，可以考虑将你的搜刮器设置为使用代理连接到相关网站。代理是一种代表你发送网络请求的服务器，因此网站无法辨别这些请求来自你的互联网连接。

如果你看到的是一个 "正常 "页面，那么问题很可能出在你设置的搜刮程序提取数据的方式上。每个搜索程序都有自己的模式匹配方式，不过大多数程序都使用正则表达式。确保模式匹配中没有印刷错误。请记住，程序完全按照你的要求来做，因此即使是一个小错误也会完全破坏匹配规则！

刮板工作了一会儿，然后就停止了

另一个常见问题是，刮擦器会在短时间内工作，然后停止工作。这通常意味着网站暂时或永久封禁了你的 IP 地址，因为你在短时间内发送了太多请求。

如果出现这种情况，您可以使用代理服务器绕过禁令。Proxyscrape 提供高级代理服务器和住宅代理服务器，供人们用于数据搜刮。高级数据中心代理速度快，提供无限带宽，但其 IP 地址可能会被网站管理员识别为来自数据中心。住宅代理看起来像是 "家庭用户"，但吞吐量可能较低。

考虑在几次请求后更换使用的代理，以降低代理的 IP 地址被封禁的风险。您还可以通过降低刮擦程序发送请求的速度来降低 IP 禁用的风险。

请记住，刮板可以全天 24 小时不间断地在后台工作。即使你将搜索器的速度限制在每 15-30 秒解析一个页面，它的工作速度也会比人类更快。

请记住，许多网站（尤其是小型网站）的服务器对速度和每月可传输的数据量都有限制。你可能会觉得你的机器人刮取一些数据并不合理，但如果许多其他用户也在做同样的事情，或者你的机器人 "迷失 "了方向，试图无休止地重复下载相同的页面，那么你可能会损害人类用户的网站性能，或因消耗过多资源而使网站管理员损失金钱。

刮板陷入混乱，无休止地循环浏览页面

营销人员在尝试使用网络搜刮工具时遇到的另一个常见问题是，搜刮工具会混淆并下载不该下载的网页。

假设您的搜索器计划查找您所在城市的砌砖工名单，您可以将它发送到一个目录中进行搜索。搜索器应该

提交包含所需搜索字符串的 HTTP 请求
下载结果页面
解析结果页面，找到第一个结果的链接
打开该链接
从新页面中提取联系信息
继续解析结果页面，找到第二个结果
打开该链接
等等......

有些网站会设置 "蜜罐"，以诱捕和迷惑机器人。这些 "蜜罐 "是一些 HTML 片段，它们被设置为 "display:none "显示标签，因此不会在普通浏览器中显示。不过，机器人可以看到它们，如果它们没有被配置为忽略它们，就会像处理普通 HTML 一样处理它们。

要对机器人进行编程，使其完全忽略所有机器人陷阱 HTML 是非常困难的，因为其中有些陷阱非常复杂。不过，您可以做的是对机器人跟踪的链接数量设置限制。您还可以自己查看页面源代码，查找任何明显的陷阱，这样就可以设置机器人忽略它们。

道德营销：明智使用 "废料 "信息

许多网站都不赞成网络搜刮，企业主在进行网络搜刮时也应慎之又慎。例如，根据 GDPR 规定，未经欧盟居民同意而对其信息进行搜刮是违法行为。

此外，许多将数据隐藏在登录屏幕后的网站在其条款和条件中明确禁止网络搜刮。这就意味着，如果你被发现使用了搜刮工具，就有可能被该网站禁止访问。

如果您决定使用 "搜刮 "来收集潜在客户，请尽量合理使用。将 "搜索 "视为一种节省时间的方法，可以收集到你无论如何都会收集到的线索，而不是发起大规模营销活动的方法。

避免搜索范围过大。收集您所在地区及周边地区所有企业或个人的联系方式，希望将其中一家企业转化为客户，这种做法很有诱惑力，但这种广泛而缺乏针对性的活动很可能会适得其反。

清理和维护您的数据库

在开始营销活动之前，对收集到的数据进行一些检查。清理数据库，删除任何明显不正确的数据，如已倒闭的企业、重复记录或不在目标地区的人的记录。

启动营销活动后，请及时更新数据库。如果潜在客户要求从数据库中删除，请将其删除。如果您所在的司法管辖区允许您这样做，请保留足够的相关数据，将他们的电子邮件或电话号码添加到 "请勿联系 "列表中，这样他们就不会在您下一次搜索时被重新添加到您的营销数据库中。

在管理营销活动时，还需要记住以下一些事项：

限制向冷门客户发送电子邮件或拨打电话的次数
在您发送的任何联系信息中提供退出信息
尊重退出请求并及时执行
如果有人回复了您的营销活动，请更新他们的详细信息

积极主动的营销与咄咄逼人的垃圾邮件之间有一条微妙的界线。营销人员的重复联系是客户旅程的一部分，与潜在客户保持联系非常重要，但过于激进的营销可能会疏远潜在客户，并给您的品牌带来坏名声。

考虑将刮擦得到的数据导入 CRM 系统，这样你就可以跟踪每个客户，了解他们在转化过程中处于哪个阶段，以及他们对营销信息的回应情况。

这样做不仅能帮助您随时了解单个客户的情况，还能让您更轻松地了解营销活动的整体表现，从而改进您的信息。

跟踪线索来源也很有帮助，因为它能让你了解哪些数据源包含最高质量的信息。

由ProxyScrape