深色proxyscrape 徽标

How To Scrape Twitter Using Python- The Easy Approach in 2024

方法, 蟒蛇, Dec-03-20225 分钟阅读

提到 "大数据 "这个词,并不是很多网站都能联系起来。但 Twitter 却可以,因为每天在其平台上交换的推文超过 5 亿条,其中包括大量图片、文本和视频。一条推文可以为您提供以下信息

  • 看到推文的人数
  • 点赞或转发推文的人群特征
  • 您个人资料的总点击次数

与许多其他社交媒体平台不同,Twitter 有一个非常友好、昂贵且免费的公共 API,可用于访问其平台上的数据。它还提供了一个流 API,用于访问 Twitter 的实时数据。不过,API 对在窗口期内发送请求的数量有一定限制。如果无法通过 API 访问所需的数据,就需要使用 Twitter Scraping。Scraping 将从 Twitter 收集数据的过程自动化,以便在电子表格、报告、应用程序和数据库中使用。 

在深入学习刮取 Twitter 数据的 python 代码之前,我们先来看看为什么要刮取 Twitter 数据。

欢迎跳转到任何章节,学习如何使用 python 搜刮 Twitter!

目录

为什么需要搜索 Twitter?

你知道 Twitter 是一个微型博客网站,也是一个可以搜刮丰富信息的理想空间。但你知道为什么需要搜索这些信息吗?

以下是一些有助于研究人员的 Twitter 数据搜索原因:

  • 了解你的推特网络和你的推文的影响力
  • 通过@ 用户名了解被提及的人
  • 研究信息是如何传播的
  • 探索趋势如何随着时间的推移而发展变化
  • 研究网络和社区
  • 了解推文和人物的受欢迎程度/影响力
  • 收集高音喇叭用户的数据,其中可能包括
    • 朋友
    • 追随者
    • 收藏夹
    • 简介图片
    • 报名日期等。

同样,Twitter 搜索也可以帮助营销人员:

  • 有效监控竞争对手
  • 通过相关推文锁定营销受众
  • 进行情感分析
  • 监测市场品牌
  • 联系有影响力的市场人士
  • 研究客户行为

如何使用 Python 抓取 Twitter

有许多工具可用于刮取结构化格式的 Twitter 数据。其中包括

  • 美丽汤 - 它是一个解析 HTML 和 XML 文档的 Python 软件包,对于搜索 Twitter 非常有用。
  • Twitter API 是一个 Python 封装器,可执行下载推文、搜索用户等 API 请求。你可以创建一个 Twitter 应用程序来获取 OAuth 密钥并访问 Twitter API。
  • Twitter 抓取工具 - 您可以使用 Twitter Scraper 以关键字或其他规格来抓取 Twitter 数据。 

让我们来看看如何使用 Python 的 twitterscraper 库为特定主题抓取推文。

安装 twitterscraper

你可以使用以下命令安装 twitterscraper 库:

pipinstalltwitterscraper

您可以使用以下命令安装最新版本。

!pip installtwitterscraper==1.6.1

pip install twitterscraper--upgrade

导入图书馆

您将进口三样东西,即

  1. 获取推文
  2. 大熊猫

twitter_scraper导入get_tweets
将 pandas导入pd

提及规格

假设我们想抓取以下标签列表:

  • 机器学习
  • 深度学习
  • NLP
  • 计算机视觉
  • 人工智能
  • 张力流
  • Pytorch
  • 数据科学 
  • 数据分析等

keywords= ['machinelearning', 'ML','deeplearning' 人工智能"、"NLP"、"计算机视觉"、"AI"、 
            tensorflow"、"pytorch"、"sklearn"、"pandas"、"plotly"、 
            spacy"、"fastai"、"datascience"、" dataanalysis"]。

.

创建数据帧

我们运行一次迭代,以了解如何实现 get_tweets 库。我们传递的第一个参数或主题是我们要收集推文的标签。 

tweets= get_tweets("#machinelearning", pages =5)

这里的 tweet 是一个对象。我们必须用下面的代码创建一个 Pandas DataFrame:

tweets_df= pd.DataFrame()

我们使用下面的函数来打印键值和获得的值。

for tweet in tweets:
 print('Keys:',list(tweet.keys()),'\n')
  断开

显示的按键如下:

提取相关数据

现在,我们针对一个关键词运行代码并提取相关数据。假设我们要提取以下数据:

  • 文本
  • isRetweet
  • 回覆
  • 转发
  • 喜欢

我们可以使用 for 循环提取这些数据,然后使用 head() 函数获取数据的前五行。

for tweet in tweets:
  _ = pd.DataFrame({'text' : [tweet['text']],
                    'isRetweet' : tweet['isRetweet'],
                    'replies' : tweet['replies'],
                    'retweets' : tweet['retweets'],
                    'likes' : tweet['likes']
                    })
  tweets_df = tweets_df.append(_, ignore_index = True)
tweets_df.head()

这是包含我们所需的数据的数据帧,你可以轻松地将所有收集到的推文可视化。 

恭喜你从 Twitter 上删除了推文。现在,我们继续了解 Twitter 代理的必要性。

为什么使用 Twitter 代理?

你有没有发布过不该发布的内容?推特代理是用户的最佳解决方案,因为他们不能让自己的追随者军团长时间没有新鲜内容。没有它们,你就会倒霉,可能会因为缺乏活动而失去粉丝。这些代理服务器代表你的电脑行事,向 Twitter 服务器隐藏你的 IP 地址。这样你就可以访问该平台,而不会被封账号。

使用搜索工具搜索 Twitter 数据时,还需要一个合适的代理。例如,全世界的营销人员都在使用 Twitter 自动化代理和刮擦工具,以便在极短的时间内刮擦 Twitter,获取有价值的市场信息。

住宅代理服务器 - 您可以使用快速、安全、可靠且经济高效的住宅代理服务器。由于它们是安全、合法的互联网服务提供商 IP,因此可以为您提供特别优质的体验。

自动化工具 -使用 Twitter 代理时,您还可以使用自动化工具。这些工具可以同时处理多项任务,因此有助于管理多个账户。

例如,TwitterAttackPro就是一款出色的工具,它可以为您处理几乎所有 Twitter 事务,包括

  • 关注/取消关注
  • 推特/转发
  • 回复评论
  • 收藏

要使用这些自动化工具,你必须使用 Twitter 代理。否则,Twitter 会封禁你的所有账户。

使用 Python 抓取 Twitter 的最佳代理是什么?

ProxyScrape是网上最受欢迎、最可靠的代理服务提供商之一。三种代理服务包括专用数据中心代理服务器、住宅代理服务器和高级代理服务器。那么,使用 python 搜索 Twitter 的最佳代理是什么呢?在回答这个问题之前,最好先看看每个代理服务器的特点。

专用数据中心代理 最适用于高速在线任务,如从不同服务器流式传输大量数据(就大小而言)以进行分析。这也是企业选择专用代理在短时间内传输大量数据的主要原因之一。

专用数据中心代理具有多种功能,如无限带宽和并发连接、便于通信的专用 HTTP 代理以及更安全的 IP 验证。专用数据中心的正常运行时间为 99.9%,在任何会话期间都能正常工作,您大可放心。最后但同样重要的是,ProxyScrape 提供优质的客户服务,将在 24-48 个工作小时内帮助您解决问题。 

其次是 住宅代理。 住宅代理是每个普通消费者的首选代理。主要原因是住宅代理的 IP 地址与 ISP 提供的 IP 地址相似。这意味着从目标服务器获得访问其数据的许可会比平常更容易。 

ProxyScrape住宅代理的另一个特点是轮换功能。旋转代理可以帮助您避免账户被永久封禁,因为住宅代理会动态更改您的 IP 地址,使目标服务器难以检查您是否在使用代理。 

除此之外,住宅代理的其他功能还包括:无限带宽、并发连接、专用 HTTP/s 代理、随时会话代理(因为代理池中有 700 多万个代理)、用户名和密码验证以提高安全性,最后但并非最不重要的一点是能够更改国家服务器。您可以通过在用户名验证中附加国家代码来选择所需的服务器。 

最后一个是 高级代理。高级代理与专用数据中心代理相同。功能保持不变。主要区别在于可访问性。在高级代理中,代理列表(包含代理的列表)向ProxyScrape网络上的每个用户开放。这就是为什么高级代理的成本低于专用数据中心代理的原因。

那么,使用 python 搜索 Twitter 的最佳代理是什么呢?答案是 "住宅代理"。原因很简单。如上所述,住宅代理是一种旋转代理,也就是说,你的 IP 地址会在一段时间内动态变化,这有助于在一小段时间内发送大量请求,从而欺骗服务器,而不会被封 IP。 

接下来,最好是根据国家更改代理服务器。您只需在 IP 验证或用户名和密码验证的末尾添加国家 ISO_CODE。 

常见问题:

1.如何使用 python 搜刮 Twitter?
在名为 "twitterscraper "的 python 库的帮助下,你可以使用 python 搜刮 Twitter。与其他搜刮库相比,它更易于使用。有了这个库,你就可以快速搜刮转发、回复、评论等数据。
2.搜索 Twitter 是否合法?
这要看情况。您可以从 Twitter 抓取公共数据,不会有任何问题。但如果你在短时间内发送异常数量的请求,Twitter 可能会阻止你。最好使用代理来隐藏你的 IP 地址。
3.使用 python 搜索 Twitter 的最佳代理是什么?
住宅代理是使用 python 浏览 Twitter 的最佳代理。原因很简单。住宅代理是一种旋转代理,也就是说,你的 IP 地址会在一段时间内动态变化,这有助于欺骗服务器,在一小段时间内发送大量请求,而不会被封 IP。

结论

我们讨论过,可以使用 Twitter API 和刮擦工具来刮擦Twitter 。你可以使用 Twitter 搜刮器,通过提及关键字和其他规格来搜刮 Twitter,就像我们上面所做的那样。社交媒体营销人员如果希望拥有多个 Twitter 账户以扩大影响力,就必须使用 Twitter 代理,以防止账户被封。最好的代理服务器是住宅代理服务器,速度超快,永远不会被封。 

希望你对如何使用 Python 搜刮 Twitter 有所了解。