我想使用Twitter流媒体API,服务器需要多强大才能处理它



我目前有一个 cron 作业,它使用 Twitter 搜索 API 每分钟运行一次,但这限制我每个请求只能有 100 个结果,我希望开始使用流式处理 API,但担心这会进一步增加服务器负载(我目前正在使用共享主机,我的 cron 作业已经引发了一些危险信号)。

我的问题是,为了充分捕获流 API 数据而没有任何数据积压,我应该获得服务器上的最低规格是多少?

我使用过并且看到其他人也这样做的设计是使用消息队列。通过专用于该目的的线程将流中的推文加载到队列中。然后,您可以在队列的另一侧让另一个线程读取推文并根据需要进行处理。这是我所说的一个很好的例子:

http://www.laurentluce.com/posts/python-twitter-statistics-and-the-2012-french-presidential-election/

如果没有充分的分析,没有人能告诉你你的规格应该是什么。正如您的问题评论之一所建议的那样,您将获得的最接近的答案是尝试一下。 通常,对要执行的操作进行快速原型设计,以查看效果并根据需要进行测量。 同样,这里有许多架构原则在起作用,所以有人确切地告诉你你应该做什么是不明智的。

最新更新