对于一个特定的关键词,我可以通过Twitter搜索API获得多少数据



我想使用python-Tweepy库从twitter收集数据。

我调查了Twitter API的速率限制,即每15分钟180次请求。

我想知道的是,对于一个特定的关键词,我可以获得多少数据?换句话说,当我使用Tweepy时。光标,它什么时候停止?

我说的不是数学计算(100次计数*180次请求*4次/小时等),而是真实的体验。我发现一个观点如下:

"对于特定的关键词,你通常只能对每个关键词的最后5000条推文进行民意调查。你还受到特定时间段内可以发出的请求数量的限制。"http://www.brightplanet.com/2013/06/twitter-firehose-vs-twitter-api-whats-the-difference-and-why-should-you-care/

这是正确的吗(如果是正确的,我只需要运行程序5分钟左右)?或者我需要不断收到尽可能多的推文(这可能会使程序运行很长时间)?

你肯定不会得到现有推文那么多。Twitter限制您可以返回多远的方式(因此限制有多少条推文可用)是将最小的since_id参数传递给Twitter API的GET search/tweets调用。在Tweepy中,API.search函数与Twitter API接口。Twitter的GET search/tweets文档有很多好的信息:

可以通过API访问的推文数量是有限的。如果自since_id以来出现了Tweets的限制,则since_ids将被强制为可用的最旧id。

实际上,Tweepy的API.search应该不需要很长时间就可以获得所有可用的推文。请注意,并不是所有的推文都可以通过Twitter API使用,但我从未让搜索耗时超过10分钟。