Python上的Twitter爬虫



我正在尝试使用python从Twitter收集推文数据。这是我的代码。

#API
consumer_key = "API key"
consumer_secret = "Secret key"
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
#Access Token
access_token = "Access Token"
access_token_secret = "Access Token Secret"
auth.set_access_token(access_token, access_token_secret)
#Twitter API
api= tweepy.API(auth)
location = "%s,%s,%s" % ("35.95","128.25","1000km")
keyword = ""
wfile = open(os.getcwd()+"/twitter.txt",mode='w')
cursor = tweepy.Cursor(api.search,
                   q=keyword,
                   since='2015-01-01',
                   count=100,
                   geocode=location,
                   include_entities=True)
for i,tweet in enumerate(cursor.items()):
print("{}:{}".format(i,tweet.text))
wfile.wrtie(tweet.text+'n')
wfile.close()

问题1.

在这种情况下,推文来自"2015-01-01

",但是否可以分配"2015-01-01 ~ 2015-12-31"这样的日期?

问题2.

计数为 100,

这意味着它将从 2015-01-01 收集 100 条推文。 但是有什么具体的收集方法我可以给出吗?例如 100 条随机推文(不分时间顺序)或 2015-01-01 转发最多的 100 条推文

问题3.

在此代码中,推文和标签是我唯一能知道的事情。有没有办法找出推文的位置信息?上传地点的经纬度?

问题4.如何仅获取主题标签?不是整个推文

谢谢

您可以使用 sincetill 运算符。

https://api.twitter.com/1.1/statuses/user_timeline.json?include_entities=true&inc‌​lude_rts=true&screen_name=your_screen_name&since:2011-05-16&until:2011-08-16

但这对你没有什么好处,因为推文可以在一个小的时间窗口内搜索。要解决此问题,请查看几个资源

复制自

最新更新