python 2.7-我是否缺少Twitter API提供的正确地理/坐标信息



从Twitter API提取信息时,存在许多与地理相关的信息。这是我的部分代码。。。

placeHolder = []
placeHolder.append(tweet.author.name.encode('utf8'))
placeHolder.append(tweet.place)
placeHolder.append(tweet.user.location.encode('utf8'))
placeHolder.append(tweet.user.time_zone)
placeHolder.append(tweet.geo)
placeHolder.append(tweet.coordinates)

我有一些具体的问题希望在这里得到答案:

1( 我收集的地理位置信息是否正确?特别是用tweet.geo和tweet.geordinates。或者我的代码中有没有遗漏的地理信息?

2( 我应该使用哪个地理变量来定位用户发布推文的位置?"地理"还是"坐标"?有些人说"地理"已经过时了,但当我在数据中查看它们时,除了经度和纬度翻转之外,它们都是一样的。

3( 我刚刚查看了我的数据,似乎只有大约0.35%的样本推文包含"地理"/"坐标"变量的信息,是太低还是在正常范围内?我发现"tweet.user.location"有更多的信息,但没有标准化,整合所有这些地理信息的最佳方式是什么?

1(我是否正在收集正确的地理位置信息?特别是用tweet.geo和tweet.geordinates。或者我的代码中有没有遗漏的地理信息

假设推特时此人所在的地理位置正确,那么tweet.placetweet.geotweet.coordinates就是你想要的。user.*下的任何人都是由用户定义的,而不是twitter。

2(我应该使用哪个地理变量来定位用户发布推文的位置?"地理"还是"坐标"?有些人说"地理"已经过时了,但当我在数据中查看它们时,除了经度和纬度翻转之外,它们都是一样的

为此,我还推荐tweet.coordinates,原因有两个:a(根据twitter的说法,它是官方的地理编码字段,b(它是正确的geojson格式(long,lat(

3(我刚刚查看了我的数据,似乎只有大约0.35%的样本推文包含关于"地理"/"坐标"变量的信息,是太低还是接近正常?我发现"tweet.user.location"有更多的信息,但没有标准化,整合所有这些地理信息的最佳方式是什么

就像我在"1("中所说的,user.*下的任何内容都是用户定义的。例如,你可以说你来自火星,但如果你启用了地理功能并发推特,tweet.coordinates会给出真实位置(很可能不是火星(。

这个比例很低,但很难说。这完全取决于你定义的位置,如果你谈论的是整个世界的推特,没有具体的数字可以作为依据。根据经验,我可以告诉你(如果不包括单词过滤器(,美国大约有10%的推文地理信息。我之所以说没有单词过滤器,是因为一旦你根据单词搜索推文,你的系统就会包含有偏见的数据。

最新更新