如何提取仅从当地人那里发布的推文



我正在做一个关于当地人对香港交通服务态度的情感分析项目。我使用Twitter API来收集推文。然而,由于我的研究目标是香港当地人,因此应该删除旅行者发布的推文。谁能给我一些关于如何在有大量Twitter数据的情况下提取当地人发布的推文的提示?我现在的想法是构建一个包含旅行相关单词的字典,并使用这些单词来过滤推文。但它似乎不起作用

欢迎任何提示和见解!谢谢!

有三种主要方法可以做到这一点。

  1. 语言。如果用户用粤语或其他当地语言发推文,那么与俄语相比,他们成为旅行者的可能性较小。
  2. 用户位置。 如果用户的个人资料中存在某个位置,您可以查看该位置是否位于香港境内。
  3. 用户时区。 如果用户的时区与香港的时区相同,则可能是本地时区。

所有这些都非常模糊。

相关内容

最新更新