我正在尝试挖掘社交媒体数据,例如tweet。然而,社交媒体数据有很多噪音——例如人们讨论名人或引用电影/电视/歌曲,这通常不是关于他们自己或他们真正认识的人的事情。
那么,是:是否有动态的(即自动更新的)数据库关于当前最受欢迎的名人?他们参演的电影台词或他们唱的歌词也会有相关性。
我认为不存在这样一个精心策划的列表。较小的例子确实存在,比如维基百科上的100部最受欢迎的电影。然而,这些并没有更新。
一种可能是过滤掉出现在另一个跟踪趋势的社交媒体网站上的你输入的内容,比如Delicious。除非你在寻找趋势,否则在两个热门网站上排名靠前的东西很可能……这只是一个趋势。
Delicious有一个很好的Python API包装器。
在python伪代码中,
data = social-media.content
data = filter(lambda datum: datum not in delicious.content-list,data)