热门博客文章排名算法



我正在构建一个像Techmeme这样的博客聚合器,它可以从几个博客中找到最受欢迎的帖子。与Techmeme不同,首先,我从各种RSS源聚合博客文章,然后将标题和相关URL保存在数据库中。在那之后,我必须找到最受欢迎的博客文章是什么。

为了定义最热门的博客文章标题,我跟踪每个博客的每条帖子的Facebook和Twitter共享数,并根据它们的共享数对博客文章进行排名。但这并不是最好的解决方案,因为一些博主可以通过欺诈性股票增加分享数量来作弊。

所以我的问题是,我可以用什么标准来定义什么是最受欢迎的帖子?什么是更好的博客排名算法?

由于这个上下文中的"流行"一词很模糊,我会根据我的标准来定义帖子的流行程度。将所有建议的答案结合起来,为博客文章建立一个合理的声誉体系。例如,基本上我会做这样的事情。

  • facebook共享x 2
  • twitter共享x 3
  • 域的pagerank x 2
  • 50000/全球alexa评级
  • 等等

最后,你可以总结所有这些并进行比较。此外,您可以根据帖子的大小、帖子中的图像数量等因素开发一些标准。

可以估计不同来源的股份联合分配。很难发现边缘化(即单一)指标的欺诈行为,但更难伪造一个整体的"有机"档案。

使用PageRank的变体怎么样?

这是更多的细节。http://pr.efactory.de/e-pagerank-algorithm.shtmlhttp://en.wikipedia.org/wiki/PageRank?PHPSESSID=e371f8cacb91eff0c852a0e001893a9a

最新更新