机器学习 - StackOverflow 的标签建议如何工作?



我有一个包含数十万论坛帖子的数据库,我想以一种无监督的方式对它们进行标记。

我注意到StackOverflow的标记系统在我进行标记时会建议使用标记。这个算法是如何工作的?

我还发现这意味着它是基于SVM的——它是官方的吗?http://dl.acm.org/citation.cfm?id=2660970&dl=ACM&coll=DL&CFID=522960920&CFTOKEN=15091676

您也可以使用Gensim和word嵌入进行文档分类,进行浅层(作者称之为深层)逆回归。理想情况下,使用论坛帖子的标题和文本,你应该能够建立一个相当不错的分类系统。在这本笔记本和纸上跟我来。

最新更新