有没有一种算法可以确定文本与主题的相关性



我想知道什么可以用来确定页面与游戏、电影等主题的相关性。

是否在这方面进行了一些研究,或者只计算了一些相关单词出现的次数?

常见的选择是对单词袋(或n-gram袋)特征进行监督文档分类,最好使用tf idf加权。

流行的算法包括朴素贝叶斯和(线性)SVM。

对于这种方法,您需要标记的训练数据,即用相关主题注释的文档。

例如,参见信息检索导论,第13-15章。

相关内容

  • 没有找到相关文章

最新更新