我想知道什么可以用来确定页面与游戏、电影等主题的相关性。
是否在这方面进行了一些研究,或者只计算了一些相关单词出现的次数?
常见的选择是对单词袋(或n-gram袋)特征进行监督文档分类,最好使用tf idf加权。
流行的算法包括朴素贝叶斯和(线性)SVM。
对于这种方法,您需要标记的训练数据,即用相关主题注释的文档。
例如,参见信息检索导论,第13-15章。
我想知道什么可以用来确定页面与游戏、电影等主题的相关性。
是否在这方面进行了一些研究,或者只计算了一些相关单词出现的次数?
常见的选择是对单词袋(或n-gram袋)特征进行监督文档分类,最好使用tf idf加权。
流行的算法包括朴素贝叶斯和(线性)SVM。
对于这种方法,您需要标记的训练数据,即用相关主题注释的文档。
例如,参见信息检索导论,第13-15章。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium