StackOverflow标签预测器…请建议一个机器学习方法



我正在尝试预测stackoverflow问题的标签,但我无法决定哪种机器学习算法将是正确的方法。

Input:作为一个数据集,我已经挖掘了stackoverflow问题,我已经对数据集进行了标记,并从该数据中删除了停止词和标点符号。

我尝试过的事情:

  1. TF-IDF
  2. 在数据集上训练朴素贝叶斯,然后给出用户定义的输入来预测标签,但它不能正常工作
  3. 线性支持向量机

我应该使用有监督的还是无监督的ML算法?如果可能的话,请从头开始建议正确的ML方法。PS:我有StackOverflow上所有标签的列表,所以,这会有帮助吗?由于

我会尝试MLP。为了开始,我将选择一组相当小的关键字作为输入,并对它们进行编码[1..]并训练一个相当小的输出标签集。

PS:对于这个任务来说,无监督学习通常是不利的,因为许多涉及不同标签的问题具有非常相似的内容,并且很可能聚类在一起。

相关内容

最新更新