用于多标签分类的随机森林

我正在制作一个多标签文本分类的应用程序。我尝试过不同的机器学习算法。

毫无疑问，具有线性核的SVM得到了最好的结果。

我还尝试过用Radom Forest算法进行排序，结果非常糟糕，召回率和精度都很低。

事实上，线性核反应更好的结果给了我一个不同类别是线性可分离的概念。

随机森林的结果如此之低有什么原因吗？

随机林的集成在许多域和数据类型中表现良好。它们在减少方差误差方面非常出色，如果树足够简单，也不会过度拟合。

我希望林的性能可以与具有线性内核的SVM相媲美。

SVM将倾向于过拟合，因为它不能从集成中受益。

如果您没有使用某种交叉验证。至少，使用测试/训练方案来衡量看不见的数据的表现，我可以看到你获得这种类型的结果。

回过头来，确保性能是根据看不见的数据来衡量的，你更有可能看到RF的性能更具可比性。

祝你好运。

如果不查看有问题的数据，很难回答这个问题。

SVM确实有更好地处理文本分类的历史，但从定义上讲，机器学习是上下文相关的。

考虑运行随机林算法时使用的参数。你的树木数量和深度是多少？你在修剪树枝吗？您是否在更大的参数空间中搜索SVM，因此更有可能找到更好的最优值。

相关内容