用于多标签分类的随机森林



我正在制作一个多标签文本分类的应用程序。我尝试过不同的机器学习算法。

毫无疑问,具有线性核的SVM得到了最好的结果。

我还尝试过用Radom Forest算法进行排序,结果非常糟糕,召回率和精度都很低。

事实上,线性核反应更好的结果给了我一个不同类别是线性可分离的概念。

随机森林的结果如此之低有什么原因吗?

随机林的集成在许多域和数据类型中表现良好。它们在减少方差误差方面非常出色,如果树足够简单,也不会过度拟合。

我希望林的性能可以与具有线性内核的SVM相媲美。

SVM将倾向于过拟合,因为它不能从集成中受益。

如果您没有使用某种交叉验证。至少,使用测试/训练方案来衡量看不见的数据的表现,我可以看到你获得这种类型的结果。

回过头来,确保性能是根据看不见的数据来衡量的,你更有可能看到RF的性能更具可比性。

祝你好运。

如果不查看有问题的数据,很难回答这个问题。

SVM确实有更好地处理文本分类的历史,但从定义上讲,机器学习是上下文相关的。

考虑运行随机林算法时使用的参数。你的树木数量和深度是多少?你在修剪树枝吗?您是否在更大的参数空间中搜索SVM,因此更有可能找到更好的最优值。

最新更新