如何使用scikit-learn执行集成(多分类器)分类

我有一个相当有限的数据集，我正在使用scikit-learn执行监督学习，多类文本分类。为了稍微缓解信息短缺，我想做以下几点：

从我要分类的内容中提取 ngrams，将其与内容的 unigram 合并并执行分类
（或使用基于投票的集成分类器的现有实现）以提高分类准确性。例如，多项式贝叶斯和 KNN 似乎都为不同的类提供了良好的结果：理想情况下，我会将它们结合起来，这样我就可以得到稍微好一点（希望不会更差）的性能，而不是我能够使用我有限的数据集获得的劣质 ~50%。

虽然第一步是微不足道的，但我找不到太多关于如何使用scikit-learn进行集成分类的信息。我注意到scikit-learn有一些关于像这样的合奏类的条目，但它似乎不是我想要的。

有谁知道使用scikit-learn做到这一点的具体例子吗？

我也

在这个问题上挣扎。经过大量的实验，我发现在sci-kit中进行集成分类的最佳方法是平均每个训练模型的clf.predict_proba（X）值。平均值在长期（运行 50 或更多）内的表现优于任何单个模型

如果您可以保证某些经过训练的模型比其他模型更强，您可能还需要使用加权平均值或多臂老虎机集成方法进行研究。

http://en.wikipedia.org/wiki/Multi-armed_bandit

相关内容