我有一个相当有限的数据集,我正在使用scikit-learn执行监督学习,多类文本分类。为了稍微缓解信息短缺,我想做以下几点:
-
从我要分类的内容中提取 ngrams,将其与内容的 unigram 合并并执行分类
实现 (或使用基于投票的集成分类器的现有实现)以提高分类准确性。例如,多项式贝叶斯和 KNN 似乎都为不同的类提供了良好的结果:理想情况下,我会将它们结合起来,这样我就可以得到稍微好一点(希望不会更差)的性能,而不是我能够使用我有限的数据集获得的劣质 ~50%。
虽然第一步是微不足道的,但我找不到太多关于如何使用scikit-learn进行集成分类的信息。我注意到scikit-learn有一些关于像这样的合奏类的条目,但它似乎不是我想要的。
有谁知道使用scikit-learn做到这一点的具体例子吗?
在这个问题上挣扎。经过大量的实验,我发现在sci-kit中进行集成分类的最佳方法是平均每个训练模型的clf.predict_proba(X)值。平均值在长期(运行 50 或更多)内的表现优于任何单个模型
如果您可以保证某些经过训练的模型比其他模型更强,您可能还需要使用加权平均值或多臂老虎机集成方法进行研究。
http://en.wikipedia.org/wiki/Multi-armed_bandit