我正在用Python和scikit-learn做一些分类。我有一个问题,似乎没有涵盖在文档中:如果我正在做,例如,用SVM分类,输入示例的顺序重要吗?如果我有二元标签,如果我把所有标签为0的例子和所有标签为1的例子放在一起,结果会不会不准确,或者把它们混在一起会更好?那么scikit提供的其他算法呢?
不,训练集中模式的顺序无关紧要。虽然样本的顺序会影响随机梯度下降学习算法(比如神经网络的算法),但它们在大多数情况下都是以确保内部随机性的方式编码的。另一方面,SVM是全局收敛的,无论排序如何,它都会得到完全相同的解决方案。