如果数据集包含多类别,例如。0级,1级和2级。现在,目标是将新样本分为0类或 non-0类。
一个可以
- 将1,2级组合成统一的非0级和训练二进制分类器,
- 或训练多级分类器进行二进制分类。
这两种方法的性能如何?
我认为更多类别会带来更准确的判别表面,但是1-和2类的权重低于非0类,导致样品被判断为非0类别的样品。<<<<<<<<<<<<<</p>
简短答案:您必须尝试并查看。
为什么?:它确实取决于您使用的数据和您使用的算法(就像许多其他机器学习问题一样。(
对于许多分类算法(例如SVM,Logistic回归(,即使您想进行多类分类,也必须执行一个单VS-ALL分类,这意味着您必须对待1类和1类和类别。第2级作为同一班级。因此,如果您只需要分开0。
对于诸如神经网络之类的算法,拥有多个输出类是更自然的算法,我认为如果您的类别0、1和2非常不同,培训多类分类器可能会更有益。但是,这意味着您必须选择一个更复杂的算法才能适合这三个算法。但是合身可能会更好。因此,如前所述,您确实必须尝试这两种方法并使用良好的指标来评估性能(例如,混乱矩阵,F-Score等。(
(我希望这有点有帮助。