如何建立一个多标签分类问题的机器学习模型，其中部分训练数据包含不精确的输出?

我有一个数据集，其中包含输入和输出标签。对于大多数数据，输出标签是确定的。例如，有些数据属于A类型，有些数据属于B类型，有些数据属于C类型，有些数据属于d类型。但是有一些特殊数据，它们只包含模糊信息:我们只知道这些特殊数据不属于A类型或B类型，换句话说，它要么属于C类型，要么属于d类型。

那么对于这种类型的数据集，我们如何使用机器学习方法，比如XGBoost等来训练分类模型呢?有什么成熟的方法来处理吗?

最简单的方法就是把所有这些"特殊数据";归入一个新的类别，名为"E"(理想的新分类应该是-1)。然后，ML模型学习那些不能根据训练数据分类到已知类别的记录。

一个复杂的方法是有4个单独的目标值。

对于"特殊数据"当你知道它不是A或B时，这些字段的值将是:P(a):0, P(b):0, P(c):0.5, P(d):0.5如果你的训练数据中有某种概率函数，请使用它们来代替等概率。

然后使用回归预测所有4的概率，您将获得更细粒度的输出。具有高度偏倚概率的输出可以被归为确定的类，而具有更均匀分布的输出可以表明该输出也是"特殊数据"的一种情况。

相关内容