在多标签矩阵中使用权重而不是数字



假设我们有一个多分类问题。 数据矩阵存储表示标签的整数。

构建这样的矩阵是否正确,数据为float()或某种概率如下:

[[0.71561032442075889, 0.27956959249497948], ...]

而不是像这样的二进制标签:

[[0, 1], ...]

提前非常感谢!

通常,分类是根据给定集合(输入(的共同属性和核心特征将给定的集合(输入(划分为N个类的任务。如果你只有两个类(N == 2(,那么问题将是一个二元分类。作为一般规则,此类类表示为从零开始的整数:

X = [[1, 2], [3, 4], [1, 2]]
y = [1, 0, 1]  # two classes => binary classification task

如果有两个以上的类(N> 2(,则这将是一个多分类任务。请注意,我们不考虑任何转换技术:

X = [[1, 2], [3, 4], [1, 2], [5, 6]]
y = [1, 0, 1, 2]  # three classes => multiclassifaction task

除了对输入数据进行分类之外,还有一个构建回归的任务。分类分析和回归分析之间的主要区别在于,我们努力在输入和目标之间建立牢固的数学关系。在回归分析过程中,我们可能提出的主要问题之一是,当某个输入发生变化时,我们的目标变量会发生什么。在这种情况下,目标向量以连续的比例呈现,即它可以绝对由任何数字组成,正数或负数:

X = [[1, 2], [3, 4], [1, 2], [3, 1]]
y = [12.5, -36.8, 12.5, 22.32]  # regression problem

简要建议

如果您希望重建y以能够解决多分类问题,您首先应该拥有一种有效且合理的技术,将二进制目标转换为连续目标,就像您在问题中所示的那样。如果你相信你的方法遵循常识,那么你可以将y向量的值四舍五入到小数,从而建立十一个类:[0.0, 0.1, ..., 0.9, 1]。当然,下一步是将分类器与转换后的数据拟合。

我希望这有所帮助。

最新更新