在多标签矩阵中使用权重而不是数字

假设我们有一个多分类问题。数据矩阵存储表示标签的整数。

构建这样的矩阵是否正确，数据为float()或某种概率如下：

[[0.71561032442075889, 0.27956959249497948], ...]

而不是像这样的二进制标签：

[[0, 1], ...]

提前非常感谢！

通常，分类是根据给定集合(输入(的共同属性和核心特征将给定的集合(输入(划分为N个类的任务。如果你只有两个类(N == 2(，那么问题将是一个二元分类。作为一般规则，此类类表示为从零开始的整数：

X = [[1, 2], [3, 4], [1, 2]]
y = [1, 0, 1]  # two classes => binary classification task

如果有两个以上的类(N> 2(，则这将是一个多分类任务。请注意，我们不考虑任何转换技术：

X = [[1, 2], [3, 4], [1, 2], [5, 6]]
y = [1, 0, 1, 2]  # three classes => multiclassifaction task

除了对输入数据进行分类之外，还有一个构建回归的任务。分类分析和回归分析之间的主要区别在于，我们努力在输入和目标之间建立牢固的数学关系。在回归分析过程中，我们可能提出的主要问题之一是，当某个输入发生变化时，我们的目标变量会发生什么。在这种情况下，目标向量以连续的比例呈现，即它可以绝对由任何数字组成，正数或负数：

X = [[1, 2], [3, 4], [1, 2], [3, 1]]
y = [12.5, -36.8, 12.5, 22.32]  # regression problem

简要建议

如果您希望重建y以能够解决多分类问题，您首先应该拥有一种有效且合理的技术，将二进制目标转换为连续目标，就像您在问题中所示的那样。如果你相信你的方法遵循常识，那么你可以将y向量的值四舍五入到小数，从而建立十一个类：[0.0, 0.1, ..., 0.9, 1]。当然，下一步是将分类器与转换后的数据拟合。

我希望这有所帮助。

简要建议

相关内容

最新更新

热门标签：