标称、有序、二进制与数字变量数据集的缩放



如果数据集以字符(即分类)给出,那么我们需要使用一种热编码将它们转换为数字数据?

我的第二个问题是,只有一个热编码对名义数据类型有意义,或者对名义和序号数据类型都有意义?

确实需要在将分类变量转换为数字形式之前将其提交到模型(尽管某些模型实现是自动执行的)。一种热编码是一种方法,但您可以选择更多的"编码器"(序数编码,二进制编码,哈希编码等),它们都适合不同的情况。

对于第二个问题,您的数据是名义数据还是有序数据并不重要,唯一真正重要的是您的数据是分类的。

也就是说,如果你的数据是有序的,模型就会接受它。但是在某些情况下,序数可能会很糟糕,因为在类别之间引入"距离概念"。 例如,如果您有,则此编码为交通工具:

  • 1 ->车
  • 2 ->巴士
  • 3->地铁
  • 4 ->自行车

模型会理解自行车更接近地铁而不是汽车,这是您可能不想提供给模型的信息。 一个热编码通过将每个类别彼此保持相同的距离来解决此问题。

最新更新