多级分类数据集的热编码

我的数据集如下：

症状 (X( ：：条件 (Y(
发烧、头痛、失明：：瓦格纳综合征牙痛，发烧，尿甜：：武里府疾病
失明，流鼻血，发烧：：泰勒综合征

其中 X 是特征，Y 是我的标签。我想将 X 编码为一个热编码矩阵。 Panda 的get_dummies无法在一列中处理多个值，但如果我将 X 拆分为多列，我将失去将症状编码到同一个 one-hot 矩阵的能力

有什么想法吗？

你可以用Sklearn CountVectoriser做到这一点，每个单词都是一列，行一个观察。如果将二进制标记设置为 true，则对于每行(如果存在单词(，它将表示为该行|列的 1。将二进制设置为 False，这是该单词在句子中出现的次数。

确切地说，您的要求不是独热编码。对于一个热编码，只有值为 1 的特征，所有其他特征均为 0。因此，您可以考虑将 X 拆分为多个特征，然后在 sklearn 中使用 OrdinalEncoder。

相关内容