多级分类数据集的热编码



我的数据集如下:

症状 (X( :: 条件 (Y(
发烧、头痛、失明 :: 瓦格纳综合征 牙痛,发烧 ,尿甜 :: 武里府疾病
失明,流鼻血,发烧 :: 泰勒综合征

其中 X 是特征,Y 是我的标签。 我想将 X 编码为一个热编码矩阵。 Panda 的get_dummies无法在一列中处理多个值,但如果我将 X 拆分为多列,我将失去将症状编码到同一个 one-hot 矩阵的能力

有什么想法吗?

你可以用Sklearn CountVectoriser做到这一点,每个单词都是一列,行一个观察。如果将二进制标记设置为 true,则对于每行(如果存在单词(,它将表示为该行|列的 1。将二进制设置为 False,这是该单词在句子中出现的次数。

确切地说,您的要求不是独热编码。对于一个热编码,只有值为 1 的特征,所有其他特征均为 0。因此,您可以考虑将 X 拆分为多个特征,然后在 sklearn 中使用 OrdinalEncoder。

最新更新