如何使用字符串特征进行分类



我正在研究一个广告点击推荐系统,在这个系统中,我必须预测用户是否会点击广告。我总共有 98 个功能,同时具有用户功能和广告功能。对预测非常重要的一些特征是具有这样的字符串值。

**FEATURE**
Inakdtive Kunmden
Stammkfunden
Stammkdunden
Stammkfunden
guteg Quartialskunden
gutes Quartialskunden
guteg Quartialskunden
gutes Quartialskunden

整个数据列中有 14 个不同的字符串值。我的模型无法将字符串值作为输入,因此我必须将它们转换为分类整数值。我不知道如何做到这一点并使这些功能有用。我正在使用K-MEANS聚类和随机森林算法。

将字符串值列表转换为分类整数时要小心,因为模型可能会将整数解释为具有数值意义,但它们可能不是。

例如,如果:

'Dog'=1,'Cat'=2,'Horse'=3,'Mouse'=4,'Human'=5

然后,聚类算法中的距离指标会认为人类更像老鼠而不是狗。 将它们转换为 14 个二进制值通常更有用,例如

把这个:

'Dog'
'Cat'
'Human'
'Mouse'
'Dog'

进入这个:

'Dog'  'Cat'  'Mouse'  'Human'
  1      0       0        0
  0      1       0        0
  0      0       0        1
  0      0       1        0
  1      0       0        0

不是这个:

'Species'
    1
    2
    5
    4
    1

但是,如果数据将成为您要分类的"目标"而不是数据"特征",则可以在SciKit-Learn中的大多数多分类算法中将它们保留为整数。

我喜欢user1745038的答案,它应该会给你相当好的结果。但是,如果要从字符串中提取更有意义的特征(特别是如果字符串数量显着增加),请考虑使用一些 NLP 技术。例如,"狗"和"猫"比"狗"和"老鼠"更相似。

祝你好运

相关内容

  • 没有找到相关文章