如何为机器学习对每个样本的标称类别对象的无序列表进行编码



我的数据集中的每个样本(用户(都有一个项目列表(skills。每个项目(skill(都是一个名义类别对象(skill-id从0到10000(。名义类别项目通常通过热编码或二进制编码进行编码,用于机器学习。然而,我遇到的问题是,每个样本(用户(不仅有一个项目(skill

如何在没有大量列的情况下对这些技能列表进行编码?在没有分解技术的情况下,有什么技巧可以做到这一点吗?

一种名为特征哈希的技术允许将对象映射到列中。它由https://en.wikipedia.org/wiki/Feature_hashing:

function hashing_vectorizer(features : array of string, N : integer):
x := new vector[N]
for f in features:
h := hash(f)
x[h mod N] += 1
return x

最新更新