如何结合不同的 NLP 功能进行机器学习



我正在尝试使用不同的NLP功能进行一些KNN学习。例如,我想使用词袋和本地 POS 标签。

另外,我对如何计算与单个特征的相似性有一些想法。就像使用余弦相似性与计数(对于词袋向量),或者对 POS 标签使用汉明距离。

但是,我不知道如何将两者结合起来。这个领域的人们通常如何做到这一点?谁能帮我?

提前谢谢。

我会使用这两个功能的简单线性组合。因此,您使用余弦相似性和 POS 标签的汉明距离单独比较词袋向量,然后取两个结果的平均值。因此,如果余弦比较和汉明距离得出以下秩:

rank score    cosine    Hamming
-------------------------------
1             red       blue
2             blue      yellow
3             yellow    orange
4             orange    red
然后最终排名(给定排名分数,

当然你可以更改为,例如,如果你想更强调排名较高的标签,则指数级)将如下所示(分数越低越好):

label    total score
--------------------
blue     3
red      5
yellow   5
orange   7

因此,输出标签将是 blue .在这种情况下,线性组合对余弦相似性输出施加 50% 的权重,在汉明距离输出上施加 50% 的权重。您可以使用不同的权重(例如,70% 余弦,30% 汉明)执行测试,以找到两种度量之间的最佳平衡。