我正在尝试使用不同的NLP功能进行一些KNN学习。例如,我想使用词袋和本地 POS 标签。
另外,我对如何计算与单个特征的相似性有一些想法。就像使用余弦相似性与计数(对于词袋向量),或者对 POS 标签使用汉明距离。
但是,我不知道如何将两者结合起来。这个领域的人们通常如何做到这一点?谁能帮我?
提前谢谢。
我会使用这两个功能的简单线性组合。因此,您使用余弦相似性和 POS 标签的汉明距离单独比较词袋向量,然后取两个结果的平均值。因此,如果余弦比较和汉明距离得出以下秩:
rank score cosine Hamming
-------------------------------
1 red blue
2 blue yellow
3 yellow orange
4 orange red
然后最终排名(给定排名分数,当然你可以更改为,例如,如果你想更强调排名较高的标签,则指数级)将如下所示(分数越低越好):
label total score
--------------------
blue 3
red 5
yellow 5
orange 7
因此,输出标签将是 blue
.在这种情况下,线性组合对余弦相似性输出施加 50% 的权重,在汉明距离输出上施加 50% 的权重。您可以使用不同的权重(例如,70% 余弦,30% 汉明)执行测试,以找到两种度量之间的最佳平衡。