对TF-IDF特征向量中的特定特征进行k-means聚类和余弦相似度加权



我有一个TF-IDF特征向量数组。我想用两种方法在数组中找到类似的向量:

  1. 余弦相似度
  2. k -均值聚类

使用Scikit Learn,这个过程非常简单。

现在我想对某些特征进行加权,以便它们比其他特征更能影响结果。例如,我可能想对TF-IDF向量的前100个元素进行加权,以便这些特征比其他特征更能表明相似性。

如何对特征向量中的某些特征进行有意义的加权?对于我上面列出的每种相似度算法,对某些特征进行加权的过程是否相同?

据我所知,TFIDF矩阵中的低值意味着单词不太重要。因此,一种方法是降低您所考虑的那些列的矩阵中的值。

scikit中的数组是稀疏的,因此对于测试和调试,您可能希望将其转换为常规矩阵。我还使用xlsxwriter来概述应用TFIDF和kmeans++时实际发生的情况(请参阅)https://www.dbc-enterprise-it-consulting.com/text-classifier/.

最新更新