小贝子编程

对TF-IDF特征向量中的特定特征进行k-means聚类和余弦相似度加权

本文关键字：特征聚类余弦 k-means 相似加权向量 TF-IDF python machine-learning scikit-learn k-means tf-idf
更新时间 : 2023-08-25
英文 : Weighting specific features in TF-IDF feature vectors for k-means clustering and cosine similarity

我有一个TF-IDF特征向量数组。我想用两种方法在数组中找到类似的向量:

使用Scikit Learn，这个过程非常简单。

现在我想对某些特征进行加权，以便它们比其他特征更能影响结果。例如，我可能想对TF-IDF向量的前100个元素进行加权，以便这些特征比其他特征更能表明相似性。

如何对特征向量中的某些特征进行有意义的加权?对于我上面列出的每种相似度算法，对某些特征进行加权的过程是否相同?

据我所知，TFIDF矩阵中的低值意味着单词不太重要。因此，一种方法是降低您所考虑的那些列的矩阵中的值。

scikit中的数组是稀疏的，因此对于测试和调试，您可能希望将其转换为常规矩阵。我还使用xlsxwriter来概述应用TFIDF和kmeans++时实际发生的情况(请参阅)https://www.dbc-enterprise-it-consulting.com/text-classifier/.

相关内容