tf idf之外的其他文档功能用于集群



用于对文本文档进行聚类的文档还有哪些其他功能表示?我所知道的唯一表示是tf idf。还有其他的吗?

这并不是一个加权(或它的极端版本),但我注意到,修剪频繁的特性会使使用k-means的文档聚类更加稳定:例如,您可以尝试修剪50%或更多文档的所有非零特性。

最新更新