聚类分析-文本分类,包括预处理



如果时间不是一个因素,我们不知道有多少个类,那么哪个是文档分类的最佳方法?

根据我(不完全)的知识,如果不知道有多少类,那么分层凝聚聚类是最好的方法。所有其他聚类算法要么需要预先知道桶的数量,要么需要某种交叉验证或其他实验来确定一个合理的桶的数量。

一个交叉链接:参见how-do-i-determine-k-when-using-k-means-clustering on SO

最新更新