如果时间不是一个因素,我们不知道有多少个类,那么哪个是文档分类的最佳方法?
根据我(不完全)的知识,如果不知道有多少类,那么分层凝聚聚类是最好的方法。所有其他聚类算法要么需要预先知道桶的数量,要么需要某种交叉验证或其他实验来确定一个合理的桶的数量。
一个交叉链接:参见how-do-i-determine-k-when-using-k-means-clustering on SO
如果时间不是一个因素,我们不知道有多少个类,那么哪个是文档分类的最佳方法?
根据我(不完全)的知识,如果不知道有多少类,那么分层凝聚聚类是最好的方法。所有其他聚类算法要么需要预先知道桶的数量,要么需要某种交叉验证或其他实验来确定一个合理的桶的数量。
一个交叉链接:参见how-do-i-determine-k-when-using-k-means-clustering on SO
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium