使用Markov群集算法选择参数



我正在使用MCL进行聚类。我试图通过调整通货膨胀参数I和我引入的其他几个参数来"优化"质量分数的聚类。

我对此优化有疑问:

1)如果我错了,请纠正我:当我们尝试预测新输入的类时,使用交叉验证。因此,当所有输入都知道时,这个概念在聚类的背景下没有任何意义,我们只是试图重新组合它们

2)我计划使用不同的参数集进行实验,然后选择给我最好的结果的实验。但是,我阅读了有关clm close的信息,以及使用层次聚类并穿过树以找到最佳参数的可能性。我不熟悉层次聚类,但是此方法的表现如何仅仅比测试不同的参数?

至于(1)我会同意。至于(2),这是一个非常专业的评论,在开始一般探索性(群集)分析时没有要考虑的事情。

关于(1)的注释。如果您的数据已经分类(每个节点都带有标签),则可以将此分类视为聚类,并使用标准(例如信息的变化或拆分/加入距离)来查看数据群集与分类的匹配程度。这在一个特定数据集可用但不适合其他数据集的情况下可以很有用。这样一来,值得一提的是,一致性精确性更重要。也就是说,数据群集可以是分类的(近)超级簇或亚簇,并且在这方面是一致的(请参阅https://stats.stackexchange.com/questions/questions/24961/comparing-clusterings-clusterings-rand--rand----rand-------rand-----rand--------rand----rand--------rand---------rand-----------rand----------------------------索引-VS变量的信息)。

最新更新