使用Markov群集算法选择参数

我正在使用MCL进行聚类。我试图通过调整通货膨胀参数I和我引入的其他几个参数来"优化"质量分数的聚类。

我对此优化有疑问：

1）如果我错了，请纠正我：当我们尝试预测新输入的类时，使用交叉验证。因此，当所有输入都知道时，这个概念在聚类的背景下没有任何意义，我们只是试图重新组合它们

2）我计划使用不同的参数集进行实验，然后选择给我最好的结果的实验。但是，我阅读了有关clm close的信息，以及使用层次聚类并穿过树以找到最佳参数的可能性。我不熟悉层次聚类，但是此方法的表现如何仅仅比测试不同的参数？

至于（1）我会同意。至于（2），这是一个非常专业的评论，在开始一般探索性（群集）分析时没有要考虑的事情。

关于（1）的注释。如果您的数据已经分类（每个节点都带有标签），则可以将此分类视为聚类，并使用标准（例如信息的变化或拆分/加入距离）来查看数据群集与分类的匹配程度。这在一个特定数据集可用但不适合其他数据集的情况下可以很有用。这样一来，值得一提的是，一致性比精确性更重要。也就是说，数据群集可以是分类的（近）超级簇或亚簇，并且在这方面是一致的（请参阅https://stats.stackexchange.com/questions/questions/24961/comparing-clusterings-clusterings-rand--rand----rand-------rand-----rand--------rand----rand--------rand---------rand-----------rand----------------------------索引-VS变量的信息）。

相关内容

最新更新

热门标签：