据我了解,通常很难为您的数据先验选择最佳的聚类方法,我们可以使用聚类有效性来比较不同聚类算法的结果,并选择验证分数最高的算法。
我在聚类分析结果中使用了 Rstats
包中的内部验证函数(对于聚类分析方法,我使用 Rigraph
fast.greedy
和walk.trap
)。 结果是许多验证分数的列表。
在列表中,几乎在每个验证中,快速贪婪方法的分数都比步行陷阱高,除了在entropy
步行陷阱方法的分数更高。
我可以使用此验证结果列表作为向其他人解释为什么我选择快速贪婪方法而不是步行陷阱方法的原因之一吗?
另外,有没有办法验证断开连接的图形?
简短回答:不!
不能使用内部索引来证明选择算法而不是另一种算法的合理性。为什么?
因为评估指标旨在评估聚类结果,即分区和层次结构。您只能使用它们来访问聚类的质量,因此证明其选择优于其他选项的合理性。但同样,你不能使用它们来证明根据之前的单个实验选择要应用于不同数据集的特定算法的合理性。
对于此任务,需要几个基准来确定哪些算法通常更好,应该首先尝试。这里有一些关于它的论文:社区检测算法:比较分析。
编辑:我要说的是,您的验证索引可能会表明fast.greed
的解决方案比walk.trap
的解决方案更好。但是,它们没有解释为什么您选择这些算法而不是任何其他算法。只有你的数据、你的假设和你的约束才能做到这一点。
另外,有没有办法验证断开连接的图形?
从理论上讲,任何评价指标都可以做到这一点。从技术上讲,某些实现不处理断开连接的组件。