调整后的相互信息(scikit-learn)



我已经实现了一种用于汇总日志文件的聚类算法,目前正在使用调整后的兰德指数和调整后的互信息指数针对真实数据对其进行测试。

我的算法的输入是日志条目列表,输出是整数列表(每个项目所属的集群标签)。基本事实同样是一个整数列表,其中每个整数表示项目所属的真实聚类。对于我的大多数测试用例,我收到正常/预期的结果,但一个文件给了我意外的输出。我附上了两个列表,即地面事实聚类以及我的算法的列表:

地面实况列表:http://pastebin.com/9Y5TE6b7

自己的集群:http://pastebin.com/hJz1M4sf

这两个列表被输入到scikit-learn函数中,以获得ARI和AMI。ARI 分数看起来大致正确,但 AMI 高于 1,如果我理解正确,根据 AMI 的文档和定义,这应该是不可能的。这个数据集是高度不平衡的,但我的许多其他文件也是类似的平衡。我想不通。作为参考,我得到的 ARI 和 AMI 分数是:

ARI: 0.99642743999922712

AMI: 1.0190170466324

这已在开发版本中修复。

相关内容

  • 没有找到相关文章

最新更新