基于相关系数的Python分层聚类



我有一个50 × 50的矩阵,表示50个期刊及其相关性。现在,我正在尝试绘制图表,根据数据显示这50种期刊属于哪个集群。

1)我更喜欢使用完全链接或Ward的方法来做聚类。2)我不知道从哪里开始聚类,因为scikit-learn中的文档对我来说太技术化了你能帮我开个车吗?

事先非常感谢……

我所有的数据落在-1和1之间,因为它是相关系数。

数据样本示例(50*50):

data = [[1]0.49319094 0.58838586…, 0.11433441 0.64501840.60842821)

[0.49319094]0.39311674……, -0.00795401 0.429445970.68855177)

[0.58838586 0.39311674 1. ...。, 0.39785574 0.8643220.68910632)

[0.11433441 -0.00795401 0.39785574…]1。0.386234740.34228516)

[0.6450184 0.42944597 0.864322…], 0.386234740.65408474)

[0.60842821 0.68855177 0.68910632…], 0.34228516 0.65408474]]

Python期望距离,即低值更好。

Ward是为平方欧几里得设计的,所以虽然它可能与相关性有关,但理论支持可能很弱。完整的链接将被支持。

负相关呢?你想怎么处理它们?

我相信我知道三种流行的转换:

  1. 1 - p**2(取决于实现,这可能是Ward的一个很好的选择,因为正方形)
  2. 1 - abs(p)
  3. 1 - p(这将把负相关视为坏的!)

确保将度量设置为precomputed。并习惯阅读sklearn文档。这是你会发现的最不专业的东西之一,所以你最好自己变得更专业一些。

相关内容

  • 没有找到相关文章

最新更新