我有一个50 × 50的矩阵,表示50个期刊及其相关性。现在,我正在尝试绘制图表,根据数据显示这50种期刊属于哪个集群。
1)我更喜欢使用完全链接或Ward的方法来做聚类。2)我不知道从哪里开始聚类,因为scikit-learn中的文档对我来说太技术化了你能帮我开个车吗?
事先非常感谢……
我所有的数据落在-1和1之间,因为它是相关系数。
数据样本示例(50*50):
data = [[1]0.49319094 0.58838586…, 0.11433441 0.64501840.60842821)
[0.49319094]0.39311674……, -0.00795401 0.429445970.68855177)
[0.58838586 0.39311674 1. ...。, 0.39785574 0.8643220.68910632)
…
[0.11433441 -0.00795401 0.39785574…]1。0.386234740.34228516)
[0.6450184 0.42944597 0.864322…], 0.386234740.65408474)
[0.60842821 0.68855177 0.68910632…], 0.34228516 0.65408474]]
Python期望距离,即低值更好。
Ward是为平方欧几里得设计的,所以虽然它可能与相关性有关,但理论支持可能很弱。完整的链接将被支持。
负相关呢?你想怎么处理它们?
我相信我知道三种流行的转换:
-
1 - p**2
(取决于实现,这可能是Ward的一个很好的选择,因为正方形) -
1 - abs(p)
-
1 - p
(这将把负相关视为坏的!)
确保将度量设置为precomputed
。并习惯阅读sklearn文档。这是你会发现的最不专业的东西之一,所以你最好自己变得更专业一些。