如何将 1200 万交互网络分解为子网络



我有一个 3 列列表,它代表具有以下结构的网络:

geneA geneB Spearman_Value

有1200万次互动构成了这个列表。 我想找到存在于这个更大的网络中的子网络,其中斯皮尔曼值相似。 我一直在想做的是将列表分解成许多不同的部分,并使用与我们的计算集群不同的节点来处理每个部分。 一个问题是节点需要能够看到列表的其他部分,以确定它们正在查看的交互是否是其他子网络的一部分。 起初我认为我应该使用哈希,因为它允许在 O(1) 时间内进行搜索,但这会导致键和/或值的过度写入。 我一直在考虑创建一个数据结构,其中每个子网都是一个链表,并且它们都以一些更大的结构(如哈希)联系在一起。我不确定这是否有意义,因为我不知道如何以某种方式使每个密钥以任何有意义的方式识别不同的子网。

最后,

我们使用wcgna来解决这个问题,并在我们的集群上执行了工作:世界卫生总会

最新更新