用NetworkX实现二分投影和写入CSV——如何加快写入处理大文件的速度



我有一个相当大的文件(300万行),每一行都是一个人对事件的关系。最后,我想将这个二部网络投影到一个单模、加权的网络上,并将其写入CSV文件。我使用的是NetworkX,我已经在一个小得多的样本数据集上测试了我的代码,它可以正常工作。然而,当我扩展到我的实际数据集时,我的计算机只是内存最大化,旋转,旋转,但没有任何进展。

我正在使用具有32GB内存的AWS EC2机器。

经过一些样本测试后,我很确定在图形投影后的最后一步中,事情被挂起了,并且它正在被写入CSV文件。我曾尝试将文件分解成块,但后来我遇到了缺少边的问题,或者正确地将边权加在一起。但我认为更好的解决方案是找到一种方法来加速将投影图写入CSV。

原始数据的更多信息:有些活动只有一个人参加,而其他活动有5000人参加。因此,当二部网络折叠成单模网络时,将会产生大量的边(我预测约50M)。

使用NetworkX规划二部网络并写入CSV的代码

# import modules
import time
import csv
import networkx as nx
from networkx.algorithms import bipartite
startTime = datetime.datetime.now()
# rename files
infile = 'bipartite_network.csv'
name_outfile = infile.replace('.csv', '_nameFolded.csv.')
print 'Files renamed at: ' + str(datetime.datetime.now() - startTime)
# load CSV into a dict
with open(infile, 'rb') as csv_file:
    rawData = list(csv.DictReader(csv_file))
print 'Files loaded at: ' + str(datetime.datetime.now() - startTime)
# create edgelist for Name -x- Event relationships
edgelist = []
for i in rawData:
    edgelist.append(
    (i['Event'],
     i['Name'])    
    )
print 'Bipartite edgelist created at: ' + str(datetime.datetime.now() - startTime)
# deduplicate edgelist
edgelist = sorted(set(edgelist))
print 'Bipartite edgelist deduplicated at: ' + str(datetime.datetime.now() - startTime)
# create a unique list of Name and Event for nodes
Event = sorted(set([i['Event'] for i in rawData]))
Name = sorted(set([i['Name'] for i in rawData]))
print 'Node entities deduplicated at: ' + str(datetime.datetime.now() - startTime)
# add nodes and edges to a graph
B = nx.Graph()
B.add_nodes_from(Event, bipartite=0)
B.add_nodes_from(Name, bipartite=1)
B.add_edges_from(edgelist)
print 'Bipartite graph created at: ' + str(datetime.datetime.now() - startTime)
# create bipartite projection graph
name_nodes, event_nodes = bipartite.sets(B)
event_nodes = set(n for n,d in B.nodes(data=True) if d['bipartite']==0)
name_nodes = set(B) - event_nodes
name_graph = bipartite.weighted_projected_graph(B, name_nodes)
print 'Single-mode projected graph created at: ' + str(datetime.datetime.now() - startTime)
# write graph to CSV
nx.write_weighted_edgelist(name_graph, name_outfile, delimiter=',')
print 'Single-mode weighted edgelist to CSV: ' + str(datetime.datetime.now() -    startTime)
endTime = datetime.datetime.now()
print 'Run time: ' + str(endTime - startTime)

使用Pandas编写投影边列表,但缺少边权?

我考虑过使用pandasname_graph写入CSV。这是加速写入到CSV过程的一个好选择吗?

import pandas as pd
df = pd.DataFrame(name_graph.edges(data=True))
df.to_csv('foldedNetwork.csv')

以下是我在网络讨论邮件列表中的建议:

import networkx as nx
B = nx.Graph()
B.add_edge('a',1)
B.add_edge('a',2)
B.add_edge('b',1)
B.add_edge('b',2)
B.add_edge('b',3)
B.add_edge('c',3)
nodes = ['a','b','c']
seen = set()
for u in nodes:
#    seen=set([u]) # print both u-v, and v-u
    seen.add(u) # don't print v-u
    unbrs = set(B[u])
    nbrs2 = set((n for nbr in unbrs for n in B[nbr])) - seen
    for v in nbrs2:
        vnbrs = set(B[v])
        common = unbrs & vnbrs
        weight = len(common)
        print("%s, %s, %d"%(u,v,weight))

最新更新