用于按比例持久化图形的NoSQL解决方案



我迷上了使用Python和NetworkX来分析图,随着我学习得越来越多,我想使用越来越多的数据(我想我正在成为一个数据迷:-)。最终,我认为我的NetworkX图(存储为dict的dict)将超过我系统上的内存。我知道我可能只需要添加更多的内存,但我想知道是否有办法将NetworkX与Hbase或类似的解决方案集成?

我环顾四周,找不到任何东西,但也找不到与允许简单MySQL后端相关的东西。

这可能吗?是否存在允许连接到某种持久存储的任何东西?

更新

我记得在"初创企业社交网络分析"中看到过这个主题,作者谈到了其他存储方法(包括hbase、s3等),但没有说明如何做到这一点,也没有说明是否可能。

存储图形的容器有两种常见类型:

  1. 真图数据库:例如Neo4JagamemnonGraphDBAllegroGraph;它们不仅存储了一个图,而且还了解图是什么,因此,例如,您可以查询数据库,例如从节点X和节点Y

  2. 静态图容器:Twitter的MySQL适配FlockDB就是这里最著名的例子。这些数据库可以存储和检索图形刚刚好;但是要查询图形本身,您必须首先从数据库中检索图形,然后使用库(例如Python的优秀的Networkx)来查询图本身。

我下面讨论的基于redis的图形容器属于第二类,尽管redis显然也非常适合第一类容器,redis图就是一个非常小的python包,用于在redis中实现图形数据库。

redis在这里会很好地工作。

Redis是一个适合生产使用的重载、持久的数据存储,但它也足够简单,可以用于命令行分析。

Redis不同于其他数据库,它有多种数据结构类型;我在这里推荐的是hash数据类型。使用这个redis数据结构可以非常接近地模拟"字典列表",这是一种用于存储图形的传统模式,其中列表中的每个项目都是一个边的字典,这些边被键控到这些边的来源节点。

您需要首先安装redis和python客户端。DeGizmo博客有一个出色的"启动和运行"教程,其中包括关于安装这两个程序的分步指南。

安装redis及其python客户端后,启动redis服务器,您可以这样做:

  • cd到您安装redis的目录(/usr/local/bin在'nix上,如果您是通过make-install安装的);下一个

  • 在shell提示符下键入redis server,然后输入

您现在应该可以在shell窗口上看到服务器日志文件

>>> import numpy as NP
>>> import networkx as NX
>>> # start a redis client & connect to the server:
>>> from redis import StrictRedis as redis
>>> r1 = redis(db=1, host="localhost", port=6379)

在下面的片段中,我存储了一个四节点图;下面的每一行在redis客户端上调用hmset,并存储一个节点和连接到该节点的边("0"=>无边,"1"=>边)。(当然,在实践中,你会在一个函数中抽象这些重复的调用;这里我展示每个调用,因为这样可能更容易理解。)

>>> r1.hmset("n1", {"n1": 0, "n2": 1, "n3": 1, "n4": 1})
      True
>>> r1.hmset("n2", {"n1": 1, "n2": 0, "n3": 0, "n4": 1})
      True
>>> r1.hmset("n3", {"n1": 1, "n2": 0, "n3": 0, "n4": 1})
      True
>>> r1.hmset("n4", {"n1": 0, "n2": 1, "n3": 1, "n4": 1})
      True
>>> # retrieve the edges for a given node:
>>> r1.hgetall("n2")
      {'n1': '1', 'n2': '0', 'n3': '0', 'n4': '1'}

现在该图已持久化,请将其作为NetworkX图从redisDB中检索。

有很多方法可以做到这一点,下面是在两个*步骤*中完成的:

  1. 将来自redis数据库的数据提取到邻接矩阵中,实现为2D NumPy阵列;然后

  2. 使用NetworkX将其直接转换为NetworkX图形内置功能:

简化为代码,这两个步骤是:

>>> AM = NP.array([map(int, r1.hgetall(node).values()) for node in r1.keys("*")])
>>> # now convert this adjacency matrix back to a networkx graph:
>>> G = NX.from_numpy_matrix(am)
>>> # verify that G in fact holds the original graph:
>>> type(G)
      <class 'networkx.classes.graph.Graph'>
>>> G.nodes()
      [0, 1, 2, 3]
>>> G.edges()
      [(0, 1), (0, 2), (0, 3), (1, 3), (2, 3), (3, 3)]

当您结束redis会话时,您可以从客户端关闭服务器,如下所示:

>>> r1.shutdown()

redis在磁盘关闭前保存到磁盘,因此这是确保所有写入都被持久化的好方法。

那么redis数据库在哪里呢?它使用默认文件名存储在默认位置,即主目录上的dump.rdb

要更改此设置,请编辑redis.conf文件(包含在redis源发行版中);转到以开头的行

# The filename where to dump the DB
dbfilename dump.rdb

将dump.rdb更改为您想要的任何内容,但保留.rdb扩展名。

接下来,要更改文件路径,请在redis.conf中找到这一行:

# Note that you must specify a directory here, not a file name

下面的行是redis数据库的目录位置。编辑它,使其背诵您想要的位置。保存您的修订并重命名此文件,但保留.conf扩展名。您可以将此配置文件存储在任何您想要的位置,只需在启动redis服务器时在同一行提供此自定义配置文件的完整路径和名称即可:

因此,下次启动redis服务器时,必须这样做(从shell提示符:

$> cd /usr/local/bin    # or the directory in which you installed redis 
$> redis-server /path/to/redis.conf

最后,Python包索引列出了一个专门用于在redis中实现图形数据库的包。这个包被称为redis图,我没有使用过它。

有一个SQLlite3支持的NetworkX实现,名为Cloudlight。https://www.assembla.com/spaces/cloudlight/wiki/Tutorial

我很想看看使用硬盘的最佳方式。在过去,我制作了多个图形,并将它们保存为.dot文件。然后不知怎么地把其中的一些混在了记忆中。但这不是最好的解决方案。

from random import random
import networkx as nx
def make_graph():
    G=nx.DiGraph()
    N=10
    #make a random graph
    for i in range(N):
        for j in range(i):
            if 4*random()<1:
                G.add_edge(i,j)
    nx.write_dot(G,"savedgraph.dot")
    return G
try:
    G=nx.read_dot("savedgraph.dot")
except:
    G=make_graph() #This will fail if you don't use the same seed but have created the graph in the past. You could use the Singleton design pattern here.
print G.adj

最新更新