用于按比例持久化图形的NoSQL解决方案

我迷上了使用Python和NetworkX来分析图，随着我学习得越来越多，我想使用越来越多的数据（我想我正在成为一个数据迷：-）。最终，我认为我的NetworkX图（存储为dict的dict）将超过我系统上的内存。我知道我可能只需要添加更多的内存，但我想知道是否有办法将NetworkX与Hbase或类似的解决方案集成？

我环顾四周，找不到任何东西，但也找不到与允许简单MySQL后端相关的东西。

这可能吗？是否存在允许连接到某种持久存储的任何东西？

更新

我记得在"初创企业社交网络分析"中看到过这个主题，作者谈到了其他存储方法（包括hbase、s3等），但没有说明如何做到这一点，也没有说明是否可能。

存储图形的容器有两种常见类型：

真图数据库：例如Neo4J、agamemnon，GraphDB和AllegroGraph；它们不仅存储了一个图，而且还了解图是什么，因此，例如，您可以查询数据库，例如从节点X和节点Y？
静态图容器：Twitter的MySQL适配FlockDB就是这里最著名的例子。这些数据库可以存储和检索图形刚刚好；但是要查询图形本身，您必须首先从数据库中检索图形，然后使用库（例如Python的优秀的Networkx）来查询图本身。

我下面讨论的基于redis的图形容器属于第二类，尽管redis显然也非常适合第一类容器，redis图就是一个非常小的python包，用于在redis中实现图形数据库。

redis在这里会很好地工作。

Redis是一个适合生产使用的重载、持久的数据存储，但它也足够简单，可以用于命令行分析。

Redis不同于其他数据库，它有多种数据结构类型；我在这里推荐的是hash数据类型。使用这个redis数据结构可以非常接近地模拟"字典列表"，这是一种用于存储图形的传统模式，其中列表中的每个项目都是一个边的字典，这些边被键控到这些边的来源节点。

您需要首先安装redis和python客户端。DeGizmo博客有一个出色的"启动和运行"教程，其中包括关于安装这两个程序的分步指南。

安装redis及其python客户端后，启动redis服务器，您可以这样做：

cd到您安装redis的目录（/usr/local/bin在'nix上，如果您是通过make-install安装的）；下一个
在shell提示符下键入redis server，然后输入

您现在应该可以在shell窗口上看到服务器日志文件

>>> import numpy as NP
>>> import networkx as NX
>>> # start a redis client & connect to the server:
>>> from redis import StrictRedis as redis
>>> r1 = redis(db=1, host="localhost", port=6379)

在下面的片段中，我存储了一个四节点图；下面的每一行在redis客户端上调用hmset，并存储一个节点和连接到该节点的边（"0"=>无边，"1"=>边）。（当然，在实践中，你会在一个函数中抽象这些重复的调用；这里我展示每个调用，因为这样可能更容易理解。）

>>> r1.hmset("n1", {"n1": 0, "n2": 1, "n3": 1, "n4": 1})
      True
>>> r1.hmset("n2", {"n1": 1, "n2": 0, "n3": 0, "n4": 1})
      True
>>> r1.hmset("n3", {"n1": 1, "n2": 0, "n3": 0, "n4": 1})
      True
>>> r1.hmset("n4", {"n1": 0, "n2": 1, "n3": 1, "n4": 1})
      True
>>> # retrieve the edges for a given node:
>>> r1.hgetall("n2")
      {'n1': '1', 'n2': '0', 'n3': '0', 'n4': '1'}

现在该图已持久化，请将其作为NetworkX图从redisDB中检索。

有很多方法可以做到这一点，下面是在两个*步骤*中完成的：

将来自redis数据库的数据提取到邻接矩阵中，实现为2D NumPy阵列；然后
使用NetworkX将其直接转换为NetworkX图形内置功能：

简化为代码，这两个步骤是：

>>> AM = NP.array([map(int, r1.hgetall(node).values()) for node in r1.keys("*")])
>>> # now convert this adjacency matrix back to a networkx graph:
>>> G = NX.from_numpy_matrix(am)
>>> # verify that G in fact holds the original graph:
>>> type(G)
      <class 'networkx.classes.graph.Graph'>
>>> G.nodes()
      [0, 1, 2, 3]
>>> G.edges()
      [(0, 1), (0, 2), (0, 3), (1, 3), (2, 3), (3, 3)]

当您结束redis会话时，您可以从客户端关闭服务器，如下所示：

>>> r1.shutdown()

redis在磁盘关闭前保存到磁盘，因此这是确保所有写入都被持久化的好方法。

那么redis数据库在哪里呢？它使用默认文件名存储在默认位置，即主目录上的dump.rdb。

要更改此设置，请编辑redis.conf文件（包含在redis源发行版中）；转到以开头的行

# The filename where to dump the DB
dbfilename dump.rdb

将dump.rdb更改为您想要的任何内容，但保留.rdb扩展名。

接下来，要更改文件路径，请在redis.conf中找到这一行：

# Note that you must specify a directory here, not a file name

下面的行是redis数据库的目录位置。编辑它，使其背诵您想要的位置。保存您的修订并重命名此文件，但保留.conf扩展名。您可以将此配置文件存储在任何您想要的位置，只需在启动redis服务器时在同一行提供此自定义配置文件的完整路径和名称即可：

因此，下次启动redis服务器时，必须这样做（从shell提示符：

$> cd /usr/local/bin    # or the directory in which you installed redis 
$> redis-server /path/to/redis.conf

最后，Python包索引列出了一个专门用于在redis中实现图形数据库的包。这个包被称为redis图，我没有使用过它。

有一个SQLlite3支持的NetworkX实现，名为Cloudlight。https://www.assembla.com/spaces/cloudlight/wiki/Tutorial

我很想看看使用硬盘的最佳方式。在过去，我制作了多个图形，并将它们保存为.dot文件。然后不知怎么地把其中的一些混在了记忆中。但这不是最好的解决方案。

from random import random
import networkx as nx
def make_graph():
    G=nx.DiGraph()
    N=10
    #make a random graph
    for i in range(N):
        for j in range(i):
            if 4*random()<1:
                G.add_edge(i,j)
    nx.write_dot(G,"savedgraph.dot")
    return G
try:
    G=nx.read_dot("savedgraph.dot")
except:
    G=make_graph() #This will fail if you don't use the same seed but have created the graph in the past. You could use the Singleton design pattern here.
print G.adj

更新

相关内容

最新更新

热门标签：