在 ArangoDB 中快速向文档添加边缘计数



不太复杂:我想计算每个文档的边缘并将数字保存在文档中。我想出了两个有效的查询;不幸的是,因为我有数百万条边,所以两者都很慢。有没有一种更快的方法来更新具有存储其边数的属性的文档?(只是一个时间点的计数)

功能正常但速度较慢的 AQL 查询:

FOR doc IN Documents
    LET inEdgesCount  = LENGTH(GRAPH_NEIGHBORS('edgeGraph', doc,{direction: 'inbound', maxDepth:1})
    LET outEdgesCount = LENGTH(GRAPH_NEIGHBORS('edgeGraph', doc,{direction: 'outbound', maxDepth:1})
    UPDATE doc WITH {inEdgesCount: inEdgesCount, outEdgesCount: outEdgesCount} In Documents

或:

FOR e IN Edges
    COLLECT docId = e._to WITH COUNT INTO counter
    UPDATE SPLIT(docId,'/')[1] WITH {inEdgeCount: counter}

(然后对出站边重复此操作)


顺便说一句,有没有办法查看查询速度(例如每秒执行次数)或完成百分比?我一直在尝试通过使用 LIMITed 查询来判断速度,但所需的时间似乎不是线性扩展的。

使用 ArangoDB 2.8,您可以使用图模式匹配遍历以更好的性能执行此操作:

FOR doc IN documents
  LET inEdgesCount = LENGTH(FOR v IN 1..1 INBOUND doc GRAPH 'edgeGraph' RETURN 1)
  LET outEdgesCount = LENGTH(FOR v IN 1..1 OUTBOUND doc GRAPH 'edgeGraph' RETURN 1)
  UPDATE doc WITH
     {inEdgesCount: inEdgesCount, outEdgesCount: outEdgesCount} In Documents

目前,ArangoDB没有办法监控长时间运行的任务的进度。在ArangoDB 3.0中,我们将引入一个新的监控功能,可以更好地检查服务器中实际发生的情况。但是,在 3.0 中,它将无法收集实时统计信息;我们可能会在今年晚些时候在3.x道路上看到这一点。对于创建索引等简单任务,判断完成百分比可能是可能的,但在查询中,它更像是到目前为止读取/写入的文档数量。

我们做了类似的查询来验证图形是否遵循幂律

最新更新