我正在使用JanusGraph/Nebula Graph来计算一个超大数据集(数千亿页,数万亿边)的页面排名。每天都有数以千万计的新页面被编入索引。我想将新页面添加到图中,并更新所有现有页面的页面排名(因为新页面可以包含指向先前索引页面的链接,反之亦然)。但是,我不希望从头开始计算所有现有页面的PageRank
。我只想将新数据输入系统,并根据新数据计算现有页面的PageRank
。换句话说,我不想每天从头开始执行相同的计算。
是否有一种方法可以保存现有的页面排名模型,以便我只需要计算新索引页面的PageRank
w/o从头开始处理?
当然,下面的文章应该给出相关链接:https://www.researchgate.net/publication/340281398_DiffPageRank_an_efficient_differential_PageRank_approach_in_MapReduce
关于实现,Apache TinkerPop允许运行自定义的VertexProgram