我正在使用 https://github.com/JanusGraph/janusgraph / https://github.com/vesoft-inc/nebula 来计算超大 dataset 的页面排名(数千亿页,数万亿条边)。每天有数以千万计的新页面被编入索引,我想将新页面添加到图表中并更新所有现有页面的页面排名(因为新页面可以包含指向以前索引页面的链接,反之亦然)。但是,我不想从头开始计算所有现有页面的 PageRank
。我只想将新数据输入系统并根据新数据计算现有页面的 PageRank
。换句话说,我不想每天从头开始执行相同的计算。
有没有办法保存现有的页面排名模型,以便我只需要计算新索引页面的 PageRank
而无需从头开始处理?
回答1
当然,下面的论文应该给出相关链接:https://www.researchgate.net/publication/340281398_DiffPageRank_an_efficient_differential_PageRank_approach_in_MapReduce
至于实现,Apache TinkerPop 允许运行自定义 https://tinkerpop.apache.org/docs/current/reference/#vertexprogram