所以我对GraphX pagerank实现有点困惑。
https://github.com/apache/spark/blob/feaa07802203b79f454454445c0a12a2784ccfeb/graphx/src/main/scala/org/apache/spark/graphx/lib/PageRank.scala#L115-L160
特别是,第 #138 行,https://github.com/apache/spark/blob/feaa07802203b79f454454445c0a12a2784ccfeb/graphx/src/main/scala/org/apache/spark/graphx/lib/PageRank.scala#L138。
为什么顶点的页面排名没有定义为
resetProb + (1.0 - resetProb) * msgSum
而不是
oldPR + (1.0 - resetProb) * msgSum
谁能解释这种差异?链接也没有指向 master,抱歉,如果有人对此感到困惑,但是,master 仍然具有相同的代码。
意义?
resetProb + (1.0 - resetProb) * msgSum
resetProb 在算法执行期间不会更改(默认情况下为 0.15)。所以它只是一个常数。为什么您认为向每个顶点的页面排名添加常量是有意义的。