我目前已经在Hadoop中实现了,Hadoop是Google用于构建决策树的框架(也称为PLANET)。它从单个顶点开始,随着地图缩减作业的增加,您可以添加越来越多的内容,直到树完全构建。然而,一个主要问题是,许多map/reduce作业一个接一个地运行,因此一直启动新作业的成本非常高。
我多次看到Apache Hama适用于图形等迭代算法。有人可以用Hama构建一个新图,或者你只是输入一个图并对其进行一些计算吗?将我的项目转移到哈马会很容易吗?谢谢
Hama确实能够使用PLANET论文中描述的算法构建决策树,其方式比MapReduce更有效。
Hama不需要图形作为输入,你可以看看Hama ML(机器学习)模块,该模块通常将原始特征向量作为直接从HDFS输入。
对于Hama,我在Apache Jira中创建了一个新问题来跟踪该算法的进度。