RHadoop vs. Apache Mahout



我想开始开发一个大数据推荐系统,比如每天2GB的日志数据。为此,在 Rhadoop 和 Apache Mahout 之间,哪一个更受欢迎?

请从不同方面回答这个问题,例如代码的可用性、速度等。

如果你知道R并且你的数据不是那么大,请尝试SparkR,但大多数庞大的R包集合不能与Spark分布式数据很好地集成。

如果你有大数据,可以使用类似R的Scala API,那么Mahout更好。您可以对示例数据进行数学运算,相同的代码将自动扩展到生产规模。

最新更新