如何在Spark引擎上运行Mahout作业

目前我正在使用Mahout RowSimilarity Job进行一些文档相似性分析。这可以很容易地从控制台中运行命令' mahout rowsimilarity…'来完成。然而，我注意到这个作业也支持在Spark引擎上运行。我想知道如何在Spark引擎上运行这个作业

您可以在spark中使用MLlib替代mahout。MLlib中的所有库都以分布式方式处理(Hadoop中的Map-reduce)。

在Mahout 0.10中使用spark提供作业执行。

更多细节Linkhttp://mahout.apache.org/users/sparkbindings/play-with-shell.html

步骤设置spark与mahout。

1进入解压目录，输入sbin/start-all.sh在本地启动Spark

2打开浏览器，登录http://localhost:8080/查看Spark是否启动成功。复制页面顶部的spark master的url(以spark://开头)

3定义以下环境变量:export MAHOUT_HOME=[签出Mahout的目录]export SPARK_HOME=[解压Spark的目录]export MASTER=[Spark MASTER的url]

4最后，切换到您解压缩Mahout的目录并键入bin/Mahout spark-shell，您应该看到shell正在启动并得到提示符Mahout>。

请访问链接。

相关内容