是否可以在"Spark with Yarn"群集上运行任意 Python 或 R 脚本?



我正在尝试创建一个集群来执行一些大数据活动。我不确定"SPARK with YARN"集群是否可以运行Python或R脚本。

如果可能的话,运行这些脚本最简单的方法是什么?

谢谢。

您应该研究Hadoop Streaming,它允许您运行使用任意编程语言创建的Hadoop作业。您只需提供一对可执行文件(例如Python脚本(-一个用于映射阶段(从输入数据到一组中间键值对(,另一个用于减少阶段(从这些中间键值对到作业的输出(。

最新更新