我正在尝试创建一个集群来执行一些大数据活动。我不确定"SPARK with YARN"集群是否可以运行Python或R脚本。
如果可能的话,运行这些脚本最简单的方法是什么?
谢谢。
您应该研究Hadoop Streaming,它允许您运行使用任意编程语言创建的Hadoop作业。您只需提供一对可执行文件(例如Python脚本(-一个用于映射阶段(从输入数据到一组中间键值对(,另一个用于减少阶段(从这些中间键值对到作业的输出(。
我正在尝试创建一个集群来执行一些大数据活动。我不确定"SPARK with YARN"集群是否可以运行Python或R脚本。
如果可能的话,运行这些脚本最简单的方法是什么?
谢谢。
您应该研究Hadoop Streaming,它允许您运行使用任意编程语言创建的Hadoop作业。您只需提供一对可执行文件(例如Python脚本(-一个用于映射阶段(从输入数据到一组中间键值对(,另一个用于减少阶段(从这些中间键值对到作业的输出(。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium