是否可以使用spark-submit -package广播Tensorflow库?



我使用的集群不是我自己管理的。Tensorflow库没有安装在任何集群节点上。但我想运行一些Spark程序使用tensorflow包。我不确定是否可以简单地使用spark-submit -packages来跨集群节点广播tensorflow包。

我不确定Tensorflow本身,但是您可以使用--jars传递本地jar和使用--files传递文件到作业。下面是一个例子:

spark-submit --master yarn-cluster --num-executors 5 --driver-memory 640m --executor-memory 640m --conf spark.yarn.maxAppAttempts=1000 
    --jars /usr/hdp/current/spark-client-1.6.1/lib/datanucleus-api-jdo-3.2.6.jar,/usr/hdp/current/spark-client-1.6.1/lib/datanucleus-core-3.2.10.jar,/usr/hdp/current/spark-client-1.6.1/lib/datanucleus-rdbms-3.2.9.jar  
    --files /usr/hdp/current/spark-client-1.6.1/conf/hive-site.xml 
    --class com.foobar.main

这是一个我如何启动spark流作业的例子,并且Application Master和Driver运行在没有安装spark的集群上。所以我需要传递一个长一些jar和配置为它运行。

最新更新