在纱线和 - 总体选项上发生火花



我正在尝试利用spark-on-yarn中可用的 - 算法选项,以便上传存档文件。根据文档&如此问题所述,纱线不仅将上传zip文件,而且还将自动在工作节点上的zip文件不构建。

从日志中,我可以看到纱线正在将罐子上传到Spark的登台目录中,例如

17/09/19 01:28:57 INFO Client: Uploading resource file:/home/foo/bar/zoo.zip -> hdfs://abc.foo.bar:8020/user/xyz/.sparkStaging/application_1503584958553_4501/zoo.zip

我面临的问题是,尽管ZIP文件已复制到Spark staging目录中,但它并没有自动变得不可自动&我猜它也没有在工人节点中复制。

假设纱线是否会不构建zip文件,是否有一种方法可以通过编程方式访问Worker节点的位置?

我正在运行Spark 2.2对EMR 5.8的纱线2.7。

要将zip缩成所需的目录,您需要给出以下值

--archives src.zip#src

这意味着src.zip将被上传到所有执行者,并未构建为" src"。目录。使其更清晰的另一个示例 -

--archives src.zip#abc

如果您更改上面的目录名称(字符串之后),则现在src.zip将不在" ABC"中。目录。

相关内容

  • 没有找到相关文章

最新更新