是否警告客户端:相同的路径资源文件:///tmp/programs95923.zip在分布式缓存物质中添加了多次



我们在Amazon EMR中运行了一个大型Apache Spark应用程序。我试图摆脱日志文件中的所有警告消息。

当我们的应用程序启动时,我们将其制作程序的Python Sourcecode的zip文件,将其放入称为(此处)程序95923.zip的zip文件中,并使用--files $ZIPFILE参数(其中$ZIPFILE)为spark-submit提供zip文件。我们创建的文件。

hm。看来我们还使用--py-files $ZIPFILEspark-submit提供了Zipfile。我不确定我们为什么要提供两次;我没有写所有这些代码。

问题:

  1. 此警告很重要?
  2. 我们应该仅提供--files--py-files,而不是两个?

在官方火花文档中显示:

对于Python应用程序,只需通过一个.py文件代替 而不是罐子,然后添加python .zip,.egg或.py用-py文件。

将搜索路径文件文件

因此,只有--py-files $ZIPFILE参数就足够了。

更新:

正如 @vy32已经提到的那样,该消息似乎来自Spark Yarn Client,特别是在第437行中:

https://github.com/apache/spark/spark/blob/master/resource-managers/yarn/yarn/src/main/main/scala/scala/org/apache/spark/spark/deploy/yarn/yarn/client.scala

此外,特定的警告不会影响执行对执行Spark作业的任何影响。

最新更新