我们在Amazon EMR中运行了一个大型Apache Spark应用程序。我试图摆脱日志文件中的所有警告消息。
当我们的应用程序启动时,我们将其制作程序的Python Sourcecode的zip文件,将其放入称为(此处)程序95923.zip的zip文件中,并使用--files $ZIPFILE
参数(其中$ZIPFILE
)为spark-submit
提供zip文件。我们创建的文件。
hm。看来我们还使用--py-files $ZIPFILE
向spark-submit
提供了Zipfile。我不确定我们为什么要提供两次;我没有写所有这些代码。
问题:
- 此警告很重要?
- 我们应该仅提供
--files
或--py-files
,而不是两个?
在官方火花文档中显示:
对于Python应用程序,只需通过一个.py文件代替 而不是罐子,然后添加python .zip,.egg或.py用-py文件。
将搜索路径文件文件
因此,只有--py-files $ZIPFILE
参数就足够了。
更新:
正如 @vy32已经提到的那样,该消息似乎来自Spark Yarn Client,特别是在第437行中:
https://github.com/apache/spark/spark/blob/master/resource-managers/yarn/yarn/src/main/main/scala/scala/org/apache/spark/spark/deploy/yarn/yarn/client.scala
此外,特定的警告不会影响执行对执行Spark作业的任何影响。