将同一个jar与Spark-submit一起使用



我通过使用我的jar文件在纱线集群模式下部署作业。每次我使用"相同的 jar 文件"提交时都部署了作业,但每次提交时它都会上传到 hadoop。我认为每次都上传同一个罐子是不必要的例行公事。有没有办法上传一次并用罐子做纱线工作?

你可以把你的火花罐放在hdfs中,然后使用--master yarn-cluster模式,这样你可以节省每次将jar上传到hdfs所需的时间。

其他替代方法是将 jar 放在每个节点上的 Spark 类路径中,这具有以下缺点:

  1. 如果您有超过 30 个节点,则在每个节点中 scp 您的 jar 将非常乏味。
  2. 如果你的hadoop集群升级,并且有一个新的火花安装,你将不得不重新安装。

相关内容

  • 没有找到相关文章

最新更新