我通过使用我的jar文件在纱线集群模式下部署作业。每次我使用"相同的 jar 文件"提交时都部署了作业,但每次提交时它都会上传到 hadoop。我认为每次都上传同一个罐子是不必要的例行公事。有没有办法上传一次并用罐子做纱线工作?
你可以把你的火花罐放在hdfs中,然后使用--master yarn-cluster模式,这样你可以节省每次将jar上传到hdfs所需的时间。
其他替代方法是将 jar 放在每个节点上的 Spark 类路径中,这具有以下缺点:
- 如果您有超过 30 个节点,则在每个节点中 scp 您的 jar 将非常乏味。
- 如果你的hadoop集群升级,并且有一个新的火花安装,你将不得不重新安装。