我有一个火花程序,其中也使用了一些外部jar。编写程序后,从 maven build 创建了一个 jar 并将提交给 spark。
有一个疑问,我有 5 个节点集群。
一旦我提交我的火花代码罐到火花提交,那么我是否需要将我的依赖者罐复制到工作节点?
我可以知道依赖罐子的运动是如何工作的吗?
传递所需的 jar 文件列表,以:
分隔以激发配置属性spark.driver.extraClassPath
和spark.executor.extraClassPath
。
所需的 jar 将被复制到主节点和工作节点。
spark-submit
--conf "spark.driver.extraClassPath=/lib/<jar_file_a>.jar:/lib/<jar_file_a>.jar"
--conf "spark.executor.extraClassPath=/lib/<jar_file_a>.jar:/lib/<jar_file_a>.jar"
[...]