我正在构建一个既可以在本地调试又可以部署到集群的Apache Spark应用程序。要做到这一点,我必须定义它对spark-core(一个Java/scala库)的依赖,以满足以下要求。
包含在编译中(否则编译失败)包含在运行和测试中(用于本地调试和单元测试)排除在汇编中(用于部署到提供spark-core的集群,这减少了70M的jar大小,我使用maven-shade插件来生成包含所有内容的jar,因为有一些jar hell问题无法使用maven-assembly解决)
不幸的是,maven不支持自定义作用域。是否有一种方法来启用它使用一些插件?
我们在maven构建中正是这样做的:将Spark程序集排除在作业程序集之外。我们在maven-shade
插件配置中添加了一个排除规则。
<configuration>
<shadedArtifactAttached>true</shadedArtifactAttached>
<shadedClassifierName>jar-with-dependencies</shadedClassifierName>
<artifactSet>
<excludes>
<exclude>org.apache.spark:spark-assembly</exclude>
</excludes>
</artifactSet>
...
</configuration>
您可以使用scope属性(提供的)来指定依赖项。
这很像compile,但表明您希望JDK或容器在运行时提供依赖项。例如,当为Java企业版构建web应用程序时,您将对Servlet API和相关Java EE API的依赖设置为提供的范围,因为web容器提供了这些类。此作用域仅在编译和测试类路径上可用,并且不可传递。
Ref: http://maven.apache.org/guides/introduction/introduction-to-dependency-mechanism.html#Dependency_Scope
,
<dependency>
<groupId>group-a</groupId>
<artifactId>artifact-b</artifactId>
<version>1.0</version>
<type>bar</type>
<scope>provided</scope>
</dependency>
您应该创建2个配置文件。1为您的想法与spark在编译范围(默认),另一个在您的构建期间使用(提供的范围)。
<profiles>
<profile>
<id>default-without-spark</id>
<activation>
<activeByDefault>true</activeByDefault>
</activation>
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<scope>provided</scope>
</dependency>
</dependencies>
</profile>
<profile>
<id>dev</id>
<dependencies>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
</dependency>
</dependencies>
</profile>
</profiles>
您将得到您想要的,而没有@maasg解决方案的缺点(所有spark传递依赖项都添加到最终的jar中)