我目前正在尝试在EMR 6.1.0中添加一个进程,该进程将使用Spark在mysql中存储聚合数据。但是,当我实际运行Spark时,我得到以下错误:
Exception in thread "main" java.lang.RuntimeException: Failed to load class of driverClassName com.mysql.jdbc.
此错误在EMR 6.0.0中没有发生。在从EMR 6.0.0更新到6.1.0的过程中,我将Spark版本从2.4.4更改为3.0.0。代码本身没有明显的变化,我们知道这不是网络问题。
我花了很多时间浏览AWS文档,但似乎找不到任何提示。有人能帮我吗?
将MySQL连接器jar放在$SPARK_HOME/jars文件夹下,或者使用——jars标志在spark-shell/spark-submit命令中传递MySQL连接器jar路径。
Spark 3。x取决于HikariCP.
https://github.com/apache/spark/blob/v3.0.0/dev/deps/spark - deps hadoop - 3.2 -蜂巢L1 - 2.3 #
由于ClassLoader
,预加载的HikariCP无法加载您的应用程序类。
https://github.com/brettwooldridge/HikariCP/blob/HikariCP-2.5.1/src/main/java/com/zaxxer/hikari/HikariConfig.java L318
this.getClass().getClassLoader().loadClass(driverClassName)
如果你使用sbt- assembly插件,你应该添加shade
设置。
assembly / assemblyShadeRules := {
Seq("com.zaxxer.hikari").map { packageName =>
ShadeRule.rename(s"${packageName}.**" -> s"my_app_shade_package.${packageName}.@1").inAll
}
}