如何在 pyspark anaconda 中添加 jar 文件?

from pyspark.sql import Row
from pyspark import SparkConf, SparkContext
conf=SparkConf().setAppName("2048roject").setMaster("local[*]")
.set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g")
sc=SparkContext.getOrCreate(conf)
dfv = sc.textFile("./part-001*.gz")

我已经通过 anaconda 安装了 pyspark ，我可以在 anaconda python 中导入 pyspark。但是我不知道如何在conf中添加jar文件.

我试过了

conf=SparkConf().setAppName("2048roject").setMaster("local[*]")
.set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g").set('spark.jars.packages','file:///XXX,jar')

但它不起作用。有什么正确的方法可以在这里添加jar文件吗？

文档说：

spark.jars.packages：要包含在驱动程序和执行器类路径上的 jar 的 Maven 坐标的逗号分隔列表。坐标应为 groupId：artifactId：version。如果给定 spark.jars.ivySettings 将根据文件中的配置解析工件，否则将在本地 maven 存储库中搜索工件，然后搜索 maven central，最后是命令行选项 --repository 给出的任何其他远程存储库。有关详细信息，请参阅高级依赖项管理。

相反，您应该简单地使用spark.jars：

spark.jars：要包含在驱动程序和执行器类路径上的逗号分隔的 jar 列表。允许使用球体。

所以：

conf=SparkConf().setAppName("2048roject").setMaster("local[*]")
.set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g").set('spark.jars.files','file:///XXX.jar')

相关内容

最新更新

热门标签：