from pyspark.sql import Row
from pyspark import SparkConf, SparkContext
conf=SparkConf().setAppName("2048roject").setMaster("local[*]")
.set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g")
sc=SparkContext.getOrCreate(conf)
dfv = sc.textFile("./part-001*.gz")
我已经通过 anaconda 安装了 pyspark ,我可以在 anaconda python 中导入 pyspark。但是我不知道如何在conf
中添加jar文件.
我试过了
conf=SparkConf().setAppName("2048roject").setMaster("local[*]")
.set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g").set('spark.jars.packages','file:///XXX,jar')
但它不起作用。 有什么正确的方法可以在这里添加jar文件吗?
文档说:
spark.jars.packages:要包含在驱动程序和执行器类路径上的 jar 的 Maven 坐标的逗号分隔列表。坐标应为 groupId:artifactId:version。如果给定 spark.jars.ivySettings 将根据文件中的配置解析工件,否则将在本地 maven 存储库中搜索工件,然后搜索 maven central,最后是命令行选项 --repository 给出的任何其他远程存储库。有关详细信息,请参阅高级依赖项管理。
相反,您应该简单地使用spark.jars
:
spark.jars:要包含在驱动程序和执行器类路径上的逗号分隔的 jar 列表。允许使用球体。
所以:
conf=SparkConf().setAppName("2048roject").setMaster("local[*]")
.set("spark.driver.maxResultSize", "80g").set("spark.executor.memory", "5g").set("spark.driver.memory", "60g").set('spark.jars.files','file:///XXX.jar')