在数据帧上设置 Spark 属性



我对Spark和Scala的开发非常天真。

我能够使用如下所示的配置方法在 Spark 会话的运行时设置属性 -

val spark = SparkSession.builder()
  .master("local")
  .config("spark.files.overwrite",true)

上面的代码将允许我在 Spark 会话级别设置属性,但我想在数据帧级别设置属性。关于这一点,我有几个问题:

  1. 有什么方法可以做到这一点吗?
  2. 如果是,是否会影响Spark实现的并行性?

编写以下内容时,您可以使用不同的格式(以及是否使用覆盖):

带压缩的 CSV:

df.coalesce(1).write.format("com.databricks.spark.csv").mode("overwrite")
.option("header","true")
.option("codec","org.apache.hadoop.io.compress.GzipCodec").save(tempLocationFileName)

不带压缩的 CSV:

df.coalesce(1).write.format("com.databricks.spark.csv").mode("overwrite")
.option("header","true")
.save(tempLocationFileName)

相关内容

  • 没有找到相关文章

最新更新