我对Spark和Scala的开发非常天真。
我能够使用如下所示的配置方法在 Spark 会话的运行时设置属性 -
val spark = SparkSession.builder()
.master("local")
.config("spark.files.overwrite",true)
上面的代码将允许我在 Spark 会话级别设置属性,但我想在数据帧级别设置属性。关于这一点,我有几个问题:
- 有什么方法可以做到这一点吗?
- 如果是,是否会影响Spark实现的并行性?
在
编写以下内容时,您可以使用不同的格式(以及是否使用覆盖):
带压缩的 CSV:
df.coalesce(1).write.format("com.databricks.spark.csv").mode("overwrite")
.option("header","true")
.option("codec","org.apache.hadoop.io.compress.GzipCodec").save(tempLocationFileName)
不带压缩的 CSV:
df.coalesce(1).write.format("com.databricks.spark.csv").mode("overwrite")
.option("header","true")
.save(tempLocationFileName)