我想使用如下函数将我的 Spark 数据帧保存到目录中spark_write_*
:
spark_write_csv(df, "file:///home/me/dir/")
但如果目录已经在那里,我会得到错误:
ERROR: org.apache.spark.sql.AnalysisException: path file:/home/me/dir/ already exists.;
当我处理相同的数据时,我想覆盖此目录 - 我如何实现这一点?在文档中有一个参数:
mode Specifies the behavior when data or table already exists.
但它没有说明你应该使用什么值。
参数mode
应该只有值"overwrite"
:
spark_write_csv(df, "file:///home/me/dir/", mode = "overwrite")