小贝子编程

用Apache Spark笔记本在Bluemix对象存储中重写Parquet文件

本文关键字：存储重写 Parquet 文件对象 Bluemix Apache Spark 笔记本 apache-spark ipython ibm-cloud parquet object-storage
更新时间 : 2023-09-01
英文 : Overwriting Parquet File in Bluemix Object Storage with Apache Spark Notebook

我正在运行一个Spark Notebook，将DataFrame保存为Bluemix对象存储中的Parquet文件。

我想在重新运行笔记本时覆盖镶木地板文件。但实际上它只是附加数据。

下面是iPython代码的示例：

df = sqlContext.sql("SELECT * FROM table")
df.write.parquet("swift://my-container.spark/simdata.parquet", mode="overwrite")

我不是python的家伙，但SaveMode适用于像这样的数据帧

df.write.mode(SaveMode.Overwrite).parquet("swift://my-container.spark/simdata.parquet")

我认为块存储只会替换"simdata.parquet"，"PART-0000*"仍然存在，因为"simdata.parquet"是应用程序id的"UUID"，当您尝试读取时，DF会使用"simdata.parquet*"读取所有文件

相关内容