Spark Parquet表中的_STARTED_、_COMMITTED_和_SUCCESS_文件是什么



在写入/创建Spark Parquet表时,在底层存储文件夹中创建的STARTEDCOMMITTEDUCCESS文件是什么?这些文件可以有多个吗?如果是这样的话,拥有多个它们意味着什么?

谢谢。

这些文件通过DBIO事务协议存储在那里。

使用DBIO事务提交,以_started_<id>_committed_<id>开头的元数据文件将伴随Spark作业创建的数据文件。一般来说,您不应该直接更改这些文件。相反,您应该使用VACUUM命令来清理它们。

https://docs.databricks.com/spark/latest/spark-sql/dbio-commit.html

最新更新