在写入/创建Spark Parquet表时,在底层存储文件夹中创建的STARTED、COMMITTEDUCCESS文件是什么?这些文件可以有多个吗?如果是这样的话,拥有多个它们意味着什么?
谢谢。
这些文件通过DBIO事务协议存储在那里。
使用DBIO事务提交,以
_started_<id>
和_committed_<id>
开头的元数据文件将伴随Spark作业创建的数据文件。一般来说,您不应该直接更改这些文件。相反,您应该使用VACUUM命令来清理它们。
https://docs.databricks.com/spark/latest/spark-sql/dbio-commit.html