谁能解释一下c000在c000.snappy.parquet 或c000.snappy.orc中是什么意思?



我已经搜索了每个文档,但仍然没有找到为什么有前缀以及以下文件命名约定中的c000是什么:

文件:/用户/斯蒂芬/p/spark/f1/part-00000-445036f9-7a40-4333-8405-8451faa44319- c000.活泼.镶木地板

你应该使用"谈话很便宜,给我看代码"的方法。一切都没有记录在案,一种方法就是代码。

考虑第 1-2_3-4 部分:

  1. 拆分/分区号。

  2. 随机 UUID,用于防止不同(追加)写入作业之间的冲突。

  3. 唯一的作业/任务 ID(有时不会包含在内)。
  4. "c"代表计数。这是文件计数器,表示过去为此特定分区写入的文件数。这用于限制为单个文件写入的最大记录数。该值应从 0 开始。

我根据这段代码和这段代码找到了它。

相关内容

  • 没有找到相关文章

最新更新