我已经搜索了每个文档,但仍然没有找到为什么有前缀以及以下文件命名约定中的c000是什么:
文件:/用户/斯蒂芬/p/spark/f1/part-00000-445036f9-7a40-4333-8405-8451faa44319- c000.活泼.镶木地板
你应该使用"谈话很便宜,给我看代码"的方法。一切都没有记录在案,一种方法就是代码。
考虑第 1-2_3-4 部分:
-
拆分/分区号。
-
随机 UUID,用于防止不同(追加)写入作业之间的冲突。
- 唯一的作业/任务 ID(有时不会包含在内)。
- "c"代表计数。这是文件计数器,表示过去为此特定分区写入的文件数。这用于限制为单个文件写入的最大记录数。该值应从 0 开始。
我根据这段代码和这段代码找到了它。