谷歌云存储- GSUTIL CP文件延迟



我使用Google cloud中的GSUTIL命令行工具将文件从一个GCS文件夹复制到另一个GCS文件夹,然后进行一些数据处理。最近我在最终目标(BQ表)中发现了一些数据丢失,当深入挖掘时我发现问题是围绕文件复制,当我复制大量文件时,3K~5K e,g,似乎有些文件没有及时复制到目标文件夹和数据处理开始,这些文件最终被复制但对数据处理为时已晚,我能做些什么来防止这种情况发生?GSUTIL命令行工具中的任何标志/配置以确保副本完全完成?我一直在使用的命令:gsutil - m cp gs://folder1/* gs://folder2/

假设gsutil命令成功完成(退出状态为0),所有文件都应该被复制,但它们可能不会立即显示在桶列表中(GCS桶列表最终是一致的)。如果您的数据处理作业通过列出bucket来查找要处理的文件,那么就可以解释您所看到的情况。为了避免这个问题,您可以生成您复制的对象名称的清单,并将其提供给您的数据处理作业,而不是依赖于bucket清单。

(bucket清单最终将显示所有文件,但不能指望它在上传文件后立即显示完整的清单)

最新更新