我的数据集是以下形式的,有3个文件夹,分别标记为0、5、10,每个文件夹都有大约200000张图像:
frames_zip :
->0
->5
->10
我一直试图使用Dataflow API使用批量解压缩云存储文件来解压缩我的文件夹,但文件夹被解压缩到一个文件中。我也试过这个问题的所有方法,但都不起作用。
有几种方法可以实现这一点。
- 如果是一次,只需
- 创建一个计算引擎
- 在上面安装zip
- 从存储下载文件
- 在本地解压缩文件
- 将未压缩的文件和文件夹架构上传到云存储
gsutil -m cp -r ./local-dir gs://myBucket
- 删除虚拟机
- 如果解压缩文件是一项定期任务(例如每周(
- 创建一个Cloud Build管道,其中有一个步骤,可以执行与以前使用VM完全相同的操作(安装zip、下载zip文件、解压缩并发回未压缩的文件(
- 使用Cloud Scheduler定期安排Cloud Build管道
- 云构建是无服务器的,您可以拥有高达1000Gb的本地存储
diskSizeGb:使用diskSizeGb选项为您的构建请求自定义磁盘大小。您可以请求的最大大小为1000 GB。