谷歌数据流实用程序模板之一允许我们对GCS中的文件进行压缩(批量压缩云存储文件(。
虽然参数可以有多个输入,这些输入由不同的文件夹组成(例如:inputFilePattern=gs://YOUR_BUCKET_NAME/uncompress/**.csv,(,但实际上是否可以将"压缩"/处理过的文件存储到最初存储的同一文件夹中?
如果您查看了文档:
附加的扩展名将是以下扩展名之一:.bzip2、.delate、.gz.
因此,新的压缩文件与提供的模式(*.csv(不匹配。因此,您可以将它们存储在同一文件夹中而不会发生冲突。
此外,此过程是一个批处理过程。当您深入查看数据流IO组件时,尤其是在GCS中使用模式读取时,文件列表(要压缩的文件(在作业开始时读取,因此在作业期间不会发生变化。
因此,如果有新文件进入,并且在作业期间与模式匹配,则当前作业不会考虑这些文件。您必须运行另一个作业才能获取这些新文件。
最后一件事是:现有的未压缩文件不会被压缩的文件所取代。这意味着您将拥有双重版本的文件:压缩和未压缩版本。为了节省空间(和金钱(,我建议您删除两个版本中的一个。