是否可以使用谷歌提供的实用程序模板将处理后的文件存储到最初存储的位置



谷歌数据流实用程序模板之一允许我们对GCS中的文件进行压缩(批量压缩云存储文件(。

虽然参数可以有多个输入,这些输入由不同的文件夹组成(例如:inputFilePattern=gs://YOUR_BUCKET_NAME/uncompress/**.csv,(,但实际上是否可以将"压缩"/处理过的文件存储到最初存储的同一文件夹中?

如果您查看了文档:

附加的扩展名将是以下扩展名之一:.bzip2、.delate、.gz.

因此,新的压缩文件与提供的模式(*.csv(不匹配。因此,您可以将它们存储在同一文件夹中而不会发生冲突。

此外,此过程是一个批处理过程。当您深入查看数据流IO组件时,尤其是在GCS中使用模式读取时,文件列表(要压缩的文件(在作业开始时读取,因此在作业期间不会发生变化。

因此,如果有新文件进入,并且在作业期间与模式匹配,则当前作业不会考虑这些文件。您必须运行另一个作业才能获取这些新文件。

最后一件事是:现有的未压缩文件不会被压缩的文件所取代。这意味着您将拥有双重版本的文件:压缩和未压缩版本。为了节省空间(和金钱(,我建议您删除两个版本中的一个。

相关内容

  • 没有找到相关文章

最新更新