我们的GCS上有很多gzzpiped文件。为了加快数据流程的速度,我们想制作文件的未拉链副本,数据流TextIO
并不那么快。
我试图弄清楚哪种最有效的方法是在GCS上制作文件副本。
作为一个开始,我认为我只会开始编写一个简单的下载程序,但是我无法获得与gsutil
相同的性能。
因此,对这个问题的答案将是如何从GCS中下载文件,或者如何在GCS上飞行和解压缩的一个示例。
您可以实现从GCS更改对象更改通知的应用程序引擎应用程序,因此它发现新上传的GZIP文件并读取/将相应的未拉链文件写入GCS中。这可能比下载到您的公司网络并重新上传(根据您的互联网连接速度)更快。