一行编辑 AWS S3 中的文件



我在 AWS S3 存储桶中存储了许多非常大的文件 (> 6 GB(,需要对它们进行非常小的编辑。

我可以通过将它们拉到服务器,使用sedperl编辑关键字,然后将它们推回来编辑这些文件,但这非常耗时,特别是对于一个单词编辑到 6 或 7 GB 的文本文件。

https://github.com/s3fs-fuse/s3fs-fuse,我使用的程序使 AWS S3 像随机访问文件系统一样,但这太慢了,所以不是一种选择。

如何通过脚本编辑这些文件或使用sed,而无需从 S3 拉取和推送回 S3 的昂贵且缓慢的步骤?

你不能。

您使用的库当然做对了:下载现有文件,在本地进行编辑,然后推回结果。它总是会很慢

使用sed,假设您现有的库分三个单独的步骤完成,则可以使其更快。但是你不能在你读完文件之前立即发送结果并覆盖文件(至少我建议不要这样做(。

如果这是一个一次性的过程,那么缓慢应该不是问题。如果这是您可能一直执行的操作,那么我建议您使用不同类型的存储。这可能不适合你的应用。

最新更新