如何在S3中解压缩.gzip文件,应用一些sql过滤器,并在S3中将结果存储为json



因此,我收到了S3格式的每小时数据。我打算一起读取特定S3目录中的所有.gz文件。然后,对数据应用一些sql过滤器,并将结果作为json存储在不同的S3位置。

这可以通过lambda函数实现吗?如果可能的话,请分享代码片段。

或者这需要其他架构吗?

这基本上是一个ETL过程。我建议你使用AWS胶水。这是一个完全托管的ETL服务,您可以在其中编写PySpark脚本。在那里,您可以从S3加载数据,使用PySpark SQL API并用JSON将其写回到不同的S3位置。

相关内容

最新更新