因此,我收到了S3格式的每小时数据。我打算一起读取特定S3目录中的所有.gz文件。然后,对数据应用一些sql过滤器,并将结果作为json存储在不同的S3位置。
这可以通过lambda函数实现吗?如果可能的话,请分享代码片段。
或者这需要其他架构吗?
这基本上是一个ETL过程。我建议你使用AWS胶水。这是一个完全托管的ETL服务,您可以在其中编写PySpark脚本。在那里,您可以从S3加载数据,使用PySpark SQL API并用JSON将其写回到不同的S3位置。