使用aws将JSON转换为Apache Parquet格式的最佳方法



我一直在做一个项目,我一直在s3桶中存储物联网数据,并使用aws kineesis消防软管对它们进行批处理,我有一个lambda函数在交付流上运行,我将epoch毫秒时间转换为具有日期和时间的适当时间戳。这是我的JSON有效负载示例

{
"device_name":"inHand-RTU",
"Temperature":22.3,
"Pyranometer":6,
"Active-Power":0,
"Voltage-1":233.93,
"Active-Import":2.57,
"time":"17-01-2023 10:49:09"
}

我现在想把s3中的这些文件转换为parquet文件,然后使用apache pyspark对它们进行处理。最好的方法是什么?我应该使用kinesis firehose本身,它提供了将数据转换为拼花格式的功能,还是应该使用aws胶水工作?这两个服务都做同样的事情。两者的区别是什么?我应该采用哪种方法?

任何帮助都将非常感激。

最好的方法是使用本地拼花转换作为消防软管的一部分。

Firehose有一个选项(转换记录格式-启用),在将它们发送到S3之前转换为拼花或兽人格式

https://docs.aws.amazon.com/firehose/latest/dev/create-transform.html

最新更新