从不同来源流式传输数据到AWS S3



我有不同的数据源,我需要将它们实时发布到S3。在将数据交付给S3 bucket之前,我还需要处理和验证数据。我知道AWS Kinesis Data Stream提供实时数据流,我可以在将数据发送到S3之前使用AWS lambda处理数据。但是,我不清楚我们是否可以使用AWS Glue Streaming来代替AWS kineesis Data Stream和AWS Lambda?我看过一些关于使用AWS Glue Streaming动态处理实时数据并将其发送到S3的文档。那么,真正的区别是什么呢?AWS Glue Streaming ETL是实时流式传输和处理数据并将其存储到S3中的好选择吗?

只要lambda执行环境限制足够,使用lambda消费者的Kinesis数据流将适合

  • 15分钟执行时间
  • 内存配置
  • <
  • 并发限制/gh>

当使用glue consumer时,您的glue作业可以运行更长时间,并且还支持Apache spark进行大规模并行处理

你也可以使用Kinesis firehose,它具有本地集成,可以将数据传递到S3, ElasticSearch等…,它不需要对数据进行任何更改。你也可以使用lambda来做最小的处理,在使用firehose交付数据之前拦截数据。

最新更新