在AWS中设置Datapipeline Flow



问题陈述:我们有一个Postgres RDS(由AWS管理),并且需要为RDS中的所有数据建立一个数据湖(在S3中)。数据应该以近乎实时的方式推送到s3,解决方案还应该处理(更新、插入、删除操作)。有一个限制,我们不能使用AWS数据管道服务,因为它在所需的区域不可用。

这个链接是一个很大的帮助,稍微修改这里和那里,它帮助我设置管道。https://aws.amazon.com/blogs/big-data/creating-a-source-to-lakehouse-data-replication-pipe-using-apache-hudi-aws-glue-aws-dms-and-amazon-redshift/

有一个AWS博客描述了一个解决方案,似乎可以满足您的需求,或者可以调整它:

  • 使用Amazon Kinesis Data Streams和AWS Lambda从Amazon RDS到PostgreSQL的数据流更改

最新更新