每3小时到每分钟的AWS报表

我需要一点帮助，指针指向正确的方向。

我的任务是将客户订单数据(用于销售服装)从onprem转移到云中用于报告目的(只读)。我们与AWS合作。数据源为Oracle数据库;mysql。我打算使用胶水作业，抓取数据源，然后通过步骤函数/lambdas将数据移动到Dynamo db (NoSQl，快速)，其中数据将被链接起来(让我们说每个链接数据的ID字段)。之前报告这些数据的时间是2-3小时。我打算每隔2-3个小时就给胶水工作制定一个时间表。现在情况发生了变化。我现在想让数据尽可能接近实时(同事们开始要求这样做)。一分钟或两分钟(或更久)的数据就足够了。

我想做的是我想要实现的正确方法(只增加爬行源数据的频率)?还是我该看别的东西?

注意:我还没有制作系统(我只玩弄了Dynamo，胶水工作和步进函数)。

那么，在AWS中是否有更好的方法，我想听听我的选择是什么(优点/缺点等)。

Thanks in advance

可以编写Lambda函数来获取数据源并更新DynamoDB表。您可以使用AWS SDK编写Lambda函数来执行AWS服务操作;例如，更新DynamoDB表。如果您编写了多个Lambda函数，那么您是正确的-您可以通过AWS步进函数将它们一起使用来创建工作流。

这里的好处是，如果您确实创建了一个需要按时间表运行的AWS步骤函数工作流，您可以创建另一个Lambda函数，该函数使用AWS步骤函数API通过使用startExecution动态执行工作流。操作。

总的来说，你的想法是正确的。我推荐在AWS步骤函数工作流中使用的Lambda函数，它可以经常被另一个根据CRON触发的Lambda函数调用，它调用startExecution操作。

相关内容

最新更新

热门标签：