我需要一点帮助,指针指向正确的方向。
我的任务是将客户订单数据(用于销售服装)从onprem转移到云中用于报告目的(只读)。我们与AWS合作。数据源为Oracle数据库;mysql。我打算使用胶水作业,抓取数据源,然后通过步骤函数/lambdas将数据移动到Dynamo db (NoSQl,快速),其中数据将被链接起来(让我们说每个链接数据的ID字段)。之前报告这些数据的时间是2-3小时。我打算每隔2-3个小时就给胶水工作制定一个时间表。现在情况发生了变化。我现在想让数据尽可能接近实时(同事们开始要求这样做)。一分钟或两分钟(或更久)的数据就足够了。
我想做的是我想要实现的正确方法(只增加爬行源数据的频率)?还是我该看别的东西?
注意:我还没有制作系统(我只玩弄了Dynamo,胶水工作和步进函数)。
那么,在AWS中是否有更好的方法,我想听听我的选择是什么(优点/缺点等)。
Thanks in advance
可以编写Lambda函数来获取数据源并更新DynamoDB表。您可以使用AWS SDK编写Lambda函数来执行AWS服务操作;例如,更新DynamoDB表。如果您编写了多个Lambda函数,那么您是正确的-您可以通过AWS步进函数将它们一起使用来创建工作流。
这里的好处是,如果您确实创建了一个需要按时间表运行的AWS步骤函数工作流,您可以创建另一个Lambda函数,该函数使用AWS步骤函数API通过使用startExecution动态执行工作流。操作。
总的来说,你的想法是正确的。我推荐在AWS步骤函数工作流中使用的Lambda函数,它可以经常被另一个根据CRON触发的Lambda函数调用,它调用startExecution操作。