如何在持久(等待)集群上进行S3数据更新或更改时启动AWS EMR JAR执行(步骤)?最佳实践或一般方法



寻找最佳实践或通用方法。AWS EMR集群是持久的,JAR步骤运行到完成(Mahout Recommender示例)。当S3中的输入文件得到更新数据时,需要立即执行JAR(步骤)。冲洗,重复。解决方案应该使用集群设置、引导脚本、JAR代码还是其他东西?

您需要创建工作流并安排它。

工作流应该具有以下内容:

  1. 检查到达指定位置的新数据
  2. 如果有新目录,则启动步骤以处理更新的数据集
  3. 此外,一旦处理完毕,将数据归档

一旦有了工作流脚本,就可以使用cron或azkaban等高级工具在bastion/client-server中进行调度。

最新更新