寻找最佳实践或通用方法。AWS EMR集群是持久的,JAR步骤运行到完成(Mahout Recommender示例)。当S3中的输入文件得到更新数据时,需要立即执行JAR(步骤)。冲洗,重复。解决方案应该使用集群设置、引导脚本、JAR代码还是其他东西?
您需要创建工作流并安排它。
工作流应该具有以下内容:
- 检查到达指定位置的新数据
- 如果有新目录,则启动步骤以处理更新的数据集
- 此外,一旦处理完毕,将数据归档
一旦有了工作流脚本,就可以使用cron或azkaban等高级工具在bastion/client-server中进行调度。