hadoop流:作业完成后自动进行后处理



步骤1-我有一个hadoop流式作业,它基于可变时间关于要处理的数据量步骤2-一旦工作完成,我需要将所有数据转储导入mongodb并创建一个平面csv文件其中

问题
有没有什么方法可以使用hadoop流将步骤2粘合到步骤1,避免手动执行步骤2?

我建议使用https://github.com/Yelp/mrjob或https://github.com/klbostee/dumbo.特别针对mrjob和您的问题http://packages.python.org/mrjob/job.html#writing-多步骤作业

相关内容

  • 没有找到相关文章

最新更新