我需要的任务看起来很常见,但我未能找到"现成"的解决方案。
- 我有一些Hadoop MapReduce作业,它将结果作为一组文件生成
- 若它很重要,它有几个映射器,并没有减速器,但我想要所有阶段的一般情况的解决方案
- 我想收集作业结果,并在作业执行后立即使用它
- 但我不喜欢像FileOutputFormat那样将作业结果永久存储在HDFS上,所以看起来临时作业存储是我的选择
对于这种情况,有什么常见的方法吗?
某些作业的解决方案之一恰好是计数器。它远不是通用的,但对于一些简单的情况来说,它可以帮助很大:
- Hadoop MapReduce计数器示例
- Hadoop权威指南,计数器