相当于 mongo 的 out:reduce 选项在 hadoop 中



我正在重写MongoDB映射reduce作业,以使用Hadoop(使用mongo-Hadoop连接器),但当我将两个数据集映射到同一集合时,它会覆盖值,而不是使用

{reduce:"collectionName"}-如果结果集中和旧集合中存在给定键的文档,则将对这两个值执行reduce操作(使用指定的reduce函数),并将结果写入输出集合。如果提供了finalize函数,那么它也将在reduce之后运行

如何使用mongo-hadoop?

Mongo Hadoop目前只支持覆盖目标集合。但是,可以将多个作业链接在一起,从而将MR输出发送到一个新作业中,该作业也可以从旧集合中读取。

对于其他寻求此功能的人来说,对多输入的支持即将到来。

有零钱的分行就在这里。它做得很好,我们正在生产中使用它。

相关内容

  • 没有找到相关文章

最新更新