小贝子编程

如何在Map/Reduce函数中提取数据

根据Hadoop: the Definitive Guide.

新的API支持"推"one_answers"拉"两种迭代方式。在这两个API中，键-值记录对都被推送到映射器，但另外，新的API允许映射器从map()方法中提取记录。减速器也是如此。"pull"风格如何有用的一个例子是分批处理记录，而不是逐个处理记录。

是否有人在Map/Reduce函数中提取数据?我对相同的API或示例感兴趣。

我发布了一个查询@ mapreduce-user@hadoop.apache.org并得到了答案。

下一个键值对可以通过调用其上的nextKeyValue()从传递给映射的上下文对象中检索。因此，您将能够在新的API中从中提取下一个数据。

在这种情况下，拉的性能比推的好吗?此外，在哪些情况下拉将是有用的?

相关内容