计算密集型工作应该在哪里进行?Hadoop MapReduce 中的映射器方法或化简器方法



我正在处理大型文本文件。每条记录都是输入文本文件中的一行,我正在这些记录中搜索某些关键字。
我想知道在Hadoop MapReduce中工作时,以下两种方法中的哪一种会更有效(时间复杂度):

  1. 映射器映射函数中搜索
  2. 减速器的归约功能中搜索

请帮忙!

两者都应该没问题,但是,根据您的输入,我将在 map 函数中尝试它,因为:

只有找到关键字,数据才会发送到组和归约阶段。如果与您的关键字匹配的数据较少,则分组和缩减的开销会显着减少。

相关内容

  • 没有找到相关文章

最新更新