我正在处理大型文本文件。每条记录都是输入文本文件中的一行,我正在这些记录中搜索某些关键字。
我想知道在Hadoop MapReduce中工作时,以下两种方法中的哪一种会更有效(时间复杂度):
- 在映射器映射函数中搜索
- 在减速器的归约功能中搜索
请帮忙!
两者都应该没问题,但是,根据您的输入,我将在 map 函数中尝试它,因为:
只有找到关键字,数据才会发送到组和归约阶段。如果与您的关键字匹配的数据较少,则分组和缩减的开销会显着减少。