小贝子编程

Mapreduce处理同一目录中的多个文件

如果我的输入文件夹中有两个文件，hadoop mapreduce将把这两个文件都处理为。有没有办法为这两个文件指定不同的处理方式？例如，假设我不想为我遇到的每个单词激发1，而是如果这个单词在文件1中，我想激发1，如果它在同一目录中的文件2中，则激发2。你会怎么做？

您应该能够获得本文中描述的文件名。如何在Hadoop程序的映射器中获得输入文件名？

一旦你有了文件名，你就可以有一个条件来检查文件名，基于这个条件你应该能够激发1或2。

最新更新