如果我的输入文件夹中有两个文件,hadoop mapreduce将把这两个文件都处理为。有没有办法为这两个文件指定不同的处理方式?例如,假设我不想为我遇到的每个单词激发1,而是如果这个单词在文件1中,我想激发1,如果它在同一目录中的文件2中,则激发2。你会怎么做?
您应该能够获得本文中描述的文件名。如何在Hadoop程序的映射器中获得输入文件名?
一旦你有了文件名,你就可以有一个条件来检查文件名,基于这个条件你应该能够激发1或2。