如何将多个文件作为输入传递给MapReduce

我想使用两个文件作为MapReduce程序的输入。但是使用*不能作为文件名模式。

我希望使用输入/应该可以做到这一点。要开始，请尝试运行Wordcount示例：http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/

在本教程的最后，他们向您解释了如何运行作业（他们在位于输入映射中的多个字典文件上运行作业）。

编辑：还可以查看本教程中的分布式文件系统，您通常需要在dfs中输入文件。。

它可以工作，也应该在您的机器上工作。你确定你要走的路吗？是input/190*.txt还是/input/190*.txt请注意"/"。不带/的路径假定存在于/user中，其中带/的作为路径直接存在于根目录下。

它也适用于mv（或任何其他HDFS命令）。

相关内容