如何对本地文件系统中的文件运行map/reduce ?



如何在本地文件系统中可用的文件上运行Java map/reduce作业?例如,我有一个3个节点的集群,并且所有节点在其本地文件系统中都有一个日志文件,例如/home/log/log.txt

如何在这些文件上运行作业?在运行作业之前,我需要将它们合并并传输到HDFS吗?

谢谢。

您可以将所有单独的文件上传到一个文件夹下,并提供该文件夹路径作为map reduce程序的输入路径。Map Reduce在该文件夹中的所有文件上运行。

最新更新