如何在hadoop流中分配Mapreduce任务



例如,我有多行日志文件我有mapper.py。这个脚本解析文件。在这种情况下,我想做我的映射器它独立

Hadoop Streaming已经"分布式";,但是与一个输入和输出流隔离。您需要编写一个脚本来遍历文件,并为每个文件运行单独的流作业。

如果你想批量处理很多文件,那么你应该把所有文件上传到一个HDFS文件夹,然后你可以使用mrjob(假设你真的想要MapReduce(,或者你可以切换到pyspark来并行处理它们,因为我认为没有必要按顺序处理。

最新更新