使用 mapreduce 处理文件



我使用简单的pig脚本来读取输入.txt文件,并为每一行添加新文件。

然后将输出关系存储到 avro 中。

与本地模式相比,在mapreduce模式下运行这样的脚本有什么好处吗?

谢谢

在本地模式下,您在本地计算机上运行作业。使用mapreduce,您可以在集群中运行作业(您的文件将被拆分为多个部分,并将在多台机器上并行处理)。

所以,从理论上讲,如果你的文件足够大(或者有很多这样的文件需要处理),你将能够在更短的时间内使用mapreduce模式完成你的工作。

相关内容

  • 没有找到相关文章

最新更新