我使用简单的pig脚本来读取输入.txt文件,并为每一行添加新文件。
然后将输出关系存储到 avro 中。
与本地模式相比,在mapreduce模式下运行这样的脚本有什么好处吗?
谢谢
在本地模式下,您在本地计算机上运行作业。使用mapreduce,您可以在集群中运行作业(您的文件将被拆分为多个部分,并将在多台机器上并行处理)。
所以,从理论上讲,如果你的文件足够大(或者有很多这样的文件需要处理),你将能够在更短的时间内使用mapreduce模式完成你的工作。