小贝子编程

使用 mapreduce 处理文件

本文关键字：文件处理 mapreduce 使用 hadoop mapreduce apache-pig cloudera
更新时间 : 2023-08-29
英文 : processing file using mapreduce

我使用简单的pig脚本来读取输入.txt文件，并为每一行添加新文件。

然后将输出关系存储到 avro 中。

与本地模式相比，在mapreduce模式下运行这样的脚本有什么好处吗？

谢谢

在本地模式下，您在本地计算机上运行作业。使用mapreduce，您可以在集群中运行作业（您的文件将被拆分为多个部分，并将在多台机器上并行处理）。

所以，从理论上讲，如果你的文件足够大（或者有很多这样的文件需要处理），你将能够在更短的时间内使用mapreduce模式完成你的工作。

相关内容

没有找到相关文章

最新更新