一个pig脚本中的两个存储函数



我有一个pig脚本来加载、处理和存储数据。

如果同一个pig脚本中有两个存储函数,它是如何工作的?

a = load 'somefile' using PigStorage(',');
b ...
c ...
d ...
e = store d into 'output1';
f = store c into 'output2';

每个商店运行两次吗。也就是说,对于存储"e">,它从"a"到"e"进行处理;对于>存储"f">

一般来说,底层map/reduce框架具有多输出格式,因此Pig可以使用该格式并在单个作业中运行两个存储脚本,例如,通过具有单独的reduce,每个reduce将写入另一个文件

然而,实际的map/reduce计划取决于你对c和d的处理——有时处理需要不止一项工作——为了理解你的脚本的行为,你可以使用Pig的explain命令。如果你想要一个图形可视化,你可以使用Netflix的口红

最新更新