从Apache Pig中的数据派生FileName



我正在处理一种情况,即我想将pig脚本中的数据存储到一个文件中。这是非常直接的,但我希望文件名是从数据本身派生的。所以,我在数据中有一个字段作为时间戳。我想使用MAX(时间戳)作为文件名来存储当天的所有数据。

我知道的用法使用org.apache.pig.ppiggybank.storage.MultiStorage将数据存储到'$outputDir'('$oututDir','2','none',',');

但是这个变量"outputDir"应该作为参数传递。我想用字段的派生值来设置这个值。

任何指示都会非常有用。

谢谢&问候,

Atul Aggarwal

在MultiStorage中,您可以指定根目录,因为HDFS安装通常由许多用户共享,因此您不希望在任何地方写入数据。因此,您不能更改根目录,但可以指定哪个字段用于在该目录中生成目录名(在您的情况2中)。Javadoc很有用,但我猜你已经看到了吗?

最新更新