Apache Pig加载多个文件



i具有以下文件夹结构,其中包含我的内容粘附到同一模式 -

/project/20160101/part-v121
/project/20160105/part-v121
/project/20160102/part-v121
/project/20170104/part-v121

我已经实施了一个使用JSONLOADER加载&的猪脚本处理单个文件。但是,我需要使读取已过时的文件夹下的所有文件。

现在,我设法使用以下内容提取文件路径 -

hdfs -ls hdfs://local:8080/project/20* > /tmp/ei.txt
cat /tmp/ei.txt | awk '{print $NF}' | grep part > /tmp/res.txt

现在,我需要知道如何将此列表传递给Pig脚本,以便我的程序在所有文件上运行。

我们可以在 load 语句中使用Regex路径。

在您的情况下,以下声明应该有所帮助,让我知道您是否遇到任何问题。

A = LOAD 'hdfs://local:8080/project/20160102/*' USING JsonLoader();

假设输入目录中的.pig_schema(由jsonstorage生产)。

ref :https://pig.apache.org/docs/r0.10.10/func.html#jsonloadstore

最新更新