i具有以下文件夹结构,其中包含我的内容粘附到同一模式 -
/project/20160101/part-v121
/project/20160105/part-v121
/project/20160102/part-v121
/project/20170104/part-v121
我已经实施了一个使用JSONLOADER加载&的猪脚本处理单个文件。但是,我需要使读取已过时的文件夹下的所有文件。
现在,我设法使用以下内容提取文件路径 -
hdfs -ls hdfs://local:8080/project/20* > /tmp/ei.txt
cat /tmp/ei.txt | awk '{print $NF}' | grep part > /tmp/res.txt
现在,我需要知道如何将此列表传递给Pig脚本,以便我的程序在所有文件上运行。
我们可以在 load 语句中使用Regex路径。
在您的情况下,以下声明应该有所帮助,让我知道您是否遇到任何问题。
A = LOAD 'hdfs://local:8080/project/20160102/*' USING JsonLoader();
假设输入目录中的.pig_schema(由jsonstorage生产)。
ref :https://pig.apache.org/docs/r0.10.10/func.html#jsonloadstore