阿帕奇猪如何在加载功能中列入白名单或黑名单?



我想知道是否可以在 Pig's Load 函数中维护白名单或黑名单。假设我正在执行以下操作:

AllData = LOAD '/path/to/dir/CAT*' USING AvroStorage();

这将加载以 CAT 前缀开头的所有文件。

e.g. CAT1, CAT2, CAT3, CAT4, CAT5, CAT6

我想知道是否可以维护一个黑名单来过滤掉比方说CAT2, CAT3或者维护一个只保留CAT1, CAT4, CAT5, CAT6的白名单。谢谢!

您可以通过在大括号中列出所有文件名后缀来建立白名单,例如:

AllData = LOAD '/path/to/dir/CAT{1,4,5,6}' USING AvroStorage();

最新更新