我想知道是否可以在 Pig's Load 函数中维护白名单或黑名单。假设我正在执行以下操作:
AllData = LOAD '/path/to/dir/CAT*' USING AvroStorage();
这将加载以 CAT 前缀开头的所有文件。
e.g. CAT1, CAT2, CAT3, CAT4, CAT5, CAT6
我想知道是否可以维护一个黑名单来过滤掉比方说CAT2, CAT3
或者维护一个只保留CAT1, CAT4, CAT5, CAT6
的白名单。谢谢!
您可以通过在大括号中列出所有文件名后缀来建立白名单,例如:
AllData = LOAD '/path/to/dir/CAT{1,4,5,6}' USING AvroStorage();