我一直在尝试验证通过pig从平面文件获得的数据的数据类型。
一个简单的CAT可以做到这一点,但Flat文件非常大,有时它们包含特殊字符。
我需要从文件中过滤出包含特殊字符的记录,并且当数据类型不是int
时。有办法在猪身上做到这一点吗?我想在这里找到一种替代getType().getName()
的java用法。
强制模式和使用描述是我们在加载数据时所做的,然后删除错过的匹配,但无论如何都要在没有强制模式的情况下。
将数据加载到line: charrarray中,并使用正则表达式过滤掉包含数字以外字符的记录
A = LOAD 'data.txt' AS (line:chararray);
B = FILTER A BY (line matches '\d+$'); -- Change according to your needs.
DUMP B;