如何验证pig中的数据类型



我一直在尝试验证通过pig从平面文件获得的数据的数据类型。

一个简单的CAT可以做到这一点,但Flat文件非常大,有时它们包含特殊字符。

我需要从文件中过滤出包含特殊字符的记录,并且当数据类型不是int时。有办法在猪身上做到这一点吗?我想在这里找到一种替代getType().getName()的java用法。

强制模式和使用描述是我们在加载数据时所做的,然后删除错过的匹配,但无论如何都要在没有强制模式的情况下。

将数据加载到line: charrarray中,并使用正则表达式过滤掉包含数字以外字符的记录

A = LOAD 'data.txt' AS (line:chararray);
B = FILTER A BY (line matches '\d+$'); -- Change according to your needs.
DUMP B;

最新更新