在Pig中使用自定义单词分隔符的WordCount

我是Pig的新手，正在尝试编写一个单词计数程序。

从文本中获取单词的一种方法是使用TOKENIZE函数：

WORDS = foreach INPUT generate flatten(TOKENIZE(text)) AS word;

但我只想在空格上进行拆分，而TOKENIZE也在逗号之类的东西上进行拆分。我该怎么做？我尝试使用STRSPLIT(text, ' ')，但STRSPLIT似乎返回一个元组，而TOKENIZE返回一个包，所以我不知道如何使用STRSPLIT。

这取决于输入数据的外观，但以下内容可能适用于您：

此外，还可以使用ToBag（也在PiggyBank中）将元组转换为包。

我们实际上不能直接将元组转换为包（反之亦然）。我建议你这样做：

相关内容