Apachepig:检查cvs输入中有多少行具有相同的数字(任意组合)



好吧,伙计们,我对这里有点陌生。我想运行一个pig脚本,检查一个cvs输入中有多少行具有相同的数字(任何组合)

我确实了解如何将CVS转换为hadoop,以及如何通过pig解析它。我知道如何在输入行中迭代,逻辑告诉我需要先对每个输入行进行排序,然后进行计数,但我不知道如何进行

请参阅下面我的输入CVS以及我期望得到的输出类型。有人能在这里帮忙吗?

这是我的输入

123321213456564

我想得到以下结果

(3,{1,2,3})(2,{4,5,6})

让我告诉你一些想法。

如果以下是您的输入

123 321 213 456 564

您可以将输入拆分为5个由空格分隔的值,然后按升序排列每个值,如下所示。

123 123 123 456 456

然后使用单词计数程序来找到您想要的输出。

最新更新