我是Pig脚本的新手
我有一个数据集如下:
name | age
-------+----
Ashis | 60
Arun | 22
Nirmal | 48
Ram | 67
Amar | 35
如何使用 Pig 脚本获取最大年龄的记录?
我的输出应该是
Ram,67
您需要按年龄降序对数据进行排序,并将数据限制为 1 以获得具有最大年龄的记录。这样:
inputData = LOAD 'path' USING PigStorage('t') AS (name:charray, age:long);
sortedInput = ORGER inputData BY age DESC;
topRecord = LIMIT sortedInput 1;
DUMP topRecord;
值得一提的是,这不是一个适合map-reduce的操作(通过这里的pig(,因为ORDER和LIMIT都没有使用并行性,你的工作将被单个化简器所困扰。