连接和排序数据集Hadoop

我正在使用mapreduce在Hadoop上工作项目(我有2个数据集KDD和DARPAA)，我正在寻找可以在一个文件中对这些数据集进行分组和排序的算法。

两个数据集的格式如下:

@attribute 'urgent' real -------------- 
@Data 0,tcp,ftp_data,SF,491,0,0,0,0,0,0,0,0,0,0,0

我想合并这两个数据集在一个文件中，首先我想检查是否有任何重复的文件和删除重复的行，其次我想组@Attribute在一起和@Data在一起)。

Map Side:

必须编写两个映射器，一个用于KDD，另一个用于DARPAA。

获取KDD和DARPAA的通用值

将其作为两个映射器的输出键

整个输入可以作为映射器值输出发送。

根据各自的映射器使用@data或@attribute追加输入。

Reduce Side:

遍历映射器的输出键。

比较与附加字符串(KDD或DARPAA)一起出现的值，并执行必要的逻辑。

相关内容