如何编写简单的map-reduce作业,用于将制表符分隔的文本文件转换为序列文件



我想将文本文件作为映射器的输入并输出序列文件。如何为相同的内容编写一个简单的map-reduce作业?文本文件将具有制表符分隔的值。例如输入:组1 1 2 3 4 5
对于这样的输入,我想创建输出序列文件,该文件的键上有"group1",其值应该是 1 2 3 4 5 的向量。

如何编写这些作业?另外,我觉得在这种情况下我不需要减速器。在这种情况下如何编写身份减少器作业?我可以跳过编写减速器作业吗?

感谢任何帮助。问候。

是的,你可以跳过写Reducer。将其设置为"仅Reducer.class"。也叫setNumReduceTasks(0)。您的Mapper应使用 TextInputFormat 并将 LongText 作为键/值输入。Text是线。随心所欲地分解它,并将键/值输出为,例如,TextText。指定写入序列文件的SequenceFileOutputFormat

我仍然不知道你为什么要这样做,但这就是你这样做的方式。

最新更新