如何在hadoop中获得multioutput

我是Hadoop新手，现在必须处理一个输入文件。我想处理每一行，输出应该是每行一个文件。

我上网冲浪，发现MultipleOutputFormat，并生成efilenameforkeyvalue。

但是大多数人用JobConf类来写。因为我使用的是Hadoop 0.20.1，所以我认为发生了Job类。我不知道如何使用Job类按键生成多个输出文件。

有人能帮我吗?

Eclipse插件主要用于提交和监控作业，以及与HDFS交互，针对真实或'psuedo'集群。

如果你在本地模式下运行，那么我不认为插件会给你带来任何好处——因为你的作业将在单个JVM中运行。考虑到这一点，我会说包括包括最近的1。

在您的Eclipse项目的类路径中。

无论如何，MultipleOutputFormat都没有移植到新的mapreduce包中(无论是1.1.2还是2.0.4-alpha)，所以你要么需要自己移植它，要么找到另一种方式(可能是MultipleOutputs - Javadoc页面对使用MultipleOutputs有一些使用)

相关内容