如何在hadoop中获得multioutput



我是Hadoop新手,现在必须处理一个输入文件。我想处理每一行,输出应该是每行一个文件。

我上网冲浪,发现MultipleOutputFormat,并生成efilenameforkeyvalue。

但是大多数人用JobConf类来写。因为我使用的是Hadoop 0.20.1,所以我认为发生了Job类。我不知道如何使用Job类按键生成多个输出文件。

有人能帮我吗?

Eclipse插件主要用于提交和监控作业,以及与HDFS交互,针对真实或'psuedo'集群。

如果你在本地模式下运行,那么我不认为插件会给你带来任何好处——因为你的作业将在单个JVM中运行。考虑到这一点,我会说包括包括最近的1。

在您的Eclipse项目的类路径中。

无论如何,MultipleOutputFormat都没有移植到新的mapreduce包中(无论是1.1.2还是2.0.4-alpha),所以你要么需要自己移植它,要么找到另一种方式(可能是MultipleOutputs - Javadoc页面对使用MultipleOutputs有一些使用)

相关内容

  • 没有找到相关文章

最新更新