我是Hadoop新手,现在必须处理一个输入文件。我想处理每一行,输出应该是每行一个文件。
我上网冲浪,发现MultipleOutputFormat,并生成efilenameforkeyvalue。
但是大多数人用JobConf类来写。因为我使用的是Hadoop 0.20.1,所以我认为发生了Job类。我不知道如何使用Job类按键生成多个输出文件。
有人能帮我吗?
Eclipse插件主要用于提交和监控作业,以及与HDFS交互,针对真实或'psuedo'集群。
如果你在本地模式下运行,那么我不认为插件会给你带来任何好处——因为你的作业将在单个JVM中运行。考虑到这一点,我会说包括包括最近的1。
在您的Eclipse项目的类路径中。无论如何,MultipleOutputFormat
都没有移植到新的mapreduce包中(无论是1.1.2还是2.0.4-alpha),所以你要么需要自己移植它,要么找到另一种方式(可能是MultipleOutputs
- Javadoc页面对使用MultipleOutputs有一些使用)