在MapReduce中写入多个O/P文件时出现问题



我需要根据筛选条件将输入文件拆分为2个输出文件。我的输出目录应该如下所示:

/hdfs/base/dir/matched/YYYY/MM/DD
/hdfs/base/dir/notmatched/YYYY/MM/DD

我正在使用MultipleOutputs类来分割映射函数中的数据。在我的驾驶员类中,我使用如下:

FileOutputFormat.setOutputPath(job, new Path("/hdfs/base/dir"));

在Mapper中,我使用以下内容:

mos.write(key, value, fileName); // File Name is generating based on filter criteria

这个程序一天都运行良好。但在第二天,我的程序失败了,说:

Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://nameservice1/hdfs/base/dir already exists

第二天我不能使用不同的基本目录。

我该如何处理这种情况?

注意:我不想通过读取输入来创建两个单独的文件。

创建自定义o/p格式类,如下

package com.visa.util;
import java.io.IOException;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.OutputCommitter;
import org.apache.hadoop.mapreduce.RecordWriter;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;
public class CostomOutputFormat<K, V> extends SequenceFileOutputFormat<K, V>{
    @Override
    public void checkOutputSpecs(JobContext arg0) throws IOException {
    }
    @Override
    public OutputCommitter getOutputCommitter(TaskAttemptContext arg0) throws IOException {
        return super.getOutputCommitter(arg0);
    }
    @Override
    public RecordWriter<K, V> getRecordWriter(TaskAttemptContext arg0) throws IOException, InterruptedException {
        return super.getRecordWriter(arg0);
    }
}

并在驱动程序类中使用:

job.setOutputFormatClass(CostomOutputFormat.class);

这将跳过对o/p目录是否存在的检查。

您可以在输出值中有一个标志列。稍后,您可以处理输出并按标志列对其进行拆分。

相关内容

  • 没有找到相关文章

最新更新