MapReduce程序产生空输出



我创建了一个mapreduce程序来获取世界指标数据,以显示我想要分析的特定指标的结果。(即二氧化碳排放)。数据排成一长行,其中包括国家、代码、指标、第一年排放量、第二年排放量等。在我的映射器中,我试图只保留我想要的数据(首先,只有在有特定指标的情况下才保留这条线),然后保留国家和所有排放水平(以字符串数组形式)。

我的整个程序都在运行,但我注意到它正在接收Map输入记录,但没有Map输出记录或Reduce input/output记录。

我一直想弄清楚我的逻辑哪里出了问题,但我被难住了。欢迎提供任何意见。

我的代码如下:

---映射器——

package org.myorg;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class CO2Mapper extends Mapper <LongWritable, Text, Text, IntWritable>
{
    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException
    {
        String delims = ",";
        String splitString = value.toString();
        String[] tokens = splitString.split(delims);
        int tokenCount = tokens.length;
        String country = tokens[1]; 
        String indicator = tokens[3];
        int levels;
        if(indicator.equals("EN.ATM.CO2E.KT"))
        {   
            for (int j = 4; j < tokenCount; j++)
            {
                levels = Integer.parseInt(tokens[j]);
                context.write(new Text(country), new IntWritable(levels));
            }
        }
    } 
}

----减速器---

package org.myorg;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class CO2Reducer extends Reducer<Text, IntWritable, Text, IntWritable>
{
    @Override
    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException
    {
        int maxValue = Integer.MIN_VALUE;
        int minValue = Integer.MAX_VALUE;
        for(IntWritable val : values)
        {
            maxValue = Math.max(maxValue, val.get());
            minValue = Math.min(minValue, val.get());
        }
        context.write(key, new IntWritable(maxValue));
        context.write(key, new IntWritable(minValue));
    }
}

---主---

package org.myorg;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
//import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;
public class CO2Levels 
{
    public static void main(String[] args) throws Exception  
    {    
        //with mapreduce
        Configuration conf = new Configuration();
        Job job = new Job(conf, "co2Levels");
        //Job job = new Job();
        job.setJarByClass(CO2Levels.class);
        //job.setJobName("co2Levels");
        job.setMapperClass(CO2Mapper.class);
        job.setReducerClass(CO2Reducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        job.setInputFormatClass(TextInputFormat.class);
        //job.setInputFormatClass(KeyValueTextInputFormat.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

从示例输入中,我发现令牌的格式为6.16E+03其正在引发异常,并且不能被解析为整数。

此外,如果您想检查system.out.println()的位置,请检查此

在您的main中,您没有导入映射和reduce类。将以下内容添加到main:

import org.myorg.CO2Mapper;
import org.myorg.CO2Reducer;

在分析样本输入后,我似乎找到了问题的原因。Mapper中的以下代码块与输入错误:

 for (int j = 4; j < tokenCount; j++){
      levels = Integer.parseInt(tokens[j]);

从第5列开始,所有数值都以浮点表示(例如:"8.44E+03"),尽管它们实际上是整数。因此CCD_ 2正在抛出CCD_ 3并且作业失败。我不相信"我的整个程序都在运行"语句(查看JobTracker上的任务日志)。如果您确信输入将始终包含整数,请执行以下操作:

  levels = (int) Float.parseFloat(tokens[j]); 

否则,将levels的数据类型更改为float/double,并将FloatWritable/DoubleWritable用于映射的输出值类,同时对reducer进行相关更改。

输入的另一个问题是存在空字段,这也会在解析过程中产生NumberFormatException。添加一些检查,如:

  if (tokens[j] != null || tokens.trim().isEmpty()){
         continue; // or do the needful. eg - set levels to 0 or some default value 
  }

希望这能解决问题。然而,我无法理解你在减速器中使用的逻辑。这可能是有意的,但看起来像是你的变量maxValue&CCD_ 7将总是以CCD_;比较导致的Integer.MIN_VALUE

 maxValue = Math.max(maxValue, val.get());
 minValue = Math.min(minValue, val.get());

这意味着上面的陈述没有我们,或者我没有抓住要点。不管怎样,祝你好运。

相关内容

  • 没有找到相关文章

最新更新