Hadoop -在map函数中获取分裂id



我正在做一个map reduce项目。

我对Hadoop的理解是,它会将我的数据分成块,然后将其变成拆分,其中拆分对应于单个map任务。

我假设每个分裂都有一个ID或数字与之关联。

我想知道是否有任何方法可以获得这个分裂Id/数字,甚至块Id/数字作为映射函数的关键?

ie:

map(split_id, data)

Inputsplit toString()方法将返回一个模式。如果使用MD5哈希,我们可以得到一个唯一的Id来标识每个输入分割。

    InputSplit is = context.getInputSplit();
    splitId = MD5Hash.digest(is.toString()).toString();

然后我们可以使用splitId作为映射器函数的键

相关内容

  • 没有找到相关文章

最新更新