我正在做一个map reduce项目。
我对Hadoop的理解是,它会将我的数据分成块,然后将其变成拆分,其中拆分对应于单个map任务。
我假设每个分裂都有一个ID或数字与之关联。
我想知道是否有任何方法可以获得这个分裂Id/数字,甚至块Id/数字作为映射函数的关键?
ie:map(split_id, data)
Inputsplit toString()
方法将返回一个模式。如果使用MD5哈希,我们可以得到一个唯一的Id来标识每个输入分割。
InputSplit is = context.getInputSplit();
splitId = MD5Hash.digest(is.toString()).toString();
然后我们可以使用splitId作为映射器函数的键