MAPREDUCE处理由于超过VM限制而导致失败。我们发现的只是数据偏度,MapReduce背后是否由于数据偏斜而失败了?
如果您的数据偏斜得足够严重,则意味着一个映射器或还原器将必须处理更多数据。这意味着它需要更多的内存并运行更长的时间。如果您积极地设置了群集的节点管理器内存,则可以轻松地淹没VM或节点。
这是一个普遍的问题,人们已经写了足够大的问题。
- 在Hadoop中管理偏斜
- 有关数据偏斜技术的调查在Hadoop MapReduce框架中
- 关于Hadoop MapReduce框架和数据偏斜问题的调查