控制映射器处理的记录数



我想控制每个映射器处理的记录数量。

在我的集群中,一些数据节点有更多的记录数。因此,在这些节点上创建的映射器处理更多的no。的记录。所以这些映射器可以长时间运行。

映射器处理时间不取决于我的记录大小。记录的数量决定时间。那么有没有办法控制每个映射器处理的记录数量呢?

您可以提供-D mapreduce.input.fileinputformat.split。最大尺寸=某个数。您可以通过了解每个映射器应该处理多少条记录以及记录的大小来得到这个数字。

最新更新