多个小文件作为映射减少的输入



我有很多小文件,比如说20000多个。

我想节省在映射器初始化上花费的时间,所以是否可以只使用500个映射器,每个映射器处理40个小文件作为输入?

如果可能的话,我需要关于如何实现这种输入格式的指导,谢谢!

顺便说一句,我知道我应该合并这些小文件,这一步也是需要的。

可以使用

CombineFileInputFormat。它存在于旧的和新的MR API中。这里有一个关于如何使用它的不错的博客条目。

相关内容

  • 没有找到相关文章

最新更新