可以使用
我有很多小文件,比如说20000多个。
我想节省在映射器初始化上花费的时间,所以是否可以只使用500个映射器,每个映射器处理40个小文件作为输入?
如果可能的话,我需要关于如何实现这种输入格式的指导,谢谢!
顺便说一句,我知道我应该合并这些小文件,这一步也是需要的。
CombineFileInputFormat。它存在于旧的和新的MR API中。这里有一个关于如何使用它的不错的博客条目。
我有很多小文件,比如说20000多个。
我想节省在映射器初始化上花费的时间,所以是否可以只使用500个映射器,每个映射器处理40个小文件作为输入?
如果可能的话,我需要关于如何实现这种输入格式的指导,谢谢!
顺便说一句,我知道我应该合并这些小文件,这一步也是需要的。
CombineFileInputFormat。它存在于旧的和新的MR API中。这里有一个关于如何使用它的不错的博客条目。
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium