我正在尝试在大量预先存在的二进制文件上运行MapReduce作业。文件已经在那里了,我不能更改它们的格式。
我应该写我自己的InputFormat吗?如何创建一个简单的InputFormat,它返回一个InputStream,这样我就可以处理文件了?
我不认为我们有一个内置的InputFormat忽略分割并为映射器提供整个文件。
您需要编写自己的自定义InputFormat。您可以在这里找到详细信息
我正在尝试在大量预先存在的二进制文件上运行MapReduce作业。文件已经在那里了,我不能更改它们的格式。
我应该写我自己的InputFormat吗?如何创建一个简单的InputFormat,它返回一个InputStream,这样我就可以处理文件了?
我不认为我们有一个内置的InputFormat忽略分割并为映射器提供整个文件。
您需要编写自己的自定义InputFormat。您可以在这里找到详细信息
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium