Hadoop任意的,不可分割的,预先存在的二进制文件



我正在尝试在大量预先存在的二进制文件上运行MapReduce作业。文件已经在那里了,我不能更改它们的格式。

我应该写我自己的InputFormat吗?如何创建一个简单的InputFormat,它返回一个InputStream,这样我就可以处理文件了?

我不认为我们有一个内置的InputFormat忽略分割并为映射器提供整个文件。

您需要编写自己的自定义InputFormat。您可以在这里找到详细信息

最新更新