Hadoop与二进制文件

如果我有一个命令行程序，其输入和输出如下：

md5sum < hadoop-2.7.2.tar.gz 
c442bd89b29cab9151b5987793b94041  -

如何使用Hadoop运行它？这似乎是一个简单得令人尴尬的问题，但我尝试的解决方案都没有产生正确的输出：

也许，我只是没能正确地按照说明操作。所以，请详细解释一下，或者至少指出一些有用的文档。

您可能可以使用WholeFileInputFormat和hadoop流。你可能会遇到的问题是，如果你有想要完全读取的巨大文件，但如果你强烈要求将整个文件作为program的输入，那么你应该确保输入是合理的，或者找到更好的算法，以完全接受MR的拆分和可扩展性。

相关内容