如果我有一个命令行程序,其输入和输出如下:
md5sum < hadoop-2.7.2.tar.gz
c442bd89b29cab9151b5987793b94041 -
如何使用Hadoop运行它?这似乎是一个简单得令人尴尬的问题,但我尝试的解决方案都没有产生正确的输出:
- 自定义二进制输入-Hadoop
- 体积图像数据的分布式处理
- 使用二进制输入的Hadoop流作业
也许,我只是没能正确地按照说明操作。所以,请详细解释一下,或者至少指出一些有用的文档。
您可能可以使用WholeFileInputFormat和hadoop流。你可能会遇到的问题是,如果你有想要完全读取的巨大文件,但如果你强烈要求将整个文件作为program
的输入,那么你应该确保输入是合理的,或者找到更好的算法,以完全接受MR的拆分和可扩展性。