Hadoop与二进制文件



如果我有一个命令行程序,其输入和输出如下:

md5sum < hadoop-2.7.2.tar.gz 
c442bd89b29cab9151b5987793b94041  - 

如何使用Hadoop运行它?这似乎是一个简单得令人尴尬的问题,但我尝试的解决方案都没有产生正确的输出:

  • 自定义二进制输入-Hadoop
  • 体积图像数据的分布式处理
  • 使用二进制输入的Hadoop流作业

也许,我只是没能正确地按照说明操作。所以,请详细解释一下,或者至少指出一些有用的文档。

您可能可以使用WholeFileInputFormat和hadoop流。你可能会遇到的问题是,如果你有想要完全读取的巨大文件,但如果你强烈要求将整个文件作为program的输入,那么你应该确保输入是合理的,或者找到更好的算法,以完全接受MR的拆分和可扩展性。

最新更新