将Hadoop MapReduce限制为特定的文件扩展名



我正在尝试在我的集群上运行一个只在特定文件扩展名上运行的MapReduce作业。我们有一堆位于集群上的异构数据,对于这个特定的作业,我只想在.jpg上执行。有没有办法在不限制映射器中的情况下完成此操作。当您执行作业时,这似乎应该很容易做到。我在想像hadoop fs JobName/users/myuser/data/*.jpg/users/myuser/output这样的东西。

您的示例应该按编写的方式工作,但您需要检查您调用 setInputPaths(Job, String) 方法的输入格式,因为这会将 glob 字符串 "/users/myuser/data/*.jpg" 解析为/users/myuser/data 中的各个 jpg 文件。

相关内容

  • 没有找到相关文章

最新更新