我正在尝试在我的集群上运行一个只在特定文件扩展名上运行的MapReduce作业。我们有一堆位于集群上的异构数据,对于这个特定的作业,我只想在.jpg上执行。有没有办法在不限制映射器中的情况下完成此操作。当您执行作业时,这似乎应该很容易做到。我在想像hadoop fs JobName/users/myuser/data/*.jpg/users/myuser/output这样的东西。
您的示例应该按编写的方式工作,但您需要检查您调用 setInputPaths(Job, String) 方法的输入格式,因为这会将 glob 字符串 "/users/myuser/data/*.jpg" 解析为/users/myuser/data 中的各个 jpg 文件。