我试图研究这个,但没有发现有用的信息。我已经有一个 M/R 作业从镶木地板读取(未分区,使用节俭模式)。我需要向流程添加另一组不是镶木地板格式的输入文件,它们只是常规的 csv 文件。有谁知道这是否可能或如何做到?
没关系,我想我在另一篇与镶木地板无关的帖子中找到了我需要的东西。在配置MapReduce作业时使用多个InputFormat类
以下是我从我链接到的答案中获取的信息,并适应了我自己的解决方案:
MultipleInputs.addInputPath(job, new Path("/path/to/parquet"), ParquetInputFormat.class, ParquetMapper.class);
MultipleInputs.addInputPath(job, new Path("/path/to/txt"), TextInputFormat.class, TextMapper.class);