Mapreduce:在单个作业中同时从mapper和reducer写入数据



我需要只从mapper发送选定的记录到reducer和rest过滤器记录从mapper本身写入hdfs。Reducer将写入发送给Reducer的记录。我的工作是处理20tb的大数据,它使用30K的映射器,所以我相信我也不能从mapper的清理方法中编写,因为从30K映射器的输出文件(30K文件)加载数据将是下一个作业的另一个问题。我正在使用CDH4。有人用其他不同的方法实现过类似的场景吗?

当你想写数据到HDFS,是通过java客户端和HDFS吗?如果是,那么您可以编写条件逻辑来写入HDFS并写入输出位置,从reducer拾取。不符合条件的记录可以使用mapper写入输出位置,稍后由reducer拾取。默认情况下,输出位置也是HDFS的位置,但您必须根据具体情况查看您希望数据在HDFS中的哪种方式。

相关内容

  • 没有找到相关文章

最新更新