Hadoop mapreduce python命令行参数



在我的python映射器代码中,我需要访问-input 'path'中给出的'path'。如何在python代码中访问它?

可以从os.environ读取输入文件。例如,

import os
input_file = os.environ['map_input_file']

实际上,您也可以从os.environ中读取其他JobConf。注意:在执行流作业期间,"mapred"参数的名称会进行转换。点(.)变成下划线(_)。例如,mapred.job.id变为mapred_job_id, mapred.jar变为mapred_jar。要获取流作业的mapper/reducer中的值,请使用带下划线的参数名。

我还发现了一篇非常有用的文章:a Guide to Python Frameworks for Hadoop。

相关内容

  • 没有找到相关文章

最新更新