在我的python映射器代码中,我需要访问-input 'path'中给出的'path'。如何在python代码中访问它?
可以从os.environ
读取输入文件。例如,
import os
input_file = os.environ['map_input_file']
实际上,您也可以从os.environ
中读取其他JobConf。注意:在执行流作业期间,"mapred"参数的名称会进行转换。点(.)变成下划线(_)。例如,mapred.job.id变为mapred_job_id, mapred.jar变为mapred_jar。要获取流作业的mapper/reducer中的值,请使用带下划线的参数名。
我还发现了一篇非常有用的文章:a Guide to Python Frameworks for Hadoop。