我刚刚开始使用Hadoop并编写一些Map Reduce作业。 我正在寻找有关用python编写MR作业的帮助,该作业允许我获取一些电子邮件并将它们放入HDFS,以便我可以搜索电子邮件的文本或附件?
谢谢!
为了处理电子邮件,来自 stdlib 的 email
模块可能会很方便。对于Hadoop方面,将Python与Hadoop一起使用可能很方便,尽管有很多Google结果可供选择。
是的,如果你想使用编写Python代码来运行MapReduce作业,你需要使用Hadoop流。