电子邮件和地图减少工作



我刚刚开始使用Hadoop并编写一些Map Reduce作业。 我正在寻找有关用python编写MR作业的帮助,该作业允许我获取一些电子邮件并将它们放入HDFS,以便我可以搜索电子邮件的文本或附件?

谢谢!

为了处理电子邮件,来自 stdlib 的 email 模块可能会很方便。对于Hadoop方面,将Python与Hadoop一起使用可能很方便,尽管有很多Google结果可供选择。

是的,如果你想使用编写Python代码来运行MapReduce作业,你需要使用Hadoop流。

相关内容

  • 没有找到相关文章

最新更新