是否有一个简单的Python map-reduce框架使用常规的文件系统



我有几个问题可以很好地应用于Map-Reduce模型。我想尝试实现它们,但在这个阶段,我不想麻烦地安装像Hadoop或Disco这样的重量级系统。

是否有一个轻量级的Python框架用于map-reduce,它使用常规的文件系统进行输入、临时文件和输出?

一个Coursera大数据课程建议使用以下轻量级python Map-Reduce框架:

  • http://code.google.com/p/octopy/
  • https://github.com/michaelfairley/mincemeatpy

要快速入门,请尝试以下示例:

https://github.com/michaelfairley/mincemeatpy/zipball/v0.1.2

(提示:本例中对于[服务器地址]使用localhost)

http://pythonhosted.org/mrjob/非常适合在本地机器上快速入门,基本上您所需要的只是一个简单的命令:

http://jsmapreduce.com/——in-browser mapreduce;Python或Javascript;

查看Apache Spark。它是用Java编写的,但它也有一个Python API。您可以在本地机器上尝试它,然后,当您需要它时,您可以轻松地将计算分布到集群上。

MockMR - https://github.com/sjtrny/mockmr

这是为了教育用途。当前不并行操作,但接受标准Python对象作为IO。

这个问题很久以前就被问到了,但是我在周末完成了mapreduce的完整实现:remap.

https://github.com/gtoonstra/remap

非常容易安装,依赖最小,如果一切顺利,你应该可以在5分钟内运行一个测试。

整个处理管道正常工作,但提交和监视作业仍在进行中。

相关内容

  • 没有找到相关文章