是否有一个简单的Python map-reduce框架使用常规的文件系统

我有几个问题可以很好地应用于Map-Reduce模型。我想尝试实现它们，但在这个阶段，我不想麻烦地安装像Hadoop或Disco这样的重量级系统。

是否有一个轻量级的Python框架用于map-reduce，它使用常规的文件系统进行输入、临时文件和输出?

一个Coursera大数据课程建议使用以下轻量级python Map-Reduce框架:

要快速入门，请尝试以下示例:

https://github.com/michaelfairley/mincemeatpy/zipball/v0.1.2

(提示:本例中对于[服务器地址]使用localhost)

http://pythonhosted.org/mrjob/非常适合在本地机器上快速入门，基本上您所需要的只是一个简单的命令:

http://jsmapreduce.com/——in-browser mapreduce;Python或Javascript;

查看Apache Spark。它是用Java编写的，但它也有一个Python API。您可以在本地机器上尝试它，然后，当您需要它时，您可以轻松地将计算分布到集群上。

MockMR - https://github.com/sjtrny/mockmr

这是为了教育用途。当前不并行操作，但接受标准Python对象作为IO。

这个问题很久以前就被问到了，但是我在周末完成了mapreduce的完整实现:remap.

https://github.com/gtoonstra/remap

非常容易安装，依赖最小，如果一切顺利，你应该可以在5分钟内运行一个测试。

整个处理管道正常工作，但提交和监视作业仍在进行中。

相关内容