我有几个问题可以很好地应用于Map-Reduce模型。我想尝试实现它们,但在这个阶段,我不想麻烦地安装像Hadoop或Disco这样的重量级系统。
是否有一个轻量级的Python框架用于map-reduce,它使用常规的文件系统进行输入、临时文件和输出?
一个Coursera大数据课程建议使用以下轻量级python Map-Reduce框架:
- http://code.google.com/p/octopy/
- https://github.com/michaelfairley/mincemeatpy
要快速入门,请尝试以下示例:
https://github.com/michaelfairley/mincemeatpy/zipball/v0.1.2http://pythonhosted.org/mrjob/非常适合在本地机器上快速入门,基本上您所需要的只是一个简单的命令:
http://jsmapreduce.com/——in-browser mapreduce;Python或Javascript;
查看Apache Spark。它是用Java编写的,但它也有一个Python API。您可以在本地机器上尝试它,然后,当您需要它时,您可以轻松地将计算分布到集群上。
MockMR - https://github.com/sjtrny/mockmr
这是为了教育用途。当前不并行操作,但接受标准Python对象作为IO。
这个问题很久以前就被问到了,但是我在周末完成了mapreduce的完整实现:remap.
https://github.com/gtoonstra/remap非常容易安装,依赖最小,如果一切顺利,你应该可以在5分钟内运行一个测试。
整个处理管道正常工作,但提交和监视作业仍在进行中。