并行处理云中的小函数



我有几百万/十亿(10^9)个数据输入集,需要处理。它们是安静的小<1kB。它们需要大约1秒的时间来处理。

我读过很多关于ApacheHadoop、MapReduce和StarCluster的文章。但我不确定处理它最有效、最快的方法是什么?

我正在考虑使用AmazonEC2或类似的云服务。

您可能会考虑类似AmazonEMR的东西,它负责Hadoop的许多管道。如果你只是想快速编写代码,那么hadoop流、hive和PIG都是开始使用hadoop w/out的好工具,要求你了解MapReduce的所有细节。

最新更新