GAE MapReduce,如何编写多个输出



我有一个数据集,我对其进行了多次映射。

假设我有 3 个用于 reduce 函数的键值对,如何修改输出,以便我有 3 个 blob 文件 - 每个键值对一个?

如果我能进一步澄清,请告诉我。

我认为

GAE Mapreduce库中不存在这样的功能(还?)。

根据数据集的大小和所需的输出类型,您可以通过选择化简器作为另一个输出编写器来绕过它。例如,如果其中一个化简器输出应直接返回到数据存储,而另一个输出应返回到文件,则可以自己打开文件并将输出写入其中。或者,您可以使用 operation.db.Put 序列化中间映射结果并将其显式存储到临时数据存储,并在该数据存储上执行单独的映射或归约作业。当然,这最终会比第一种解决方法更昂贵。

在您的特定键值示例中,我建议写入 Google Cloud Storage 文件,并对其进行后处理以根据需要将其拆分为三个文件。这也将使您能够更好地控制最终文件名。

相关内容

  • 没有找到相关文章

最新更新