使用映射/减少从多个集合创建映射



假设有N组单词,我想从这些集合创建一个映射,以便它将单词映射到所有这些集合中出现的单词数量。

例如:

N = 3S1 = {"a", "b", "c"}, S2 = {"a", "b", "d"}, S3 = {"a", "c", "e"}M = { "a" -> 3, "b" -> 2, "c" -> 2, "d" -> 1, "e" -> 1}

现在我有M台电脑可以使用。因此,我可以让每台计算机从N/M集合中创建地图。在第二阶段(最后)阶段,我可以从M地图创建地图。看起来像一个map/reduce.有意义吗?您将如何改进这种方法?

这是标准的地图缩减示例。

例如,这里是基于肉馅map/reduce库的Python代码:

#!/usr/bin/env python
import mincemeat
S1 = {"a", "b", "c"}
S2 = {"a", "b", "d"}
S3 = {"a", "c", "e"}
datasource = dict(enumerate([S1,S2,S3]))
def mapfn(k, v):
    for w in v:
        yield w, 1
def reducefn(k, vs):
    result = sum(vs)
    return result
s = mincemeat.Server()
s.datasource = datasource
s.mapfn = mapfn
s.reducefn = reducefn
results = s.run_server(password="changeme")
print results

指纹

{'a': 3, 'c': 2, 'b': 2, 'e': 1, 'd': 1}

请注意,map/reduce 的结构方式意味着服务器在客户端完成任务时向客户端提供新任务。

这意味着不一定对每个客户端进行 N/M 任务的固定分区。

如果一个客户端比其他客户端更快,那么它最终将被赋予更多的任务,以便充分利用可用资源。

相关内容

  • 没有找到相关文章

最新更新