Python多进程:共享内存和pickle问题



我过去已经做过一些多处理,但这一次,我找不到解决办法。

我知道我只能pickle位于模块顶层的函数。到目前为止,这一直工作得很好,但现在我必须在实例中使用共享内存,我看不到将函数移动到顶层的方法。

考虑这个

import numpy as np
import multiprocessing
from itertools import repeat
class Test:
    def __init__(self, x, y):
        self.x = x
        self.y = y
    def my_task(self):
        # Create process pool
        p = multiprocessing.Pool(4)
        # Create shared memory arrays
        share1 = multiprocessing.Array("d", self.x, lock=False)
        share2 = multiprocessing.Array("d", self.y, lock=False)
        def mp(xc, yc, c):
            # This is just some random weird statement
            foo = np.sum(share1) + np.sum(share2) +xc + yc + c
            return foo

        def mp_star(args):
            return mp(*args)
        # Define some input for multiprocessing
        xs = [1,2,3,4,5]
        ys = [5,6,7,8,9]
        c = 10
        # Submit tasks
        result = p.map(mp_star, zip(xs, ys, repeat(c)))
        # Close pool
        p.close()
        return result

# Get some input data
x = np.arange(10)
y = x**2
# Run the thing
cl = Test(x=x, y=y)
cl.my_task()

您可以看到,我需要从实例本身访问共享数据。出于这个原因,我将多处理部分放在方法'my_task'中。由于这个原因,我得到了典型的pickle错误

_pickle.PicklingError: Can't pickle <function Test.my_task.<locals>.mp_star at 0x10224a400>: attribute lookup mp_star on __main__ failed

我已经知道了。我不能将多处理任务移动到顶层,因为我需要访问共享数据。此外,我想保持依赖关系的数量低,所以我需要使用内置的多处理库。

我希望代码是有意义的。那么,如何在多处理中使用实例中的共享内存空间呢?有没有办法把函数移到顶层?

因为唯一可以被pickle的函数是那些在顶层的函数(参见pickle文档),而multiprocessing想要pickle它,所以你只能把它放在顶层。你只需要重新设计你的需求。

例如,你有函数的参数,为什么不提供共享数据?或者您可以将共享数据放在一个可pickle的实例中,并将函数置于顶层(您仍然可以为顶层函数提供类实例)。

例如,如果你想把共享的数据放在一个实例中,你可以简单地在顶层定义方法,就像它是一个普通的方法一样(但是把定义放在顶层):

def fubar(self):
    return self.x
class C(object):
     def __init__(self, x):
          self.x = x
     foo = fubar
c = C()

现在可以pickle fubar。您可以将其称为c.foo()fubar(c),但您只能将其pickle为pickle.dumps(fubar),因此当它被解pickle并调用时,它将期望以稍后的方式调用,因此您必须提供self参数以及p.map(即p.map(mp_star, zip(repeat(self), xs, ys, repeat(c)))中的其他参数。当然你也要确保self是可pickle的

最新更新