为什么多处理在一定数量的任务后突然停止?

我正在尝试编写一些代码来并行化一堆任务。基本上，脚本的组织方式如下。

import multiprocessing as mp

def obj_train(x):
return x.train()

class ServerModel(nn.Module):
self.S = nn.Parameter(torch.rand(x, y), requires_grad=True)

class ClientModel(nn.Module):
self.S = nn.Parameter(torch.rand(x, y), requires_grad=True)
self.U = nn.Parameter(torch.rand(x, y), requires_grad=True)

class Server:
def __init__(self, model):
self.model = model
...
def train(clients):
for i, c in enumerate(clients):
sd = c.model.state_dict()
sd['S'] = self.model.S
c.model.load_state_dict(sd)
self.c_list = random.sample(clients, 200)
pool = mp.Pool(mp.cpu_count()-1)
results = pool.map(obj_train, self.c_list)
pool.close()
pool.join()
print("Training complete")

class Client:
def __init__(self, client_id, model, train_set):
self.id = client_id
self.model = model
self.train_set = train_set
def train(self):
self.optimizer = optim.SGD([self.model.S, self.model.U])
for i in self.train_set:
loss = self.model(i)
loss.backward()
self.optimizer.step()
print("Trained client %d", self.id)
return self.model.S

if __name__ == '__main__':
...
server = Server(server_model)
clients = [Client(u, ClientModel(), train_set[u]) for u in range(n_clients)]
server.train(clients)

好的，问题出在多处理中。我尝试了很多方法，但所有这些方法都给了我同样的问题。服务器应该管理 200 个客户端的训练，但在一定数量的训练(取决于方法，但大约 50-100 次(后，脚本完全卡住，CPU 的核心停止工作。

你有什么想法吗？我尝试过的其他方法是例如mp.Pool和ProcessPoolExecutor。

谢谢你的帮助。

可能是您的机器能够处理的最大进程/线程数是多少？例如，当将网络爬虫从开发移动到生产时，机器不允许更多进程是很常见的。

我会看看文件

/etc/sysctl.d

并以防增加机器处理的可能过程数量。

另一个原因可能是您限制了 RAM 限制或类似的东西，请尝试再次快速浏览该命令

htop

其次

free -m

看看他们告诉你什么。这可能是硬件问题。而从软件来看，您可能正在使用的库 https://docs.python.org/2/library/multiprocessing.html 具有硬编码限制。同样在这里，您可以轻松地在库参数中将其设置得更高。

最后但并非最不重要的一点是，尝试逐步找到问题。我会用 2 个进程对其进行测试，然后慢慢递增以查看应用程序何时开始出现问题。到那时，问题所在可能会更加清晰。祝你好运！

相关内容

最新更新

热门标签：