需要关于在多个GPU上分发数据的指导



我目前正在为GPU集群开发一个机器学习工具包。我在多个GPU上测试了逻辑回归分类器。

我使用的是Master Worker方法,其中主CPU创建几个POSIX线程,矩阵在GPU之间划分。

但我遇到的问题是如何存储无法存储在一台机器上的大矩阵。是否有任何库或方法可以在节点之间共享数据?

我不确定你的矩阵有多大,但你应该检查几周前发布的CUDA 4.0。其中一个主要功能是跨多个CUDA设备/GPU共享内存

相关内容

  • 没有找到相关文章

最新更新