我目前正在为GPU集群开发一个机器学习工具包。我在多个GPU上测试了逻辑回归分类器。
我使用的是Master Worker方法,其中主CPU创建几个POSIX线程,矩阵在GPU之间划分。
但我遇到的问题是如何存储无法存储在一台机器上的大矩阵。是否有任何库或方法可以在节点之间共享数据?
我不确定你的矩阵有多大,但你应该检查几周前发布的CUDA 4.0。其中一个主要功能是跨多个CUDA设备/GPU共享内存
我目前正在为GPU集群开发一个机器学习工具包。我在多个GPU上测试了逻辑回归分类器。
我使用的是Master Worker方法,其中主CPU创建几个POSIX线程,矩阵在GPU之间划分。
但我遇到的问题是如何存储无法存储在一台机器上的大矩阵。是否有任何库或方法可以在节点之间共享数据?
我不确定你的矩阵有多大,但你应该检查几周前发布的CUDA 4.0。其中一个主要功能是跨多个CUDA设备/GPU共享内存
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium