小贝子编程

如何在Pytorch Distributed中使用自定义Rank到GPU映射

本文关键字：Rank 自定义 GPU 映射 Pytorch Distributed python pytorch
更新时间 : 2023-09-23
英文 : How to use a custom Rank to GPU mapping in Pytorch Distributed

我在一个4-gpu节点上运行PyTorch，我不是唯一一个运行项目的人。因此，有时某些gpu太忙，而其他gpu空闲。

假设GPU 0和GPU 2繁忙，但GPU 1和GPU 3不是，所以我只想使用这些GPU。似乎默认情况下，在pytorch分布中，Rank 0总是GPU 0。

我如何指定PyTorch Rank 0应该对应于GPU 1, Rank 1应该对应于GPU 3?

您可以通过设置变量CUDA_VISIBLE_DEVICES来告诉任何命令哪个gpu应该对它们可见。例如

CUDA_VISIBLE_DEVICES=2,3 python run.py <args>

这将只使GPU 2和3对该进程可见，因此DDP将只在您指定的GPU上运行。(注意这是零索引，即0是第一个GPU。)

最新更新

SwiftUI：Foreach in List - 有什么优势？
如何加载所有转储附加的字典在python pickle?
Jmeter语言 - 当前活动线程
Java作用域问题:try-catch块，解析字符串到日期
如何在主应用中获得UWP应用服务的通知?
复选框的定位
弹簧启动-采用与2个ymls不同的属性
Symfony 5.3+翻译提供商Crowdin不更新本地文件
从文本文件(.txt)中读取字节数组
如何下载完整的雅典娜查询结果到CSV文件
pyspark:在执行join - restrict相同列名选择时设置别名
如何在Eclipse RCP中隐藏/删除Preferences对话框中的导入/导出按钮
在自定义jackson反序列化器中以响应式方式从db加载实体
使用RestSharp从API返回JSON数据
OAuth同意屏幕不显示正确的AppName
使用ByRef更新记录集字段
提取多个XML文件中所有标签之间的文本，并将提取的文本复制到csv文件中
在Laravel和Vue之间共享数据的糟糕方式
可以在Azure Devops中找到需求文本文件
如何在tensorflow keras中引用ground truth变量?
Json解析并分配给DTO
如何通过不重复结果来正确地循环一个范围
给出零最优值的AMPL程序
再次出现身份验证问题，GCP源存储库使用publickey
打印添加到数据库的记录数有问题
如何插入一行到一个表在sql是完全相同的另一个表，但只有一个列不同?
如何在jupyter notebook中导入两个或多个包?
对product类型的访问器进行泛型迭代
如何在 react 中"remember"昂贵的递归函数中先前计算的值？
在eclipse IDE上使用Tomcat服务器在本地机器上修复eclipse上的编译错误，我能做些什么?

如何在Pytorch Distributed中使用自定义Rank到GPU映射

相关内容

最新更新

热门标签：