带有GPU的Jupyter DockerSpawner:"无法初始化NVML:未知错误"



我有以下问题。

我正在使用带有GPU的JupyterDockerSpawner。当我以用户身份登录并运行nvidia-smi时,我会得到预期的输出。但是,当另一个用户登录Failed to initialize NVML: Unknown Error并且另一个使用nvidia-smi获得预期输出时。然而,几个小时后,两个用户在运行nvidia-smi后都会出现相同的错误。

我看了一下这个问题:初始化NVML失败:几个小时后Docker出现未知错误,但它对我不起作用。

编辑:我的jupyterhub_config:

c.JupyterHub.spawner_class = 'dockerspawner.DockerSpawner'
c.DockerSpawner.remove_containers = True
c.DockerSpawner.extra_create_kwargs = {'user': 'root'}
c.DockerSpawner.extra_host_config = {'runtime': 'nvidia'}
c.Spawner.environment = {'GRANT_SUDO': 'yes'}
# c.Spawner.args = ['--allow-root']
c.Spawner.cmd = ['start-notebook.sh', '--allow-root']

def create_dir_hook(spawner):
username = spawner.user.name  # get the username
volume_path = os.path.join('/home/', username)
if not os.path.exists(volume_path):
os.mkdir(volume_path, 0o755)
spawner.environment = {
"NB_USER": username,
"CHOWN_HOME": "yes",
"CHOWN_HOME_OPTS": "-R"
}
c.Spawner.pre_spawn_hook = create_dir_hook

找到了一个解决方案。转换

c.DockerSpawner.extra_host_config = {'runtime': 'nvidia'}

c.DockerSpawner.extra_host_config = {'runtime': 'nvidia', 'privileged': True}

最新更新