NVRM:rminitadapter失败:XID:79,GPU从公共汽车上掉下来



两次,当我使用4x1080TI完成培训模型时,服务器下降了。服务器为什么崩溃?

我得到Sysylog,发现Nvidia-Driver或GPU的问题。

syslogs :(和nvidia-bug-report.log)

[第二个]

9月6日21:11:41 GPU-8-Server-Server-Intesight内核:[31429.221258] NVRM: rminitadapter失败了!(0x30:0xffff:682)

9月6日21:11:41 GPU-8-Server-Server-Intesight内核:[31429.221337] NVRM: RM_INIT_ADAPTER因设备少数数量0

而失败

9月6日21:13:54 GPU-8-Server-Server-Intesight内核:[31562.154256] NVRM: rminitadapter失败了!(0x30:0xffff:682)

9月6日21:13:54 GPU-8-Server-Server-Intesight内核:[31562.154306] NVRM: RM_INIT_ADAPTER失败的设备少数号1

[第一个]

9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990374] NVRM: GPU在PCI:0000:04:00:GPU-BC54DB68-A3CB-54E9-7287-B95C69E41CF1

9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990375] NVRM: GPU板序列号:

9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990376] NVRM: XID(PCI:0000:04:00):79,GPU从公共汽车上掉下来。

9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990377] NVRM: GPU在0000:04:00.0掉下了公共汽车。

9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990377] NVRM: GPU在船上。

9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990655] NVRM:A GPU崩溃转储已创建。如果可能的话,请运行

9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990655] NVRM: nvidia-bug-report.sh作为词根,在

之前收集此数据

9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990655] NVRM: NVIDIA内核模块已卸载。

9月6日02:48:41 GPU-8-Server-Server-Intsight内核:[557999.884383] NVRM: GPU在0000:04:00.0掉下了公共汽车。

9月6日02:48:41 GPU-8-Server-Server-Intsight内核:[557999.901942] NVRM:A GPU崩溃转储已创建。如果可能的话,请运行

9月6日02:48:41 GPU-8-Server-Server-Intsight内核:[557999.901942] NVRM: nvidia-bug-report.sh作为词根,在

之前收集此数据

9月6日02:48:41 GPU-8-Server-Server-Intsight内核:[557999.901942] NVRM: NVIDIA内核模块已卸载。

9月6日02:48:41 GPU-8-Server-Server-Intsight内核:[558000.356948] NVRM: rminitadapter失败了!(0x30:0xffff:682)

9月6日02:48:41 GPU-8-Server-Server-Intsight内核:[558000.4444379] NVRM: RM_INIT_ADAPTER因设备少数数量0

而失败

9月6日02:48:45 GPU-8-Server-Server-Intsight内核:[558004.604173] NVRM: request_irq()失败(-22)

9月6日02:48:48 GPU-8-Server-Server-Intesight内核:[558007.497475] NVRM: rminitadapter失败了!(0x23:0x56:468)

9月6日02:48:48 GPU-8-Server-Server-Intesight内核:[558007.497489] NVRM: RM_INIT_ADAPTER因设备少数数量0

而失败

9月6日02:48:50 GPU-8-Server-Server-Intsight内核:[558008.878985] NVRM: request_irq()失败(-22)

9月6日02:48:53 GPU-8-Server-Server-Intesight内核:[558011.735642] NVRM: rminitadapter失败了!(0x23:0x56:468)

9月6日02:48:53 GPU-8-Server-Server-Intsight内核:[558011.735658] NVRM: RM_INIT_ADAPTER因设备少数数量0

而失败

9月6日02:48:54 GPU-8-Server-Server-Intesight内核:[558013.108772] NVRM: request_irq()失败(-22)

9月6日02:48:55 GPU-8-Server-Server-Intesight内核:[558013.757168]错误:错误: 无法在0000000132081000上处理内核分页请求

9月6日02:48:55 GPU-8-Server-Server-Intsight内核:[558013.757173] IP:[] kmem_cache_alloc 0x77/0x1f0

9月6日02:48:55 GPU-8-Server-Server-Intsight内核:[558013.757175] PGD 10357D8067 PUD 0

我们遇到了这个问题。从我可以告诉您的设置非常相似,带有多个GPU和X99主板。我们通过在启动内核参数中设置pcie_aspm=off来设法减轻错误。我搜索" ASPM"在您提供的NVIDIA错误报告日志中,您会注意到以下内容:

[0.167842] ACPI FADT声明该系统不支持PCIE ASPM,因此请禁用

[0.278085] ACPI PNP0A03:03:FADT表示ASPM不支持,使用BIOS配置

[0.282583] ACPI PNP0A08:00:FADT表示ASPM不支持,使用BIOS配置

[2.795337] R8169 0000:0A:00.0:不能禁用ASPM;OS没有ASPM控件

目前我们的GPU服务器仍然存在一些问题,但这可能会有所帮助。

我最初在此线程上找到了这个想法

更新:我们仍然会收到偶尔的RmInitAdapter消息,但我们没有任何稳定性问题。根据记录,我们现在正在运行NVIDIA的387.34驱动程序,并且有以下启动参数:

pcie_aspm=off rcutree.rcu_idle_gp_delay=1

作为旁注,我们还基于X299主板有一个较新的Quad-GPU盒,我们也有类似的问题。

相关:

  • pcie_aspm做什么?

相关内容

  • 没有找到相关文章

最新更新