NVRM:rminitadapter失败:XID:79，GPU从公共汽车上掉下来

两次，当我使用4x1080TI完成培训模型时，服务器下降了。服务器为什么崩溃？

我得到Sysylog，发现Nvidia-Driver或GPU的问题。

syslogs ：（和nvidia-bug-report.log）

[第二个]

9月6日21:11:41 GPU-8-Server-Server-Intesight内核：[31429.221258] NVRM： rminitadapter失败了！（0x30：0xffff：682）

9月6日21:11:41 GPU-8-Server-Server-Intesight内核：[31429.221337] NVRM： RM_INIT_ADAPTER因设备少数数量0
而失败
9月6日21:13:54 GPU-8-Server-Server-Intesight内核：[31562.154256] NVRM： rminitadapter失败了！（0x30：0xffff：682）
9月6日21:13:54 GPU-8-Server-Server-Intesight内核：[31562.154306] NVRM： RM_INIT_ADAPTER失败的设备少数号1

[第一个]

9月6日02:48:40 GPU-8-Server-Server-Intesight内核：[557998.990374] NVRM： GPU在PCI：0000：04：00：GPU-BC54DB68-A3CB-54E9-7287-B95C69E41CF1

9月6日02:48:40 GPU-8-Server-Server-Intesight内核：[557998.990375] NVRM： GPU板序列号：

9月6日02:48:40 GPU-8-Server-Server-Intesight内核：[557998.990376] NVRM： XID（PCI：0000：04：00）：79，GPU从公共汽车上掉下来。

9月6日02:48:40 GPU-8-Server-Server-Intesight内核：[557998.990377] NVRM： GPU在0000：04：00.0掉下了公共汽车。

9月6日02:48:40 GPU-8-Server-Server-Intesight内核：[557998.990377] NVRM： GPU在船上。

9月6日02:48:40 GPU-8-Server-Server-Intesight内核：[557998.990655] NVRM：A GPU崩溃转储已创建。如果可能的话，请运行

9月6日02:48:40 GPU-8-Server-Server-Intesight内核：[557998.990655] NVRM： nvidia-bug-report.sh作为词根，在
之前收集此数据
9月6日02:48:40 GPU-8-Server-Server-Intesight内核：[557998.990655] NVRM： NVIDIA内核模块已卸载。
9月6日02:48:41 GPU-8-Server-Server-Intsight内核：[557999.884383] NVRM： GPU在0000：04：00.0掉下了公共汽车。
9月6日02:48:41 GPU-8-Server-Server-Intsight内核：[557999.901942] NVRM：A GPU崩溃转储已创建。如果可能的话，请运行
9月6日02:48:41 GPU-8-Server-Server-Intsight内核：[557999.901942] NVRM： nvidia-bug-report.sh作为词根，在
之前收集此数据
9月6日02:48:41 GPU-8-Server-Server-Intsight内核：[557999.901942] NVRM： NVIDIA内核模块已卸载。
9月6日02:48:41 GPU-8-Server-Server-Intsight内核：[558000.356948] NVRM： rminitadapter失败了！（0x30：0xffff：682）
9月6日02:48:41 GPU-8-Server-Server-Intsight内核：[558000.4444379] NVRM： RM_INIT_ADAPTER因设备少数数量0
而失败
9月6日02:48:45 GPU-8-Server-Server-Intsight内核：[558004.604173] NVRM： request_irq（）失败（-22）
9月6日02:48:48 GPU-8-Server-Server-Intesight内核：[558007.497475] NVRM： rminitadapter失败了！（0x23：0x56：468）
9月6日02:48:48 GPU-8-Server-Server-Intesight内核：[558007.497489] NVRM： RM_INIT_ADAPTER因设备少数数量0
而失败
9月6日02:48:50 GPU-8-Server-Server-Intsight内核：[558008.878985] NVRM： request_irq（）失败（-22）
9月6日02:48:53 GPU-8-Server-Server-Intesight内核：[558011.735642] NVRM： rminitadapter失败了！（0x23：0x56：468）
9月6日02:48:53 GPU-8-Server-Server-Intsight内核：[558011.735658] NVRM： RM_INIT_ADAPTER因设备少数数量0
而失败
9月6日02:48:54 GPU-8-Server-Server-Intesight内核：[558013.108772] NVRM： request_irq（）失败（-22）
9月6日02:48:55 GPU-8-Server-Server-Intesight内核：[558013.757168]错误：错误：无法在0000000132081000上处理内核分页请求
9月6日02:48:55 GPU-8-Server-Server-Intsight内核：[558013.757173] IP：[] kmem_cache_alloc 0x77/0x1f0
9月6日02:48:55 GPU-8-Server-Server-Intsight内核：[558013.757175] PGD 10357D8067 PUD 0

我们遇到了这个问题。从我可以告诉您的设置非常相似，带有多个GPU和X99主板。我们通过在启动内核参数中设置pcie_aspm=off来设法减轻错误。我搜索" ASPM"在您提供的NVIDIA错误报告日志中，您会注意到以下内容：

[0.167842] ACPI FADT声明该系统不支持PCIE ASPM，因此请禁用

[0.278085] ACPI PNP0A03：03：FADT表示ASPM不支持，使用BIOS配置

[0.282583] ACPI PNP0A08：00：FADT表示ASPM不支持，使用BIOS配置

[2.795337] R8169 0000：0A：00.0：不能禁用ASPM;OS没有ASPM控件

目前我们的GPU服务器仍然存在一些问题，但这可能会有所帮助。

我最初在此线程上找到了这个想法

更新：我们仍然会收到偶尔的RmInitAdapter消息，但我们没有任何稳定性问题。根据记录，我们现在正在运行NVIDIA的387.34驱动程序，并且有以下启动参数：

pcie_aspm=off rcutree.rcu_idle_gp_delay=1

作为旁注，我们还基于X299主板有一个较新的Quad-GPU盒，我们也有类似的问题。

相关内容

最新更新

热门标签：