两次,当我使用4x1080TI完成培训模型时,服务器下降了。服务器为什么崩溃?
我得到Sysylog,发现Nvidia-Driver或GPU的问题。
syslogs :(和nvidia-bug-report.log)
[第二个]
9月6日21:11:41 GPU-8-Server-Server-Intesight内核:[31429.221258] NVRM: rminitadapter失败了!(0x30:0xffff:682)
9月6日21:11:41 GPU-8-Server-Server-Intesight内核:[31429.221337] NVRM: RM_INIT_ADAPTER因设备少数数量0
而失败9月6日21:13:54 GPU-8-Server-Server-Intesight内核:[31562.154256] NVRM: rminitadapter失败了!(0x30:0xffff:682)
9月6日21:13:54 GPU-8-Server-Server-Intesight内核:[31562.154306] NVRM: RM_INIT_ADAPTER失败的设备少数号1
[第一个]
9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990374] NVRM: GPU在PCI:0000:04:00:GPU-BC54DB68-A3CB-54E9-7287-B95C69E41CF1
9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990375] NVRM: GPU板序列号:
9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990376] NVRM: XID(PCI:0000:04:00):79,GPU从公共汽车上掉下来。
9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990377] NVRM: GPU在0000:04:00.0掉下了公共汽车。
9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990377] NVRM: GPU在船上。
9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990655] NVRM:A GPU崩溃转储已创建。如果可能的话,请运行
9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990655] NVRM: nvidia-bug-report.sh作为词根,在
之前收集此数据9月6日02:48:40 GPU-8-Server-Server-Intesight内核:[557998.990655] NVRM: NVIDIA内核模块已卸载。
9月6日02:48:41 GPU-8-Server-Server-Intsight内核:[557999.884383] NVRM: GPU在0000:04:00.0掉下了公共汽车。
9月6日02:48:41 GPU-8-Server-Server-Intsight内核:[557999.901942] NVRM:A GPU崩溃转储已创建。如果可能的话,请运行
9月6日02:48:41 GPU-8-Server-Server-Intsight内核:[557999.901942] NVRM: nvidia-bug-report.sh作为词根,在
之前收集此数据9月6日02:48:41 GPU-8-Server-Server-Intsight内核:[557999.901942] NVRM: NVIDIA内核模块已卸载。
9月6日02:48:41 GPU-8-Server-Server-Intsight内核:[558000.356948] NVRM: rminitadapter失败了!(0x30:0xffff:682)
9月6日02:48:41 GPU-8-Server-Server-Intsight内核:[558000.4444379] NVRM: RM_INIT_ADAPTER因设备少数数量0
而失败9月6日02:48:45 GPU-8-Server-Server-Intsight内核:[558004.604173] NVRM: request_irq()失败(-22)
9月6日02:48:48 GPU-8-Server-Server-Intesight内核:[558007.497475] NVRM: rminitadapter失败了!(0x23:0x56:468)
9月6日02:48:48 GPU-8-Server-Server-Intesight内核:[558007.497489] NVRM: RM_INIT_ADAPTER因设备少数数量0
而失败9月6日02:48:50 GPU-8-Server-Server-Intsight内核:[558008.878985] NVRM: request_irq()失败(-22)
9月6日02:48:53 GPU-8-Server-Server-Intesight内核:[558011.735642] NVRM: rminitadapter失败了!(0x23:0x56:468)
9月6日02:48:53 GPU-8-Server-Server-Intsight内核:[558011.735658] NVRM: RM_INIT_ADAPTER因设备少数数量0
而失败9月6日02:48:54 GPU-8-Server-Server-Intesight内核:[558013.108772] NVRM: request_irq()失败(-22)
9月6日02:48:55 GPU-8-Server-Server-Intesight内核:[558013.757168]错误:错误: 无法在0000000132081000上处理内核分页请求
9月6日02:48:55 GPU-8-Server-Server-Intsight内核:[558013.757173] IP:[] kmem_cache_alloc 0x77/0x1f0
9月6日02:48:55 GPU-8-Server-Server-Intsight内核:[558013.757175] PGD 10357D8067 PUD 0
我们遇到了这个问题。从我可以告诉您的设置非常相似,带有多个GPU和X99主板。我们通过在启动内核参数中设置pcie_aspm=off
来设法减轻错误。我搜索" ASPM"在您提供的NVIDIA错误报告日志中,您会注意到以下内容:
[0.167842] ACPI FADT声明该系统不支持PCIE ASPM,因此请禁用
[0.278085] ACPI PNP0A03:03:FADT表示ASPM不支持,使用BIOS配置
[0.282583] ACPI PNP0A08:00:FADT表示ASPM不支持,使用BIOS配置
[2.795337] R8169 0000:0A:00.0:不能禁用ASPM;OS没有ASPM控件
目前我们的GPU服务器仍然存在一些问题,但这可能会有所帮助。
我最初在此线程上找到了这个想法
更新:我们仍然会收到偶尔的RmInitAdapter
消息,但我们没有任何稳定性问题。根据记录,我们现在正在运行NVIDIA的387.34驱动程序,并且有以下启动参数:
pcie_aspm=off rcutree.rcu_idle_gp_delay=1
作为旁注,我们还基于X299主板有一个较新的Quad-GPU盒,我们也有类似的问题。
相关:
-
pcie_aspm
做什么?