GPU云主机

GPU云主机发生掉卡现象

2026-02-24 02:25:15

问题描述

GPU云主机发生掉卡现象,比如申请4卡的计算加速型GPU云主机,但是nvidia-smi显示的显卡数少于4张。

具体现象:
执行以下命令查看dmesg日志

dmesg |grep -i nvrm

查找相关字段发现如下错误:

NVRM:GPU 0000:00:07.0: RmInitAdapter failed!....
NVRM:GPU 0000:00:07.0: rm init-adapter failed,device minor numb....

可能原因
宿主机硬件故障

解决方案
如遇到该问题请提工单联系运维处理。

 


nBk8MA62gV8Y