GPU云主机

GPU监控

2026-01-28 01:49:28

前提条件

·         确保GPU云主机已安装GPU驱动/GRID驱动。驱动安装请参见NVIDIA驱动安装指引-GPU云主机-用户指南-安装NVIDIA驱动

·         确保您已在GPU云主机上安装云监控插件,关于如何安装云监控插件,请参见安装监控Agent-弹性云主机-用户指南-监控

注意

目前仅部分支持安装监控Agent的地区能够支持GPU监控项,详情请参见监控Agent概览-弹性云主机-用户指南-监控

 

GPU监控项说明

监控项

单位

指标说明

维度

GPU使用率

%

评估负载所消耗的计算能力,非空闲状态百分比

per-GPU

GPU显存使用量

可选KB、MB、GB,默认展示MB 。

评估负载对显存的占用

per-GPU

GPU显存使用率

%

评估负载对显存的占用的百分比

per-GPU

GPU温度

评估GPU散热情况

per-GPU

GPU功耗

W

评估GPU耗电情况

per-GPU

通过弹性云主机控制台查看GPU监控项

1.  登录控制中心。

2.  单击控制中心顶部的,选择“地域”。

3.  单击左侧导航栏“产品服务列表”,选择“计算 > 弹性云主机”。

4.  在弹性云主机列表页点击某一GPU云主机的主机名称进入主机详情页。

5.  点击“监控”tab,选择“GPU使用率”或"显存使用率"即可查看该台GPU云主机下全部显卡的这两个GPU监控项。

通过云监控控制台查看GPU监控项

目前有两种方式可以进入云监控控制台查看GPU监控项,具体如下:

方式一

1.  登录控制中心。

2.  单击控制中心顶部的,选择“地域”。

3.  单击左侧导航栏“产品服务列表”,选择“计算 > 弹性云主机”。

4.  在弹性云主机列表页点击某一GPU云主机的主机名称进入主机详情页。

5.  点击“监控”tab,点击"查看更多监控指标详情"跳转至云主机监控控制台。

6.  点击“操作系统监控>GPU”,查看全量的GPU监控项。若该台GPU云主机挂载了多块显卡,则可在下拉框中选择对应的GPU查看该GPU的GPU使用率、GPU显存使用量、GPU显存使用率、GPU温度、GPU功耗。

方式二

1.  登录控制中心。

2.  单击控制中心顶部的,选择“地域”。

3.  单击左侧导航栏“产品服务列表”,选择“管理与部署> 云监控”。

4.  单击"主机监控>云主机监控",进入云主机监控列表页。

5.  选中所要查看的GPU云主机,点击“操作>查看监控图标”,进入云主机监控详情页。

6.  点击“监控”tab,点击"查看更多监控指标详情"跳转至云主机监控控制台。

7.  若该台GPU云主机挂载了多块显卡,则可在下拉框中选择对应的GPU查看该GPU的GPU使用率、GPU显存使用量、GPU显存使用率、GPU温度、GPU功耗。

 


h7aDF24J5Ngh