For the complete documentation index, see llms.txt. This page is also available as Markdown.

我的 GPU 是否健康?

GPU 面板仅在 GPU 实例上显示。

GPU Utilization

GPU 的计算占用率,以百分比表示。这是在至少有一个 CUDA 内核正在设备上运行的采样窗口中的占比——它表明 GPU 处于忙碌状态,但不一定是在处理有效负载。一个因宿主机侧数据加载成为瓶颈的模型,可能在吞吐量较低的情况下仍显示高利用率,因此请始终将此面板与应用侧的吞吐量数据结合阅读。

GPU Memory Used / GPU Memory Total

VRAM 使用情况。GPU Memory Used 是您的进程在设备上当前分配的用量;GPU Memory Total 是显卡的物理容量。

VRAM 耗尽是 CUDA 内存溢出崩溃最常见的原因。如果作业意外终止,在判断是否为宿主机问题之前,请先检查此面板——接近总量是需要警惕的信号。

GPU Temperature

GPU 的芯片温度,单位为摄氏度。现代数据中心 GPU 报告单一的结温(NVIDIA)或边缘温度(AMD),设备固件使用该温度值来驱动自身的热管理决策。

需要关注的情况:

  • 持续接近降频阈值(通常为 80 多度到 90 度出头摄氏度,因厂商而异)——固件将对显卡进行降频以保持安全,表现为您的应用在利用率保持高位的同时出现突然的、原因不明的性能下降。如果您发现这一情况出现在以往在同一硬件上运行时温度更低的工作负载上,说明散热路径已退化;请联系支持。

  • 之前稳定的工作负载出现温度突刺——通常表明发生了风扇事件(见下方 GPU Fan Speed)或同一机箱中存在高热邻居。

  • 温度持续远低于降频阈值——健康状态,无需处理。

您无法从 Guest 内部直接降低 GPU 温度;如果显卡过热,解决方案要么是降低工作负载的占空比,要么是上报给支持团队,由其检查机箱。

GPU Fan Speed

风扇转速,以 0 到 1 之间的分数表示(0.7 表示风扇以最高转速的 70% 运行)。显卡固件根据温度自动控制风扇,因此本面板在与 GPU Temperature 结合阅读时最为有用:

  • 风扇转速随温度同步上升——散热回路运作正常,无需处理。

  • 风扇转速钉在最高值而温度持续攀升——散热系统已无余量。显卡接下来将降频,之后可能触发 GPU Reset Required。请立即开启工单。

  • 温度较高而风扇转速偏低——固件未驱动风扇,或风扇控制器发生故障。这属于硬件故障;请开启工单。

  • 空闲显卡的风扇转速为 0——对于具有被动空闲行为的显卡,这属于正常现象。

GPU Power Draw

显卡的实时功耗,单位为瓦特。功耗、温度和风扇转速三者合在一起,能够告诉您显卡是在做真实计算还是陷入了退化状态——一块"100% 利用率"但实际功耗远低于额定 TDP 的显卡,通常是在等待某些事情,而非在进行计算。

GPU Reset Required

一个硬性信号,表明设备已上报需要重置的致命状态。如果该值变高,支持和工程团队已在从基础设施侧介入处理;在显卡完成重置之前,受影响的工作负载将无法恢复。

API 参考

GPU 监控指标目前尚未通过 API 提供。所有 GPU 面板均仅 Console 可用。

最后更新于