Code技术
用 Docker 一键部署 GPU 监控面板 GPU Hot
560
猫猫超管
2025/11/10·发布 2025/11/10

简洁、美观、轻量级的 GPU 实时监控方案,只需一条命令即可完成部署。

前言

平时使用的时候,GPU 的使用情况往往是我们最关心的指标。

psalias2006/gpu-hot
github.statsUnavailable

我之前一直是用 Grafana + Prometheus + Nvitop 做 GPU 监控,这套方案功能确实强大,但缺点也明显:

配置繁琐、占用资源多、启动慢,而且有时只是想临时查看几块卡的温度、显存使用,就不值得开一整套监控系统。

直到我在 GitHub 上偶然刷到这个项目 ——

::github{repo="psalias2006/gpu-hot"}

部署简单到极致,UI 清爽现代,功能覆盖面刚好够用。

你甚至可以把它当成“GPU 版的 Glances”或“轻量 GPU Dashboard”。


预览界面

以下是实际部署后的界面截图,可以看到每块 GPU 都有独立的动态图表展示,

不仅包括温度、功率、利用率,还有风扇转速与显存变化趋势。

gpu-hot-preview-1


gpu-hot-preview-2


gpu-hot-preview-3


gpu-hot-preview-4

界面风格非常“Grafana 感”,但轻量得多,数据刷新也十分流畅。


功能特性

每块 GPU 显示 7 个图表:

  • GPU 利用率
  • 温度(核心 / 显存)
  • 显存使用量
  • 功耗(Power Draw)
  • 风扇转速
  • 时钟频率(图形核心 / SM / 显存)
  • 功率效率

监控功能:

  • ✅ 自动检测多 GPU
  • ✅ GPU 进程追踪(PID、显存占用)
  • ✅ 系统 CPU / 内存(RAM)使用情况
  • ✅ 阈值提示标记:
    • 温度:75°C / 85°C
    • 利用率:80%
    • 显存使用率:90%

采集的指标

核心指标(Core Metrics):

  • GPU 与显存利用率(%)
  • GPU 核心 / 显存温度(°C)
  • 显存用量(已用 / 空闲 / 总量,MB)
  • 功率:当前功耗与上限(W)
  • 风扇转速(%)
  • 时钟频率:图形核心 / SM / 显存 / 视频解码频率(MHz)

高级指标(Advanced Metrics):

  • PCIe 代数与通道宽度(当前 / 最大)
  • 性能状态(P-State)
  • 计算模式(Compute Mode)
  • 编码 / 解码会话与统计信息
  • 驱动与 VBIOS 版本
  • 降频状态(Throttle Status)

部署方式(Docker 一键启动)

环境要求


启动命令

只需要一行:

Bash
1docker run -d --name gpu-hot --gpus all -p 1312:1312 ghcr.io/psalias2006/gpu-hot:latest

启动后访问浏览器:

http://localhost:1312

即可看到漂亮的 GPU 监控仪表盘。

无需额外配置、无需挂 Prometheus、无需配置数据库。


Docker Compose(可选)

如果你习惯用 docker-compose 管理容器,也可以这样写:

YAML
1version: '3'
2services:
3  gpu-hot:
4    image: ghcr.io/psalias2006/gpu-hot:latest
5    container_name: gpu-hot
6    ports:
7      - "1312:1312"
8    deploy:
9      resources:
10        reservations:
11          devices:
12            - capabilities: [gpu]
13    restart: unless-stopped

然后执行:

Bash
1docker compose up -d


对比分析

对比项nvidia-smiPrometheus + GrafanaGPU Hot
部署难度★☆☆☆☆(命令行)★★★★★(复杂配置)★☆☆☆☆(一行启动)
历史数据❌ 无✅ 有✅ 内置短期曲线
实时刷新❌ 手动刷新✅ 自动刷新✅ 自动刷新
可视化界面✅ 高度可定制✅ 轻量简洁
GPU 进程详情
资源占用极低中高
适用场景临时查看企业监控 / 集群个人 / 小型工作站

从定位上看,GPU Hot 就是一个非常恰当的“中间层方案”:

不如 Grafana 那样庞大,但比 nvidia-smi 好看太多。

适合单机、多卡工作站或个人服务器日常监控。

实际体验与优缺点

优点:

  • 一键部署,无需配置 exporter 或数据库
  • 自动识别多 GPU
  • UI 极度清爽,暗色主题观感出色
  • 实时图表流畅,延迟低
  • 支持 NVIDIA 官方容器运行

缺点:

  • 暂不支持数据持久化或历史查询
  • 仅支持 NVIDIA GPU
  • 没有 API 接口(目前版本)

最后更新 11月10日 17:28
GPU

评论 (0)

还没有评论,来说点什么吧~