前提条件
要运行 DCGM,目标系统必须包括以下 NVIDIA 组件(按相关性顺序列出):
- 支持的 NVIDIA 数据中心驱动程序
- 在 HGX (Hyperscale Graphics Extension) 系统上,Fabric Manager 和 NVSwitch 配置和查询 (NSCQ) 软件包
- DCGM 运行时和 SDK
对于 Red Hat 或 Rocky 版本:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
更新存储库元数据。
sudo dnf clean expire-cache
现在,安装 DCGM。
sudo dnf install -y datacenter-gpu-manager
在 HGX 系统(A100/A800 和 H100/H800)上,如果要轮询 NVSwitch,则必须安装 NVIDIA 交换机配置。查询 DCGM 的 NSCQ 库,以枚举 NVSwitch 并为交换机提供遥测。NSCQ 必须与系统上安装的驱动程序版本分支 (XXX) 匹配。在下面的命令中,将 XXX 替换为所需的驱动程序分支。
sudo dnf module install nvidia-driver:XXX/fm
查询操作系统的驱动程序版本:
nvidia-smi
在此示例中,我们使用以下命令,因为我们的驱动程序版本显示为 550:
sudo dnf module install nvidia-driver:550/fm
启用 DCGM systemd 服务(重新启动时)并立即启动:
sudo systemctl --now enable nvidia-dcgm
要验证安装,请使用 dcgmi 查询系统。您应该会看到在系统中找到的所有受支持的 GPU(以及任何 NVSwitch)的列表:(开关为小写字母 L)
DCGMI 发现 -L
dcgmi discovery -l
[下面的示例没有 NvSwitch,但如果存在或检测到 NvSwitch,则该字段会填充详细信息。]