先決條件 若要執行 DCGM,目標系統必須包含下列 NVIDIA 元件,依相依性順序列出:
- 支援的 NVIDIA 資料中心驅動程式
- 在 HGX (Hyperscale Graphics Extension) 系統上,Fabric Manager 和 NVSwitch Configuration and Query (NSCQ) 套件
- DCGM 執行階段和 SDK
對於 Red Hat 或 Rocky 版本:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
更新儲存庫中繼資料。
sudo dnf clean expire-cache
現在安裝 DCGM
sudo dnf install -y datacenter-gpu-manager
在 HGX 系統 (A100/A800 和 H100/H800) 上,如果您想要輪詢 NVSwitches,您必須安裝 NVIDIA 交換器組態。查詢 DCGM 的 NSCQ 程式庫,以列舉 NVSwitches 並為交換器提供遙測。NSCQ 必須與系統上安裝的驅動程式版本分支 (XXX) 相符。在以下命令中,將 XXX 替換為所需的驅動程式分支。
sudo dnf module install nvidia-driver:XXX/fm
查詢作業系統的驅動程式版本:
nvidia-smi
在此範例中,我們使用下列命令,因為我們的驅動程式版本顯示為 550:
sudo dnf module install nvidia-driver:550/fm
啟用 DCGM systemd 服務 (重新開機時),並立即開始:
sudo systemctl --now enable nvidia-dcgm
若要驗證安裝,請使用 dcgmi 查詢系統。您應該會看到系統中所有支援的 GPU (以及任何 NVSwitches) 的清單:(開關為小寫 L)
DCGMI 探索 -l
dcgmi discovery -l
[以下範例沒有 NvSwitch,但如果有或偵測到,欄位會填入詳細資料。]