Předpoklady
Chcete-li spustit nástroj DCGM, musí cílový systém obsahovat následující komponenty NVIDIA uvedené v pořadí závislostí:
- Podporované ovladače
NVIDIA Datacenter- V systémech HGX (Hyperscale Graphics Extension) balíčky Fabric Manager a NSCQ (NVSwitch Configuration and Query)
- Modul runtime DCGM a sada SDK
Pro vydání Red Hat nebo Rocky:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Aktualizujte metadata úložiště.
sudo dnf clean expire-cache
Nyní nainstalujte DCGM.
sudo dnf install -y datacenter-gpu-manager
V systémech HGX (A100/A800 a H100/H800) je nutné nainstalovat konfiguraci přepínače NVIDIA, pokud se chcete dotazovat na karty NVSWITCH. Dotazujte se knihovny NSCQ na nástroj DCGM, aby vytvořila výčet přepínačů NVSwitch a poskytla telemetrii pro přepínače. NSCQ musí odpovídat větvi verze ovladače (XXX) nainstalované v systému. Nahraďte XXX potřebnou větví ovladače v příkazech níže.
sudo dnf module install nvidia-driver:XXX/fm
Dotaz v operačním systému na verzi ovladače:
nvidia-smi
V tomto příkladu použijeme následující příkaz, protože verze ovladače se zobrazuje jako 550:
sudo dnf module install nvidia-driver:550/fm
Povolte službu DCGM systemd (při restartu) a začněte hned:
sudo systemctl --now enable nvidia-dcgm
Chcete-li ověřit instalaci, použijte k dotazování systému dcgmi. Měl by se zobrazit seznam všech podporovaných grafických karet (a všech přepínačů NVSWITCH) nalezených v systému: (přepínač je malé písmeno L)
DCGMI Discovery -L
dcgmi discovery -l
[Následující příklad neobsahuje přepínače NvSwitch, ale pole se vyplní podrobnostmi, pokud jsou přítomny nebo zjištěny.]