Wymagania
wstępne Aby uruchomić DCGM, system docelowy musi zawierać następujące składniki NVIDIA, wymienione w kolejności zależności:
- Obsługiwane sterowniki
NVIDIA Datacenter- W systemach HGX (Hyperscale Graphics Extension) pakietach
Fabric Manager i NVSwitch Configuration and Query (NSCQ) — środowisko uruchomieniowe DCGM i SDK
W przypadku wydań Red Hat lub Rocky:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Zaktualizuj metadane repozytorium.
sudo dnf clean expire-cache
Teraz zainstaluj DCGM.
sudo dnf install -y datacenter-gpu-manager
W systemach HGX (A100/A800 i H100/H800) musisz zainstalować konfigurację przełącznika NVIDIA, jeśli chcesz odpytywać NVSwitches. Wyślij zapytanie do biblioteki NSCQ dla DCGM, aby wyliczyć rozwiązania NVSwitch i zapewnić dane telemetryczne dla przełączników. NSCQ musi być zgodny z gałęzią wersji sterownika (XXX) zainstalowaną w systemie. Zastąp XXX wymaganą gałęzią sterownika w poniższych poleceniach.
sudo dnf module install nvidia-driver:XXX/fm
Zapytaj system operacyjny o wersję sterownika:
nvidia-smi
W tym przykładzie używamy następującego polecenia, ponieważ wersja sterownika jest wyświetlana jako 550:
sudo dnf module install nvidia-driver:550/fm
Włącz usługę systemd DCGM (po ponownym uruchomieniu) i uruchom teraz:
sudo systemctl --now enable nvidia-dcgm
Aby zweryfikować instalację, użyj polecenia dcgmi w celu wysłania kwerendy do systemu. Powinieneś zobaczyć listę wszystkich obsługiwanych procesorów graficznych (i wszystkich NVSwitch) znalezionych w systemie: (przełącznik jest małą literą L)
dcgmi discovery -l
dcgmi discovery -l
[Poniższy przykład nie ma przełączników NvSwitch, ale pole wypełnia się szczegółami, jeśli są obecne lub wykryte.]