Передумови
Для запуску DCGM цільова система повинна включати наступні компоненти NVIDIA, перераховані в порядку залежностей:
- Підтримувані драйвери
NVIDIA Datacenter- У системах HGX (Hyperscale Graphics Extension) пакети
Fabric Manager і NVSwitch Configuration and Query (NSCQ)- DCGM Runtime і SDK
Для релізів Red Hat або Rocky:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Оновіть метадані репозиторію.
sudo dnf clean expire-cache
Тепер встановіть DCGM.
sudo dnf install -y datacenter-gpu-manager
У системах HGX (A100/A800 і H100/H800) ви повинні встановити конфігурацію NVIDIA Switch, якщо ви хочете опитати NVSwitches. Надішліть запит до бібліотеки NSCQ для DCGM, щоб перерахувати NVSwitches і надати телеметрію для комутаторів. NSCQ повинен збігатися з гілкою версії драйвера (XXX), встановленої в системі. Замініть XXX потрібною гілкою драйвера в командах нижче.
sudo dnf module install nvidia-driver:XXX/fm
Запитайте версію драйвера в операційній системі:
nvidia-smi
Для цього прикладу ми використовуємо наступну команду, оскільки наша версія драйвера показує як 550:
sudo dnf module install nvidia-driver:550/fm
Увімкніть службу systemd DCGM (при перезавантаженні) і запустіть зараз:
sudo systemctl --now enable nvidia-dcgm
Щоб перевірити встановлення, скористайтеся dcgmi для запиту до системи. Ви повинні побачити список усіх підтримуваних графічних процесорів (і будь-яких NVSwitches), знайдених у системі: (перемикач маленької літери L)
dcgmi discovery -l
dcgmi discovery -l
[Приклад нижче не має NvSwitches, але поле заповнюється деталями, якщо вони присутні або виявлені.]