Edellytykset
DCGM:n suorittamiseksi kohdejärjestelmässä on oltava seuraavat NVIDIA-komponentit, jotka on lueteltu riippuvuusjärjestyksessä: Tuetut NVIDIA Datacenter -ajurit
-
HGX (Hyperscale Graphics Extension) -järjestelmissä Fabric Manager ja NVSwitch Configuration and Query (NSCQ) -paketit
- DCGM Runtime ja SDK
Red Hat- tai Rocky-julkaisut:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Päivitä säilön metatiedot.
sudo dnf clean expire-cache
Asenna DCGM.
sudo dnf install -y datacenter-gpu-manager
HGX-järjestelmissä (A100/A800 ja H100/H800) sinun on asennettava NVIDIA Switch Configuration, jos haluat tehdä kyselyn NVSwitcheille. Tee DCGM-kysely NSCQ-kirjastosta luetellaksesi NVSwitchit ja tarjotaksesi telemetriatietoja kytkimille. NSCQ:n on vastattava järjestelmään asennettua ajuriversiohaaraa (XXX). Korvaa XXX tarvittavalla ohjainhaaralla alla olevissa komennoissa.
sudo dnf module install nvidia-driver:XXX/fm
Tee ajuriversion käyttöjärjestelmäkysely:
nvidia-smi
Tässä esimerkissä käytetään seuraavaa komentoa, koska ajuriversiomme on 550:
sudo dnf module install nvidia-driver:550/fm
Ota DCGM systemd -palvelu käyttöön (uudelleenkäynnistyksen yhteydessä) ja käynnistä nyt:
sudo systemctl --now enable nvidia-dcgm
Tarkista asennus tekemällä kysely järjestelmälle dcgmi:n avulla. Sinun pitäisi nähdä luettelo kaikista tuetuista GPU: ista (ja kaikista NVSwitcheistä), jotka löytyvät järjestelmästä: (kytkin on pieni L-kirjain)
DCGMI-löytö -L
dcgmi discovery -l
[Alla olevassa esimerkissä ei ole NvSwitchejä, mutta kenttään täytetään tiedot, jos niitä on tai jos niitä havaitaan.]