Conditions préalables
Pour exécuter DCGM, le système cible doit inclure les composants NVIDIA suivants, répertoriés dans l’ordre des dépendances
:
- Pilotes NVIDIA Datacenter pris en charge - Sur les systèmes HGX (Hyperscale Graphics Extension), packages Fabric Manager et NVSwitch Configuration and Query (NSCQ)
- DCGM Runtime et SDK
Pour les versions Red Hat ou Rocky :
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Mettez à jour les métadonnées du référentiel.
sudo dnf clean expire-cache
Installez maintenant DCGM.
sudo dnf install -y datacenter-gpu-manager
Sur les systèmes HGX (A100/A800 et H100/H800), vous devez installer la configuration du commutateur NVIDIA si vous souhaitez interroger les NVSwitches. Interrogez la bibliothèque NSCQ pour DCGM afin d’énumérer les NVSwitches et de fournir la télémétrie pour les commutateurs. NSCQ doit correspondre à la branche de version du pilote (XXX) installée sur le système. Remplacez XXX par la branche de pilote nécessaire dans les commandes ci-dessous.
sudo dnf module install nvidia-driver:XXX/fm
Interrogez le système d’exploitation pour connaître la version du pilote :
nvidia-smi
Pour cet exemple, nous utilisons la commande suivante, car la version de notre pilote est 550 :
sudo dnf module install nvidia-driver:550/fm
Activez le service systemd DCGM (au redémarrage) et démarrez maintenant :
sudo systemctl --now enable nvidia-dcgm
Pour vérifier l’installation, utilisez dcgmi pour interroger le système. Vous devriez voir une liste de tous les processeurs graphiques pris en charge (et de toutes les NVSwitch) trouvés dans le système : (le commutateur est un L minuscule)
DCGMI Discovery -L
dcgmi discovery -l
[L’exemple ci-dessous ne comporte pas de commutateurs NV, mais le champ est renseigné avec des détails s’ils sont présents ou détectés.]