Systèmes XE : Comment installer des packages pour le dépannage DCGMI. RHEL Rocky

Summary: Procédure d’installation de DCGM (NVIDIA Data Center GPU Manager) sous Linux pour collecter les journaux DCGMI à des fins de dépannage. RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Conditions préalables
Pour exécuter DCGM, le système cible doit inclure les composants NVIDIA suivants, répertoriés dans l’ordre des dépendances
:
- Pilotes NVIDIA Datacenter pris en charge - Sur les systèmes HGX (Hyperscale Graphics Extension), packages Fabric Manager et NVSwitch Configuration and Query (NSCQ)
- DCGM Runtime et SDK

Pour les versions Red Hat ou Rocky :

Remarque : Les captures d’écran sont fournies à titre de référence uniquement, et les résultats observés peuvent présenter quelques différences.

Installez les métadonnées du référentiel et la clé GPG CUDA :
[Remplacez x86_64 par « sbsa » pour arm64 ou remplacez par « ppc64le » pour ppc64le si nécessaire. Supprimer les guillemets]
Déterminer la distribution :

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)

sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Sortie visuelle dans le terminal des 2 commandes d’installation des métadonnées du référentiel et de la clé GPG CUDA

Mettez à jour les métadonnées du référentiel.

sudo dnf clean expire-cache

Terminal en cours d’exécution et le résultat de la commande « sudo dnf clean expire-cache »

Installez maintenant DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal exécutant la commande « sudo dnf install -y datacenter-gpu-manager » et la sortie correspondante.

Sur les systèmes HGX (A100/A800 et H100/H800), vous devez installer la configuration du commutateur NVIDIA si vous souhaitez interroger les NVSwitches. Interrogez la bibliothèque NSCQ pour DCGM afin d’énumérer les NVSwitches et de fournir la télémétrie pour les commutateurs. NSCQ doit correspondre à la branche de version du pilote (XXX) installée sur le système. Remplacez XXX par la branche de pilote nécessaire dans les commandes ci-dessous.

sudo dnf module install nvidia-driver:XXX/fm

Interrogez le système d’exploitation pour connaître la version du pilote :

nvidia-smi

Sortie terminale de la commande « nvidia-smi ». En particulier, la version du pilote est 550.54.14.

Pour cet exemple, nous utilisons la commande suivante, car la version de notre pilote est 550 :

sudo dnf module install nvidia-driver:550/fm

Sortie terminale de l’exécution de « sudo dnf module install nvidia-driver :550/fm »

Activez le service systemd DCGM (au redémarrage) et démarrez maintenant :

sudo systemctl --now enable nvidia-dcgm

Représentation visuelle de « sudo systemctl --now enable nvidia-dcgm » en cours d’exécution dans le terminal.

Pour vérifier l’installation, utilisez dcgmi pour interroger le système. Vous devriez voir une liste de tous les processeurs graphiques pris en charge (et de toutes les NVSwitch) trouvés dans le système : (le commutateur est un L minuscule)
DCGMI Discovery -L

dcgmi discovery -l

[L’exemple ci-dessous ne comporte pas de commutateurs NV, mais le champ est renseigné avec des détails s’ils sont présents ou détectés.]
Sortie de terminal de l’exécution de « dcgmi discovery -l »

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680

Article Number: 000223375

Article Type: How To

Last Modified: 20 Jun 2024

Version: 2

Check if your device is covered by Support Services.

Systèmes XE : Comment installer des packages pour le dépannage DCGMI. RHEL Rocky

Summary: Procédure d’installation de DCGM (NVIDIA Data Center GPU Manager) sous Linux pour collecter les journaux DCGMI à des fins de dépannage. RHEl/Rocky

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Systèmes XE : Comment installer des packages pour le dépannage DCGMI. RHEL Rocky

Summary: Procédure d’installation de DCGM (NVIDIA Data Center GPU Manager) sous Linux pour collecter les journaux DCGMI à des fins de dépannage. RHEl/Rocky

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services