Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

XE-Systeme: So installieren Sie Pakete für das DCGMI-Troubleshooting. RHEL Rocky

Summary: Anleitung für die DCGM-Installation (NVIDIA Data Center GPU Manager) unter Linux zum Erfassen von DCGMI-Protokollen für das Troubleshooting. RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Voraussetzungen
Zum Ausführen von DCGM muss das Zielsystem die folgenden NVIDIA-Komponenten enthalten, die in der Reihenfolge der Abhängigkeiten aufgelistet sind:
- Unterstützte NVIDIA Datacenter-Treiber
– Auf HGX-Systemen (Hyperscale Graphics Extension) die Fabric Manager- und NVSwitch Configuration and Query (NSCQ)-Pakete
– DCGM Runtime und SDK

Für Red Hat- oder Rocky-Versionen:

HINWEIS: Screenshots dienen nur als Referenz und die beobachteten Ergebnisse können einige Unterschiede aufweisen.


Installieren Sie die Repository-Metadaten und den CUDA-GPG-Schlüssel:
[Ersetzen Sie x86_64 bei Bedarf durch "sbsa" für arm64 oder durch "ppc64le" für ppc64le. Anführungszeichen entfernen]
Distribution bestimmen:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Visuelle Ausgabe der 2 Befehle für die Installation von Repository-Metadaten und des CUDA-GPG-Schlüssels im Terminal

Aktualisieren Sie die Repository-Metadaten.

sudo dnf clean expire-cache

Laufendes Terminal und Ausgabe des Befehls

Installieren Sie jetzt DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal, auf dem der Befehl

Auf HGX-Systemen (A100/A800 und H100/H800) müssen Sie die NVIDIA-Switch-Konfiguration installieren, wenn Sie die NVSwitches abfragen möchten. Fragen Sie die NSCQ-Bibliothek für DCGM ab, um die NVSwitches aufzulisten und Telemetrie für Switches bereitzustellen. NSCQ muss mit dem auf dem System installierten Zweig der Treiberversion (XXX) übereinstimmen. Ersetzen Sie XXX durch den erforderlichen Treiberzweig in den folgenden Befehlen.

sudo dnf module install nvidia-driver:XXX/fm

 

Fragen Sie das Betriebssystem nach der Treiberversion ab:

nvidia-smi

Terminalausgabe des Befehls

Für dieses Beispiel verwenden wir den folgenden Befehl, da unsere Treiberversion als 550 angezeigt wird:

sudo dnf module install nvidia-driver:550/fm

Terminalausgabe der Ausführung von

Aktivieren Sie den DCGM-Dienst systemd (beim Neustart) und starten Sie jetzt:

sudo systemctl --now enable nvidia-dcgm

Visuelle Darstellung von

Um die Installation zu überprüfen, verwenden Sie dcgmi, um das System abzufragen. Es sollte eine Liste aller unterstützten GPUs (und aller NVSwitches) im System angezeigt werden: (der Schalter ist ein kleines L)
DCGMI Ermittlung -L 

dcgmi discovery -l 

[Das Beispiel unten enthält keine NVCans, aber das Feld wird mit Details gefüllt, wenn sie vorhanden sind oder erkannt werden.]
Terminalausgabe der Ausführung von

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.