Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

XE-systemer: Sådan installeres pakker til DCGMI-fejlfinding. RHEL Rocky

Summary: Sådan gør du DCGM-installation (NVIDIA Data Center GPU Manager) i Linux til indsamling af DCGMI-logfiler til fejlfinding. RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Forudsætninger
For at køre DCGM skal målsystemet indeholde følgende NVIDIA-komponenter, der er angivet i afhængighedsrækkefølge:
- Understøttede NVIDIA-datacenterdrivere
- På HGX-systemer (Hyperscale Graphics Extension), Fabric Manager og NVSwitch Configuration and Query (NSCQ) pakker
- DCGM Runtime og SDK

For Red Hat eller Rocky-udgivelser:

BEMÆRK: Skærmbilleder er kun til reference, og observerede resultater kan have nogle forskelle.


Installer lagermetadataene og CUDA GPG-nøglen:
[Erstat x86_64 med "sbsa" for arm64 eller erstat med "ppc64le" for ppc64le, hvis det er nødvendigt. Fjern anførselstegn]
Bestem distro:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Visuelt output i terminal af de 2 kommandoer til installation af lagermetadata og CUDA GPG-nøglen

Opdater lagerets metadata.

sudo dnf clean expire-cache

Terminal kører og output af kommandoen

Installer nu DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal, der kører kommandoen

På HGX-systemer (A100/A800 og H100/H800) skal du installere NVIDIA-switchkonfigurationen, hvis du vil foretage en afstemning blandt NVSwitches. Forespørg NSCQ-biblioteket efter DCGM for at optælle NVSwitches og levere telemetri til switche. NSCQ skal stemme overens med driverversionsgrenen (XXX), der er installeret på systemet. Udskift XXX med den nødvendige drivergren i kommandoerne nedenfor.

sudo dnf module install nvidia-driver:XXX/fm

 

Forespørg operativsystemet efter driverversionen:

nvidia-smi

Terminaludgang af kommandoen

I dette eksempel bruger vi følgende kommando, da vores driverversion vises som 550:

sudo dnf module install nvidia-driver:550/fm

Terminal output af kører

Aktivér DCGM systemd-tjenesten (ved genstart), og start nu:

sudo systemctl --now enable nvidia-dcgm

Visuel repræsentation af

For at bekræfte installationen skal du bruge dcgmi til at forespørge systemet. Du bør se en liste over alle understøttede GPU'er (og eventuelle NVSwitches), der findes i systemet: (kontakten er et lille bogstav L)
DCGMI-registrering – l 

dcgmi discovery -l 

[Eksemplet nedenfor har ikke NvSwitches, men feltet udfyldes med detaljer, hvis de findes eller registreres.]
Terminaludgang for kørsel af

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.