XE-systemer: Slik installerer du pakker for DCGMI-feilsøking. RHEL Rocky

Summary: Hvordan for DCGM (NVIDIA Data Center GPU Manager) installasjon i Linux for å samle DCGMI-logger for feilsøking. RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Forutsetninger
For å kjøre DCGM må målsystemet inneholde følgende NVIDIA-komponenter, oppført i avhengighetsrekkefølge:
– Støttede NVIDIA Datacenter-drivere
– på HGX-systemer (Hyperscale Graphics Extension), Fabric Manager og NVSwitch Configuration and Query (NSCQ)-pakker
– DCGM Runtime og SDK

For Red Hat- eller Rocky-utgivelser:

MERK: Skjermbilder er kun ment som referanse, og observerte resultater kan ha noen forskjeller.

Installer repositoriummetadataene og CUDA GPG-nøkkelen:
[Erstatt x86_64 med "sbsa" for arm64 eller erstatt med "ppc64le" for ppc64le om nødvendig. Fjern anførselstegn]
Bestem Distro:

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)

sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Visuell utgang i terminal av de 2 kommandoene for installasjon av depotmetadata og CUDA GPG-nøkkelen

Oppdater metadataene for repositoriet.

sudo dnf clean expire-cache

Terminal kjører og resultatet av kommandoen

Nå, installer DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal kjører kommandoen

På HGX-systemer (A100/A800 og H100/H800) må du installere NVIDIA-svitsjkonfigurasjonen hvis du vil spørre NVSwitches. Spør NSCQ-biblioteket etter DCGM for å nummerere NVSwitches og gi telemetri for svitsjer. NSCQ må samsvare med grenen for driverversjon (XXX) som er installert på systemet. Erstatt XXX med den nødvendige drivergrenen i kommandoene nedenfor.

sudo dnf module install nvidia-driver:XXX/fm

Spør operativsystemet etter driverversjonen:

nvidia-smi

Terminalutdata for

I dette eksempelet bruker vi følgende kommando siden driverversjonen vår vises som 550:

sudo dnf module install nvidia-driver:550/fm

Terminal utgang for å kjøre

Aktiver DCGM-systemd-tjenesten (ved omstart) og start nå:

sudo systemctl --now enable nvidia-dcgm

Visuell fremstilling av

Hvis du vil kontrollere installasjonen, bruker du dcgmi til å spørre systemet. Du bør se en liste over alle støttede GPUer (og eventuelle NVSwitches) som finnes i systemet: (bryteren er en liten bokstav L)
dcgmi discovery -l

dcgmi discovery -l

[Eksemplet nedenfor har ikke NvSwitches, men feltet fylles ut med detaljer hvis de finnes eller oppdages.]
Terminalutgang for å kjøre

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680

Article Number: 000223375

Article Type: How To

Last Modified: 20 Jun 2024

Version: 2

Check if your device is covered by Support Services.

XE-systemer: Slik installerer du pakker for DCGMI-feilsøking. RHEL Rocky

Summary: Hvordan for DCGM (NVIDIA Data Center GPU Manager) installasjon i Linux for å samle DCGMI-logger for feilsøking. RHEl/Rocky

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

XE-systemer: Slik installerer du pakker for DCGMI-feilsøking. RHEL Rocky

Summary: Hvordan for DCGM (NVIDIA Data Center GPU Manager) installasjon i Linux for å samle DCGMI-logger for feilsøking. RHEl/Rocky

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services