Systemy XE: Instalowanie pakietów w celu rozwiązywania problemów z DCGMI. RHEL Skalisty

Summary: Instalacja DCGM (NVIDIA Data Center GPU Manager) w systemie Linux w celu gromadzenia dzienników DCGMI na potrzeby rozwiązywania problemów. RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Wymagania
wstępne Aby uruchomić DCGM, system docelowy musi zawierać następujące składniki NVIDIA, wymienione w kolejności zależności:
- Obsługiwane sterowniki
NVIDIA Datacenter- W systemach HGX (Hyperscale Graphics Extension) pakietach
Fabric Manager i NVSwitch Configuration and Query (NSCQ) — środowisko uruchomieniowe DCGM i SDK

W przypadku wydań Red Hat lub Rocky:

UWAGA: Zrzuty ekranu mają jedynie charakter poglądowy, a obserwowane wyniki mogą się różnić.

Zainstaluj metadane repozytorium i klucz CUDA GPG:
[W razie potrzeby zamień x86_64 na "sbsa" dla arm64 lub na "ppc64le" na ppc64le. Usuń cudzysłowy]
Określ dystrybucję:

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)

sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Wizualne wyświetlanie w terminalu 2 poleceń do instalacji metadanych repozytorium i klucza CUDA GPG

Zaktualizuj metadane repozytorium.

sudo dnf clean expire-cache

Terminal jest uruchomiony, a wynik polecenia

Teraz zainstaluj DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal z uruchomieniem polecenia

W systemach HGX (A100/A800 i H100/H800) musisz zainstalować konfigurację przełącznika NVIDIA, jeśli chcesz odpytywać NVSwitches. Wyślij zapytanie do biblioteki NSCQ dla DCGM, aby wyliczyć rozwiązania NVSwitch i zapewnić dane telemetryczne dla przełączników. NSCQ musi być zgodny z gałęzią wersji sterownika (XXX) zainstalowaną w systemie. Zastąp XXX wymaganą gałęzią sterownika w poniższych poleceniach.

sudo dnf module install nvidia-driver:XXX/fm

Zapytaj system operacyjny o wersję sterownika:

nvidia-smi

Końcowe wyjście polecenia

W tym przykładzie używamy następującego polecenia, ponieważ wersja sterownika jest wyświetlana jako 550:

sudo dnf module install nvidia-driver:550/fm

Dane wyjściowe terminala po uruchomieniu polecenia

Włącz usługę systemd DCGM (po ponownym uruchomieniu) i uruchom teraz:

sudo systemctl --now enable nvidia-dcgm

Wizualna reprezentacja uruchamiania w terminalu polecenia

Aby zweryfikować instalację, użyj polecenia dcgmi w celu wysłania kwerendy do systemu. Powinieneś zobaczyć listę wszystkich obsługiwanych procesorów graficznych (i wszystkich NVSwitch) znalezionych w systemie: (przełącznik jest małą literą L)
dcgmi discovery -l

dcgmi discovery -l

[Poniższy przykład nie ma przełączników NvSwitch, ale pole wypełnia się szczegółami, jeśli są obecne lub wykryte.]
Dane wyjściowe terminala po uruchomieniu polecenia

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680

Article Number: 000223375

Article Type: How To

Last Modified: 20 Jun 2024

Version: 2

Check if your device is covered by Support Services.

Systemy XE: Instalowanie pakietów w celu rozwiązywania problemów z DCGMI. RHEL Skalisty

Summary: Instalacja DCGM (NVIDIA Data Center GPU Manager) w systemie Linux w celu gromadzenia dzienników DCGMI na potrzeby rozwiązywania problemów. RHEl/Rocky

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Systemy XE: Instalowanie pakietów w celu rozwiązywania problemów z DCGMI. RHEL Skalisty

Summary: Instalacja DCGM (NVIDIA Data Center GPU Manager) w systemie Linux w celu gromadzenia dzienników DCGMI na potrzeby rozwiązywania problemów. RHEl/Rocky

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services