Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Systemy XE: Instalowanie pakietów w celu rozwiązywania problemów z DCGMI. RHEL Skalisty

Summary: Instalacja DCGM (NVIDIA Data Center GPU Manager) w systemie Linux w celu gromadzenia dzienników DCGMI na potrzeby rozwiązywania problemów. RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Wymagania
wstępne Aby uruchomić DCGM, system docelowy musi zawierać następujące składniki NVIDIA, wymienione w kolejności zależności:
- Obsługiwane sterowniki
NVIDIA Datacenter- W systemach HGX (Hyperscale Graphics Extension) pakietach
Fabric Manager i NVSwitch Configuration and Query (NSCQ) — środowisko uruchomieniowe DCGM i SDK

W przypadku wydań Red Hat lub Rocky:

UWAGA: Zrzuty ekranu mają jedynie charakter poglądowy, a obserwowane wyniki mogą się różnić.


Zainstaluj metadane repozytorium i klucz CUDA GPG:
[W razie potrzeby zamień x86_64 na "sbsa" dla arm64 lub na "ppc64le" na ppc64le. Usuń cudzysłowy]
Określ dystrybucję:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Wizualne wyświetlanie w terminalu 2 poleceń do instalacji metadanych repozytorium i klucza CUDA GPG

Zaktualizuj metadane repozytorium.

sudo dnf clean expire-cache

Terminal jest uruchomiony, a wynik polecenia

Teraz zainstaluj DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal z uruchomieniem polecenia

W systemach HGX (A100/A800 i H100/H800) musisz zainstalować konfigurację przełącznika NVIDIA, jeśli chcesz odpytywać NVSwitches. Wyślij zapytanie do biblioteki NSCQ dla DCGM, aby wyliczyć rozwiązania NVSwitch i zapewnić dane telemetryczne dla przełączników. NSCQ musi być zgodny z gałęzią wersji sterownika (XXX) zainstalowaną w systemie. Zastąp XXX wymaganą gałęzią sterownika w poniższych poleceniach.

sudo dnf module install nvidia-driver:XXX/fm

 

Zapytaj system operacyjny o wersję sterownika:

nvidia-smi

Końcowe wyjście polecenia

W tym przykładzie używamy następującego polecenia, ponieważ wersja sterownika jest wyświetlana jako 550:

sudo dnf module install nvidia-driver:550/fm

Dane wyjściowe terminala po uruchomieniu polecenia

Włącz usługę systemd DCGM (po ponownym uruchomieniu) i uruchom teraz:

sudo systemctl --now enable nvidia-dcgm

Wizualna reprezentacja uruchamiania w terminalu polecenia

Aby zweryfikować instalację, użyj polecenia dcgmi w celu wysłania kwerendy do systemu. Powinieneś zobaczyć listę wszystkich obsługiwanych procesorów graficznych (i wszystkich NVSwitch) znalezionych w systemie: (przełącznik jest małą literą L)
dcgmi discovery -l 

dcgmi discovery -l 

[Poniższy przykład nie ma przełączników NvSwitch, ale pole wypełnia się szczegółami, jeśli są obecne lub wykryte.]
Dane wyjściowe terminala po uruchomieniu polecenia

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.