Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Systémy XE: Postup instalace balíčků pro odstraňování problémů s DCGMI. RHEL Rocky

Summary: Jak postupovat při instalaci nástroje DCGM (NVIDIA Data Center GPU Manager) v systému Linux za účelem shromažďování protokolů DCGMI pro odstraňování problémů. RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Předpoklady
Chcete-li spustit nástroj DCGM, musí cílový systém obsahovat následující komponenty NVIDIA uvedené v pořadí závislostí:
- Podporované ovladače
NVIDIA Datacenter- V systémech HGX (Hyperscale Graphics Extension) balíčky Fabric Manager a NSCQ (NVSwitch Configuration and Query)
- Modul runtime DCGM a sada SDK

Pro vydání Red Hat nebo Rocky:

POZNÁMKA: Snímky obrazovky slouží pouze pro referenční účely a pozorované výsledky se mohou lišit.


Nainstalujte metadata úložiště a klíč CUDA GPG:
[V případě potřeby nahraďte x86_64 "sbsa" pro arm64 nebo "ppc64le" pro ppc64le. Odebrat uvozovky]
Určete distribuci:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Vizuální výstup v terminálu 2 příkazů pro instalaci metadat úložiště a klíče CUDA GPG

Aktualizujte metadata úložiště.

sudo dnf clean expire-cache

Terminál je spuštěn a výstup příkazu

Nyní nainstalujte DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminál s příkazem

V systémech HGX (A100/A800 a H100/H800) je nutné nainstalovat konfiguraci přepínače NVIDIA, pokud se chcete dotazovat na karty NVSWITCH. Dotazujte se knihovny NSCQ na nástroj DCGM, aby vytvořila výčet přepínačů NVSwitch a poskytla telemetrii pro přepínače. NSCQ musí odpovídat větvi verze ovladače (XXX) nainstalované v systému. Nahraďte XXX potřebnou větví ovladače v příkazech níže.

sudo dnf module install nvidia-driver:XXX/fm

 

Dotaz v operačním systému na verzi ovladače:

nvidia-smi

Výstup terminálu příkazu

V tomto příkladu použijeme následující příkaz, protože verze ovladače se zobrazuje jako 550:

sudo dnf module install nvidia-driver:550/fm

Výstup terminálu příkazu

Povolte službu DCGM systemd (při restartu) a začněte hned:

sudo systemctl --now enable nvidia-dcgm

Vizuální znázornění příkazu

Chcete-li ověřit instalaci, použijte k dotazování systému dcgmi. Měl by se zobrazit seznam všech podporovaných grafických karet (a všech přepínačů NVSWITCH) nalezených v systému: (přepínač je malé písmeno L)
DCGMI Discovery -L 

dcgmi discovery -l 

[Následující příklad neobsahuje přepínače NvSwitch, ale pole se vyplní podrobnostmi, pokud jsou přítomny nebo zjištěny.]
Výstup terminálu příkazu

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.