Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

XE-system: Installera paket för felsökning av DCGMI. RHEL Rocky

Summary: Så här gör du för installation av DCGM (NVIDIA Data Center GPU Manager) i Linux för att samla in DCGMI-loggar för felsökning. RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Förutsättningar
För att köra DCGM måste målsystemet innehålla följande NVIDIA-komponenter, listade i beroendeordning:
– Drivrutiner
för NVIDIA Datacenter som stöds – På HGX-system (Hyperscale Graphics Extension), Fabric Manager- och NVSwitch Configuration and Query-paket
(NSCQ) – DCGM Runtime och SDK

För Red Hat- eller Rocky-versioner:

Obs! Skärmbilder är endast för referens och observerade resultat kan ha vissa skillnader.


Installera lagringsplatsens metadata och CUDA GPG-nyckeln:
[Ersätt x86_64 med "sbsa" för arm64 eller ersätt med "ppc64le" för ppc64le om det behövs. Ta bort citat]
Bestäm distribution:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Visuell utdata i terminalen för de 2 kommandona för att installera lagringsplatsens metadata och CUDA GPG-nyckeln

Uppdatera databasens metadata.

sudo dnf clean expire-cache

Terminalen körs och utdata från kommandot

Installera DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal som kör kommandot

På HGX-system (A100/A800 och H100/H800) måste du installera NVIDIA Switch-konfigurationen om du vill avsöka NVSwitches. Fråga NSCQ-biblioteket efter DCGM för att räkna upp NVSwitches och tillhandahålla telemetri för växlar. NSCQ måste matcha drivrutinsversionsgrenen (XXX) som är installerad i systemet. Ersätt XXX med den drivrutinsgren som behövs i kommandona nedan.

sudo dnf module install nvidia-driver:XXX/fm

 

Fråga operativsystemet om drivrutinsversionen:

nvidia-smi

Terminalutmatning för kommandot

I det här exemplet använder vi följande kommando eftersom drivrutinsversionen är 550:

sudo dnf module install nvidia-driver:550/fm

Terminalutdata för körning av

Aktivera DCGM-systemtjänsten (vid omstart) och börja nu:

sudo systemctl --now enable nvidia-dcgm

Visuell representation av

Verifiera installationen genom att använda dcgmi för att skicka en fråga till systemet. Du bör se en lista över alla GPU:er som stöds (och alla NVSwitches) som finns i systemet: (omkopplaren är ett gement L)
DCGMI Discovery -l 

dcgmi discovery -l 

[Exemplet nedan har inte NvSwitchar, men fältet fylls i med information om de finns eller identifieras.]
Terminalutdata för körning av

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.