XE-system: Installera paket för felsökning av DCGMI. RHEL Rocky

Summary: Så här gör du för installation av DCGM (NVIDIA Data Center GPU Manager) i Linux för att samla in DCGMI-loggar för felsökning. RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Förutsättningar
För att köra DCGM måste målsystemet innehålla följande NVIDIA-komponenter, listade i beroendeordning:
– Drivrutiner
för NVIDIA Datacenter som stöds – På HGX-system (Hyperscale Graphics Extension), Fabric Manager- och NVSwitch Configuration and Query-paket
(NSCQ) – DCGM Runtime och SDK

För Red Hat- eller Rocky-versioner:

Obs! Skärmbilder är endast för referens och observerade resultat kan ha vissa skillnader.

Installera lagringsplatsens metadata och CUDA GPG-nyckeln:
[Ersätt x86_64 med "sbsa" för arm64 eller ersätt med "ppc64le" för ppc64le om det behövs. Ta bort citat]
Bestäm distribution:

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)

sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Visuell utdata i terminalen för de 2 kommandona för att installera lagringsplatsens metadata och CUDA GPG-nyckeln

Uppdatera databasens metadata.

sudo dnf clean expire-cache

Terminalen körs och utdata från kommandot

Installera DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal som kör kommandot

På HGX-system (A100/A800 och H100/H800) måste du installera NVIDIA Switch-konfigurationen om du vill avsöka NVSwitches. Fråga NSCQ-biblioteket efter DCGM för att räkna upp NVSwitches och tillhandahålla telemetri för växlar. NSCQ måste matcha drivrutinsversionsgrenen (XXX) som är installerad i systemet. Ersätt XXX med den drivrutinsgren som behövs i kommandona nedan.

sudo dnf module install nvidia-driver:XXX/fm

Fråga operativsystemet om drivrutinsversionen:

nvidia-smi

Terminalutmatning för kommandot

I det här exemplet använder vi följande kommando eftersom drivrutinsversionen är 550:

sudo dnf module install nvidia-driver:550/fm

Terminalutdata för körning av

Aktivera DCGM-systemtjänsten (vid omstart) och börja nu:

sudo systemctl --now enable nvidia-dcgm

Visuell representation av

Verifiera installationen genom att använda dcgmi för att skicka en fråga till systemet. Du bör se en lista över alla GPU:er som stöds (och alla NVSwitches) som finns i systemet: (omkopplaren är ett gement L)
DCGMI Discovery -l

dcgmi discovery -l

[Exemplet nedan har inte NvSwitchar, men fältet fylls i med information om de finns eller identifieras.]
Terminalutdata för körning av

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680

Article Number: 000223375

Article Type: How To

Last Modified: 20 Jun 2024

Version: 2

Check if your device is covered by Support Services.

XE-system: Installera paket för felsökning av DCGMI. RHEL Rocky

Summary: Så här gör du för installation av DCGM (NVIDIA Data Center GPU Manager) i Linux för att samla in DCGMI-loggar för felsökning. RHEl/Rocky

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

XE-system: Installera paket för felsökning av DCGMI. RHEL Rocky

Summary: Så här gör du för installation av DCGM (NVIDIA Data Center GPU Manager) i Linux för att samla in DCGMI-loggar för felsökning. RHEl/Rocky

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services