Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Системи XE: Як встановити пакети для усунення несправностей DCGMI. ХЕЛ Роккі

Summary: Як встановити DCGM (NVIDIA Data Center GPU Manager) у Linux для збору журналів DCGMI для усунення несправностей. RHEl/Роккі

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Передумови
Для запуску DCGM цільова система повинна включати наступні компоненти NVIDIA, перераховані в порядку залежностей:
- Підтримувані драйвери
NVIDIA Datacenter- У системах HGX (Hyperscale Graphics Extension) пакети
Fabric Manager і NVSwitch Configuration and Query (NSCQ)- DCGM Runtime і SDK

Для релізів Red Hat або Rocky:

ПРИМІТКА: Скріншоти наведені лише для довідки, і спостережувані результати можуть мати деякі відмінності.


Встановіть метадані сховища та ключ CUDA GPG:
[Замініть x86_64 на "sbsa" для arm64 або замініть на "ppc64le" для ppc64le, якщо потрібно. Вилучити лапки]
Визначте дистрибутив:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Візуальне виведення в терміналі 2-х команд для встановлення метаданих репозиторію та ключа CUDA GPG

Оновіть метадані репозиторію.

sudo dnf clean expire-cache

Запуск терміналу та виведення команди

Тепер встановіть DCGM.

sudo dnf install -y datacenter-gpu-manager

Термінал виконуємо команду

У системах HGX (A100/A800 і H100/H800) ви повинні встановити конфігурацію NVIDIA Switch, якщо ви хочете опитати NVSwitches. Надішліть запит до бібліотеки NSCQ для DCGM, щоб перерахувати NVSwitches і надати телеметрію для комутаторів. NSCQ повинен збігатися з гілкою версії драйвера (XXX), встановленої в системі. Замініть XXX потрібною гілкою драйвера в командах нижче.

sudo dnf module install nvidia-driver:XXX/fm

 

Запитайте версію драйвера в операційній системі:

nvidia-smi

Кінцевий висновок команди

Для цього прикладу ми використовуємо наступну команду, оскільки наша версія драйвера показує як 550:

sudo dnf module install nvidia-driver:550/fm

Вихід терміналу запущеного

Увімкніть службу systemd DCGM (при перезавантаженні) і запустіть зараз:

sudo systemctl --now enable nvidia-dcgm

Візуальне представлення того, що

Щоб перевірити встановлення, скористайтеся dcgmi для запиту до системи. Ви повинні побачити список усіх підтримуваних графічних процесорів (і будь-яких NVSwitches), знайдених у системі: (перемикач маленької літери L)
dcgmi discovery -l 

dcgmi discovery -l 

[Приклад нижче не має NvSwitches, але поле заповнюється деталями, якщо вони присутні або виявлені.]
Вихідні дані термінала запуску

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.