Системи XE: Як встановити пакети для усунення несправностей DCGMI. ХЕЛ Роккі

Summary: Як встановити DCGM (NVIDIA Data Center GPU Manager) у Linux для збору журналів DCGMI для усунення несправностей. RHEl/Роккі

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Передумови
Для запуску DCGM цільова система повинна включати наступні компоненти NVIDIA, перераховані в порядку залежностей:
- Підтримувані драйвери
NVIDIA Datacenter- У системах HGX (Hyperscale Graphics Extension) пакети
Fabric Manager і NVSwitch Configuration and Query (NSCQ)- DCGM Runtime і SDK

Для релізів Red Hat або Rocky:

ПРИМІТКА: Скріншоти наведені лише для довідки, і спостережувані результати можуть мати деякі відмінності.

Встановіть метадані сховища та ключ CUDA GPG:
[Замініть x86_64 на "sbsa" для arm64 або замініть на "ppc64le" для ppc64le, якщо потрібно. Вилучити лапки]
Визначте дистрибутив:

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)

sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Візуальне виведення в терміналі 2-х команд для встановлення метаданих репозиторію та ключа CUDA GPG

Оновіть метадані репозиторію.

sudo dnf clean expire-cache

Запуск терміналу та виведення команди

Тепер встановіть DCGM.

sudo dnf install -y datacenter-gpu-manager

Термінал виконуємо команду

У системах HGX (A100/A800 і H100/H800) ви повинні встановити конфігурацію NVIDIA Switch, якщо ви хочете опитати NVSwitches. Надішліть запит до бібліотеки NSCQ для DCGM, щоб перерахувати NVSwitches і надати телеметрію для комутаторів. NSCQ повинен збігатися з гілкою версії драйвера (XXX), встановленої в системі. Замініть XXX потрібною гілкою драйвера в командах нижче.

sudo dnf module install nvidia-driver:XXX/fm

Запитайте версію драйвера в операційній системі:

nvidia-smi

Кінцевий висновок команди

Для цього прикладу ми використовуємо наступну команду, оскільки наша версія драйвера показує як 550:

sudo dnf module install nvidia-driver:550/fm

Вихід терміналу запущеного

Увімкніть службу systemd DCGM (при перезавантаженні) і запустіть зараз:

sudo systemctl --now enable nvidia-dcgm

Візуальне представлення того, що

Щоб перевірити встановлення, скористайтеся dcgmi для запиту до системи. Ви повинні побачити список усіх підтримуваних графічних процесорів (і будь-яких NVSwitches), знайдених у системі: (перемикач маленької літери L)
dcgmi discovery -l

dcgmi discovery -l

[Приклад нижче не має NvSwitches, але поле заповнюється деталями, якщо вони присутні або виявлені.]
Вихідні дані термінала запуску

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680

Article Number: 000223375

Article Type: How To

Last Modified: 20 Jun 2024

Version: 2

Check if your device is covered by Support Services.

Системи XE: Як встановити пакети для усунення несправностей DCGMI. ХЕЛ Роккі

Summary: Як встановити DCGM (NVIDIA Data Center GPU Manager) у Linux для збору журналів DCGMI для усунення несправностей. RHEl/Роккі

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Системи XE: Як встановити пакети для усунення несправностей DCGMI. ХЕЛ Роккі

Summary: Як встановити DCGM (NVIDIA Data Center GPU Manager) у Linux для збору журналів DCGMI для усунення несправностей. RHEl/Роккі

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services