Системы XE: Как установить пакеты для поиска и устранения неисправностей DCGMI. RHEL Rocky

Summary: Инструкции по установке DCGM (NVIDIA Data Center GPU Manager) в Linux для сбора журналов DCGMI для поиска и устранения неисправностей. RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Предварительные
требования Для запуска DCGM целевая система должна включать следующие компоненты NVIDIA, перечисленные в порядке зависимостей:
- Поддерживаемые драйверы
NVIDIA для центров обработки данных. - В системах HGX (Hyperscale Graphics Extension) пакеты
Fabric Manager и NVSwitch Configuration and Query (NSCQ) - DCGM Runtime и SDK

Для релизов Red Hat или Rocky:

ПРИМЕЧАНИЕ. Снимки экрана приведены только для справки, и наблюдаемые результаты могут иметь некоторые отличия.

Установите метаданные репозитория и ключ CUDA GPG:
[При необходимости замените x86_64 на «sbsa» для arm64 или на «ppc64le» для ppc64le. Уберите кавычки]
Определите дистрибутив:

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)

sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Визуальный вывод в терминале 2-х команд для установки метаданных репозитория и ключа CUDA GPG

Обновите метаданные репозитория.

sudo dnf clean expire-cache

Терминал запущен, и вывод команды «sudo dnf clean expire-cache»

Теперь установите DCGM.

sudo dnf install -y datacenter-gpu-manager

В терминале выполняется команда «sudo dnf install -y datacenter-gpu-manager» и соответствующий вывод.

В системах HGX (A100/A800 и H100/H800) необходимо установить конфигурацию коммутатора NVIDIA, если вы хотите опросить NVSwitches. Запросите библиотеку NSCQ для DCGM, чтобы перечислить NVSwitches и предоставить данные телеметрии для коммутаторов. NSCQ должен соответствовать ветви версий драйверов (XXX), установленной в системе. Замените XXX нужной ветвью драйвера в командах ниже.

sudo dnf module install nvidia-driver:XXX/fm

Запросите версию драйвера у операционной системы:

nvidia-smi

Вывод команды «nvidia-smi» через терминал. Особо отметим, что версия драйвера — 550.54.14.

В этом примере мы используем следующую команду, так как версия драйвера отображается как 550:

sudo dnf module install nvidia-driver:550/fm

Вывод терминала при выполнении команды «sudo dnf module install nvidia-driver:550/fm»

Включите службу DCGM systemd (при перезагрузке) и начните сейчас:

sudo systemctl --now enable nvidia-dcgm

Визуальное представление команды «sudo systemctl --now enable nvidia-dcgm», выполняемой в терминале.

Чтобы проверить установку, используйте dcgmi для запроса системы. Вы должны увидеть список всех поддерживаемых графических процессоров (и всех NVSwitch), найденных в системе: (переключатель — L) в нижнем регистре)
DCGMI Discovery -L

dcgmi discovery -l

[В приведенном ниже примере NvSwitch не указаны, но поле заполняется подробными сведениями, если они присутствуют или обнаружены.]
Вывод терминала с помощью команды «dcgmi discovery -l»

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680

Article Number: 000223375

Article Type: How To

Last Modified: 20 Jun 2024

Version: 2

Check if your device is covered by Support Services.

Системы XE: Как установить пакеты для поиска и устранения неисправностей DCGMI. RHEL Rocky

Summary: Инструкции по установке DCGM (NVIDIA Data Center GPU Manager) в Linux для сбора журналов DCGMI для поиска и устранения неисправностей. RHEl/Rocky

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Системы XE: Как установить пакеты для поиска и устранения неисправностей DCGMI. RHEL Rocky

Summary: Инструкции по установке DCGM (NVIDIA Data Center GPU Manager) в Linux для сбора журналов DCGMI для поиска и устранения неисправностей. RHEl/Rocky

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services