Предварительные
требования Для запуска DCGM целевая система должна включать следующие компоненты NVIDIA, перечисленные в порядке зависимостей:
- Поддерживаемые драйверы
NVIDIA для центров обработки данных. - В системах HGX (Hyperscale Graphics Extension) пакеты
Fabric Manager и NVSwitch Configuration and Query (NSCQ) - DCGM Runtime и SDK
Для релизов Red Hat или Rocky:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Обновите метаданные репозитория.
sudo dnf clean expire-cache
Теперь установите DCGM.
sudo dnf install -y datacenter-gpu-manager
В системах HGX (A100/A800 и H100/H800) необходимо установить конфигурацию коммутатора NVIDIA, если вы хотите опросить NVSwitches. Запросите библиотеку NSCQ для DCGM, чтобы перечислить NVSwitches и предоставить данные телеметрии для коммутаторов. NSCQ должен соответствовать ветви версий драйверов (XXX), установленной в системе. Замените XXX нужной ветвью драйвера в командах ниже.
sudo dnf module install nvidia-driver:XXX/fm
Запросите версию драйвера у операционной системы:
nvidia-smi
В этом примере мы используем следующую команду, так как версия драйвера отображается как 550:
sudo dnf module install nvidia-driver:550/fm
Включите службу DCGM systemd (при перезагрузке) и начните сейчас:
sudo systemctl --now enable nvidia-dcgm
Чтобы проверить установку, используйте dcgmi для запроса системы. Вы должны увидеть список всех поддерживаемых графических процессоров (и всех NVSwitch), найденных в системе: (переключатель — L) в нижнем регистре)
DCGMI Discovery -L
dcgmi discovery -l
[В приведенном ниже примере NvSwitch не указаны, но поле заполняется подробными сведениями, если они присутствуют или обнаружены.]