Sistemas XE: Cómo instalar paquetes para la solución de problemas de DCGMI. RHEL Rocky

Summary: Instrucciones para la instalación de DCGM (NVIDIA Data Center GPU Manager) en Linux a fin de recopilar registros de DCGMI para la solución de problemas. RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Requisitos
previos: para ejecutar DCGM, el sistema de destino debe incluir los siguientes componentes de NVIDIA, enumerados en orden de dependencia:
- Controladores de centro de datos NVIDIA compatibles
: en sistemas HGX (extensión de gráficos de hiperescala), el administrador de fabric y los paquetes
de configuración y consulta de NVSwitch (NSCQ), tiempo de ejecución de DCGM y SDK

Para versiones de Red Hat o Rocky:

NOTA: Las capturas de pantalla son solo de referencia y los resultados observados pueden tener algunas diferencias.

Instale los metadatos del repositorio y la clave GPG de CUDA:
[Reemplace x86_64 con "sbsa" para arm64 o reemplácelo con "ppc64le" para ppc64le si es necesario. Eliminar comillas]
Determinar distribución:

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)

sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

Salida visual en el terminal de los 2 comandos para instalar los metadatos del repositorio y la clave GPG de CUDA

Actualice los metadatos del repositorio.

sudo dnf clean expire-cache

Terminal en ejecución y el resultado del comando

Ahora, instale DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal ejecutando el comando

En los sistemas HGX (A100/A800 y H100/H800), debe instalar la configuración del switch NVIDIA si desea sondear las NVSwitches. Consulte DCGM en la biblioteca de NSCQ para enumerar los NVSwitches y proporcionar telemetría para los switches. NSCQ debe coincidir con la rama de versión del controlador (XXX) instalada en el sistema. Sustituya XXX por la rama de controlador necesaria en los siguientes comandos.

sudo dnf module install nvidia-driver:XXX/fm

Consulte el sistema operativo para conocer la versión del controlador:

nvidia-smi

Salida de terminal del comando

Para este ejemplo, usamos el siguiente comando, ya que la versión de nuestro controlador se muestra como 550:

sudo dnf module install nvidia-driver:550/fm

Salida de terminal de la ejecución de

Habilite el servicio systemd de DCGM (tras el reinicio) e inícielo ahora:

sudo systemctl --now enable nvidia-dcgm

Representación visual de

Para verificar la instalación, utilice dcgmi para consultar el sistema. Debería ver una lista de todas las GPU compatibles (y cualquier NVSwitches) que se encuentran en el sistema: (el switch es una L minúscula)
Detección de DCGMI: L

dcgmi discovery -l

[El siguiente ejemplo no tiene NvSwitches, pero el campo se completa con detalles sobre si están presentes o se detectan.]
Salida de terminal de la ejecución de

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680

Article Number: 000223375

Article Type: How To

Last Modified: 20 Jun 2024

Version: 2

Check if your device is covered by Support Services.

Sistemas XE: Cómo instalar paquetes para la solución de problemas de DCGMI. RHEL Rocky

Summary: Instrucciones para la instalación de DCGM (NVIDIA Data Center GPU Manager) en Linux a fin de recopilar registros de DCGMI para la solución de problemas. RHEl/Rocky

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Sistemas XE: Cómo instalar paquetes para la solución de problemas de DCGMI. RHEL Rocky

Summary: Instrucciones para la instalación de DCGM (NVIDIA Data Center GPU Manager) en Linux a fin de recopilar registros de DCGMI para la solución de problemas. RHEl/Rocky

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services