Requisitos
previos: para ejecutar DCGM, el sistema de destino debe incluir los siguientes componentes de NVIDIA, enumerados en orden de dependencia:
- Controladores de centro de datos NVIDIA compatibles
: en sistemas HGX (extensión de gráficos de hiperescala), el administrador de fabric y los paquetes
de configuración y consulta de NVSwitch (NSCQ), tiempo de ejecución de DCGM y SDK
Para versiones de Red Hat o Rocky:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Actualice los metadatos del repositorio.
sudo dnf clean expire-cache
Ahora, instale DCGM.
sudo dnf install -y datacenter-gpu-manager
En los sistemas HGX (A100/A800 y H100/H800), debe instalar la configuración del switch NVIDIA si desea sondear las NVSwitches. Consulte DCGM en la biblioteca de NSCQ para enumerar los NVSwitches y proporcionar telemetría para los switches. NSCQ debe coincidir con la rama de versión del controlador (XXX) instalada en el sistema. Sustituya XXX por la rama de controlador necesaria en los siguientes comandos.
sudo dnf module install nvidia-driver:XXX/fm
Consulte el sistema operativo para conocer la versión del controlador:
nvidia-smi
Para este ejemplo, usamos el siguiente comando, ya que la versión de nuestro controlador se muestra como 550:
sudo dnf module install nvidia-driver:550/fm
Habilite el servicio systemd de DCGM (tras el reinicio) e inícielo ahora:
sudo systemctl --now enable nvidia-dcgm
Para verificar la instalación, utilice dcgmi para consultar el sistema. Debería ver una lista de todas las GPU compatibles (y cualquier NVSwitches) que se encuentran en el sistema: (el switch es una L minúscula)
Detección de DCGMI: L
dcgmi discovery -l
[El siguiente ejemplo no tiene NvSwitches, pero el campo se completa con detalles sobre si están presentes o se detectan.]