Pré-requisitos
Para executar o DCGM, o sistema de destino deve incluir os seguintes componentes NVIDIA, listados em ordem de dependência:
- Drivers
de data center NVIDIA compatíveis- Em sistemas HGX (Hyperscale Graphics Extension), nos pacotes
Fabric Manager e NVSwitch Configuration and Query (NSCQ), DCGM Runtime e SDK
Para versões Red Hat ou Rocky:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Atualize os metadados do repositório.
sudo dnf clean expire-cache
Agora, instale o DCGM.
sudo dnf install -y datacenter-gpu-manager
Em sistemas HGX (A100/A800 e H100/H800), você deve instalar a NVIDIA Switch Configuration se quiser consultar os NVSwitches. Consulte a biblioteca NSCQ para DCGM para enumerar os NVSwitches e fornecer telemetria para switches. O NSCQ deve corresponder à ramificação da versão do driver (XXX) instalada no sistema. Substitua XXX pela ramificação de driver necessária nos comandos abaixo.
sudo dnf module install nvidia-driver:XXX/fm
Consulte o sistema operacional para obter a versão do driver:
nvidia-smi
Neste exemplo, usamos o seguinte comando, já que a versão do driver é 550:
sudo dnf module install nvidia-driver:550/fm
Ative o serviço DCGM systemd (na reinicialização) e inicie agora:
sudo systemctl --now enable nvidia-dcgm
Para verificar a instalação, use dcgmi para consultar o sistema. Você verá uma lista de todas as GPUs compatíveis (e quaisquer NVSwitches) encontradas no sistema: (o switch tem um L minúsculo)
Detecção DCGMI -l
dcgmi discovery -l
[O exemplo abaixo não tem NvSwitches, mas o campo será preenchido com detalhes se eles estiverem presentes ou forem detectados.]