Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Sistemas XE: Como instalar pacotes para solução de problemas do DCGMI. RHEL Rocky

Summary: Como fazer a instalação do DCGM (NVIDIA Data Center GPU Manager) no Linux para coletar logs do DCGMI para solução de problemas. RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Pré-requisitos
Para executar o DCGM, o sistema de destino deve incluir os seguintes componentes NVIDIA, listados em ordem de dependência:
- Drivers
de data center NVIDIA compatíveis- Em sistemas HGX (Hyperscale Graphics Extension), nos pacotes
Fabric Manager e NVSwitch Configuration and Query (NSCQ), DCGM Runtime e SDK

Para versões Red Hat ou Rocky:

Nota: As capturas de tela são apenas para referência, e os resultados observados podem ter algumas diferenças.


Instale os metadados do repositório e a chave CUDA GPG:
[Substitua x86_64 por "sbsa" para arm64 ou substitua por "ppc64le" para ppc64le, se necessário. Remover aspas]
Determinar distro:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Saída visual no terminal dos 2 comandos para instalar metadados do repositório e a chave CUDA GPG

Atualize os metadados do repositório.

sudo dnf clean expire-cache

Terminal em execução e a saída do comando

Agora, instale o DCGM.

sudo dnf install -y datacenter-gpu-manager

Terminal executando o comando

Em sistemas HGX (A100/A800 e H100/H800), você deve instalar a NVIDIA Switch Configuration se quiser consultar os NVSwitches. Consulte a biblioteca NSCQ para DCGM para enumerar os NVSwitches e fornecer telemetria para switches. O NSCQ deve corresponder à ramificação da versão do driver (XXX) instalada no sistema. Substitua XXX pela ramificação de driver necessária nos comandos abaixo.

sudo dnf module install nvidia-driver:XXX/fm

 

Consulte o sistema operacional para obter a versão do driver:

nvidia-smi

Saída do terminal do comando

Neste exemplo, usamos o seguinte comando, já que a versão do driver é 550:

sudo dnf module install nvidia-driver:550/fm

Terminal de saída de execução

Ative o serviço DCGM systemd (na reinicialização) e inicie agora:

sudo systemctl --now enable nvidia-dcgm

Representação visual de

Para verificar a instalação, use dcgmi para consultar o sistema. Você verá uma lista de todas as GPUs compatíveis (e quaisquer NVSwitches) encontradas no sistema: (o switch tem um L minúsculo)
Detecção DCGMI -l 

dcgmi discovery -l 

[O exemplo abaixo não tem NvSwitches, mas o campo será preenchido com detalhes se eles estiverem presentes ou forem detectados.]
Saída do terminal de execução de

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.