사전 요구 사항
DCGM을 실행하려면 타겟 시스템에 종속성 순서대로 나열된 다음 NVIDIA 구성 요소가 포함되어야 합니다.
- 지원되는 NVIDIA 데이터 센터 드라이버
- HGX(Hyperscale Graphics Extension) 시스템에서 Fabric Manager 및 NSCQ(NVSwitch Configuration and Query) 패키지
- DCGM 런타임 및 SDK
Red Hat 또는 Rocky 릴리스의 경우:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
리포지토리 메타데이터를 업데이트합니다.
sudo dnf clean expire-cache
이제 DCGM을 설치합니다.
sudo dnf install -y datacenter-gpu-manager
HGX 시스템(A100/A800 및 H100/H800)에서 NVSwitch를 폴링하려면 NVIDIA 스위치 구성을 설치해야 합니다. DCGM의 NSCQ 라이브러리를 쿼리하여 NVSwitch를 열거하고 스위치에 대한 텔레메트리를 제공합니다. NSCQ는 시스템에 설치된 드라이버 버전 분기(XXX)와 일치해야 합니다. 아래 명령에서 XXX를 필요한 드라이버 분기로 대체합니다.
sudo dnf module install nvidia-driver:XXX/fm
운영 체제에서 드라이버 버전을 쿼리합니다.
nvidia-smi
이 예에서는 드라이버 버전이 550으로 표시되므로 다음 명령을 사용합니다.
sudo dnf module install nvidia-driver:550/fm
DCGM systemd 서비스를 활성화하고(재부팅 시) 지금 시작합니다.
sudo systemctl --now enable nvidia-dcgm
설치를 확인하려면 dcgmi를 사용하여 시스템을 쿼리합니다. 시스템에서 지원되는 모든 GPU(및 모든 NVSwitch) 목록이 표시되어야 합니다. (스위치는 소문자 L입니다)
DCGMI 검색 -L
dcgmi discovery -l
[아래 예에는 NvSwitch가 없지만 NvSwitch가 있거나 감지되면 필드에 세부 정보가 채워집니다.]