Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

XE 시스템: DCGMI 문제 해결을 위한 패키지 설치 방법 RHEL 록키

Summary: 문제 해결을 위한 DCGMI 로그를 수집하기 위해 Linux에서 DCGM(NVIDIA Data Center GPU Manager)을 설치하는 방법. RHEl/록키

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

사전 요구 사항
DCGM을 실행하려면 타겟 시스템에 종속성 순서대로 나열된 다음 NVIDIA 구성 요소가 포함되어야 합니다.
- 지원되는 NVIDIA 데이터 센터 드라이버
- HGX(Hyperscale Graphics Extension) 시스템에서 Fabric Manager 및 NSCQ(NVSwitch Configuration and Query) 패키지
- DCGM 런타임 및 SDK

Red Hat 또는 Rocky 릴리스의 경우:

참고: 스크린샷은 참조용이며 관찰된 결과는 약간의 차이가 있을 수 있습니다.


리포지토리 메타데이터 및 CUDA GPG 키를 설치합니다.[
arm64의 경우 x86_64를 "sbsa"로 바꾸거나 필요한 경우 ppc64le의 경우 "ppc64le"로 바꿉니다. Remove quotes]
배포판 결정:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


리포지토리 메타 데이터 및 CUDA GPG 키를 설치하기 위한 2개의 명령 터미널의 시각적 출력

리포지토리 메타데이터를 업데이트합니다.

sudo dnf clean expire-cache

터미널 실행 중 및

이제 DCGM을 설치합니다.

sudo dnf install -y datacenter-gpu-manager

터미널에서

HGX 시스템(A100/A800 및 H100/H800)에서 NVSwitch를 폴링하려면 NVIDIA 스위치 구성을 설치해야 합니다. DCGM의 NSCQ 라이브러리를 쿼리하여 NVSwitch를 열거하고 스위치에 대한 텔레메트리를 제공합니다. NSCQ는 시스템에 설치된 드라이버 버전 분기(XXX)와 일치해야 합니다. 아래 명령에서 XXX를 필요한 드라이버 분기로 대체합니다.

sudo dnf module install nvidia-driver:XXX/fm

 

운영 체제에서 드라이버 버전을 쿼리합니다.

nvidia-smi



이 예에서는 드라이버 버전이 550으로 표시되므로 다음 명령을 사용합니다.

sudo dnf module install nvidia-driver:550/fm



DCGM systemd 서비스를 활성화하고(재부팅 시) 지금 시작합니다.

sudo systemctl --now enable nvidia-dcgm

터미널에서 실행되는

설치를 확인하려면 dcgmi를 사용하여 시스템을 쿼리합니다. 시스템에서 지원되는 모든 GPU(및 모든 NVSwitch) 목록이 표시되어야 합니다. (스위치는 소문자 L입니다)
DCGMI 검색 -L 

dcgmi discovery -l 

[아래 예에는 NvSwitch가 없지만 NvSwitch가 있거나 감지되면 필드에 세부 정보가 채워집니다.]

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.