Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

XE Sistemleri: DCGMI sorunlarını gidermek için paketleri yükleme. RHEL Kayalık

Summary: Sorun giderme için DCGMI günlüklerini toplamak amacıyla Linux içinde DCGM (NVIDIA Data Center GPU Manager) kurulumu için yöntemler. RHEl/Kayalık

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Ön Koşullar
DCGM'yi çalıştırmak için hedef sistemin bağımlılık sırasına göre listelenen aşağıdaki NVIDIA bileşenlerini içermesi gerekir:
- Desteklenen NVIDIA Veri Merkezi Sürücüleri
- HGX (Hiper Ölçekli Grafik Uzantısı) sistemlerinde, Yapı Yöneticisi ve NVSwitch Yapılandırma ve Sorgu (NSCQ) paketleri
- DCGM Çalışma Zamanı ve SDK

Red Hat veya Rocky sürümleri için:

NOT: Ekran görüntüleri yalnızca referans amaçlıdır ve gözlemlenen sonuçlarda bazı farklılıklar olabilir.


Depo meta verilerini ve CUDA GPG anahtarını yükleyin:
[x86_64 arm64 için "sbsa" ile değiştirin veya gerekirse ppc64le için "ppc64le" ile değiştirin. Tırnak işaretlerini kaldır]
Dağıtımı Belirle:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


Depo meta verilerini ve CUDA GPG anahtarını yüklemek için 2 komutun terminalinde görsel çıktı

Depo meta verilerini güncelleştirin.

sudo dnf clean expire-cache

Terminal çalışıyor ve

Şimdi DCGM'yi yükleyin.

sudo dnf install -y datacenter-gpu-manager

sudo dnf install -y datacenter-gpu-manager

HGX sistemlerinde (A100/A800 ve H100/H800), NVSwitches'i yoklamak istiyorsanız NVIDIA Anahtar Yapılandırmasını yüklemeniz gerekir. NVSwitches'i numaralandırmak ve anahtarlar için telemetri sağlamak üzere DCGM'nin NSCQ kitaplığını sorgulayın. NSCQ, sistemde yüklü olan sürücü sürümü dalı (XXX) ile eşleşmelidir. Aşağıdaki komutlarda XXX yerine gerekli sürücü dalını yazın.

sudo dnf module install nvidia-driver:XXX/fm

 

Sürücü sürümü için işletim sistemini sorgulayın:

nvidia-smi

nvidia-smi

Sürücü sürümümüz 550 olduğundan bu örnekte aşağıdaki komutu kullanıyoruz:

sudo dnf module install nvidia-driver:550/fm



DCGM systemd hizmetini etkinleştirin (yeniden önyükleme sırasında) ve şimdi başlayın:

sudo systemctl --now enable nvidia-dcgm

Terminalde çalıştırılan

Yüklemeyi doğrulamak için, sistemi sorgulamak üzere dcgmi kullanın. Sistemde bulunan tüm desteklenen GPU'ların (ve tüm NVSwitch'lerin) bir listesini görmeniz gerekir: (anahtar küçük harf L'dir)
DCGMI Bulma -L 

dcgmi discovery -l 

[Aşağıdaki örnekte NvSwitch yoktur ancak alan, varsa veya algılandıysa ayrıntılarla doldurulur.]
dcgmi discovery -l

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.