Ön Koşullar
DCGM'yi çalıştırmak için hedef sistemin bağımlılık sırasına göre listelenen aşağıdaki NVIDIA bileşenlerini içermesi gerekir:
- Desteklenen NVIDIA Veri Merkezi Sürücüleri
- HGX (Hiper Ölçekli Grafik Uzantısı) sistemlerinde, Yapı Yöneticisi ve NVSwitch Yapılandırma ve Sorgu (NSCQ) paketleri
- DCGM Çalışma Zamanı ve SDK
Red Hat veya Rocky sürümleri için:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
Depo meta verilerini güncelleştirin.
sudo dnf clean expire-cache
Şimdi DCGM'yi yükleyin.
sudo dnf install -y datacenter-gpu-manager
HGX sistemlerinde (A100/A800 ve H100/H800), NVSwitches'i yoklamak istiyorsanız NVIDIA Anahtar Yapılandırmasını yüklemeniz gerekir. NVSwitches'i numaralandırmak ve anahtarlar için telemetri sağlamak üzere DCGM'nin NSCQ kitaplığını sorgulayın. NSCQ, sistemde yüklü olan sürücü sürümü dalı (XXX) ile eşleşmelidir. Aşağıdaki komutlarda XXX yerine gerekli sürücü dalını yazın.
sudo dnf module install nvidia-driver:XXX/fm
Sürücü sürümü için işletim sistemini sorgulayın:
nvidia-smi
Sürücü sürümümüz 550 olduğundan bu örnekte aşağıdaki komutu kullanıyoruz:
sudo dnf module install nvidia-driver:550/fm
DCGM systemd hizmetini etkinleştirin (yeniden önyükleme sırasında) ve şimdi başlayın:
sudo systemctl --now enable nvidia-dcgm
Yüklemeyi doğrulamak için, sistemi sorgulamak üzere dcgmi kullanın. Sistemde bulunan tüm desteklenen GPU'ların (ve tüm NVSwitch'lerin) bir listesini görmeniz gerekir: (anahtar küçük harf L'dir)
DCGMI Bulma -L
dcgmi discovery -l
[Aşağıdaki örnekte NvSwitch yoktur ancak alan, varsa veya algılandıysa ayrıntılarla doldurulur.]