Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

XE 系統:如何安裝 DCGMI 故障診斷的套件。RHEL 洛基

Summary: 如何在 Linux 內安裝 DCGM (NVIDIA Data Center GPU Manager),以收集 DCGMI 記錄以進行故障診斷。RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions


先決條件 若要執行 DCGM,目標系統必須包含下列 NVIDIA 元件,依相依性順序列出:
- 支援的 NVIDIA 資料中心驅動程式
- 在 HGX (Hyperscale Graphics Extension) 系統上,Fabric Manager 和 NVSwitch Configuration and Query (NSCQ) 套件
- DCGM 執行階段和 SDK

對於 Red Hat 或 Rocky 版本:

注意:螢幕截圖僅供參考,觀察到的結果可能會有一些差異。


安裝儲存庫中繼資料和 CUDA GPG 金鑰:
[如有需要,將 x86_64 替換為 arm64 的「sbsa」或替換為 ppc64le 的「ppc64le」。移除引號]
確定發行版:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


用於安裝儲存庫元數據和 CUDA GPG 金鑰的 2 個命令的終端機中的視覺輸出

更新儲存庫中繼資料。

sudo dnf clean expire-cache

終端機正在執行,且命令「sudo dnf clean expire-cache」輸出

現在安裝 DCGM

sudo dnf install -y datacenter-gpu-manager

執行命令「sudo dnf install -y datacenter-gpu-manager」及對應輸出的終端機。

在 HGX 系統 (A100/A800 和 H100/H800) 上,如果您想要輪詢 NVSwitches,您必須安裝 NVIDIA 交換器組態。查詢 DCGM 的 NSCQ 程式庫,以列舉 NVSwitches 並為交換器提供遙測。NSCQ 必須與系統上安裝的驅動程式版本分支 (XXX) 相符。在以下命令中,將 XXX 替換為所需的驅動程式分支。

sudo dnf module install nvidia-driver:XXX/fm

 

查詢作業系統的驅動程式版本:

nvidia-smi

「nvidia-smi」命令的終端機輸出。特別指出驅動程式版本為 550.54.14。

在此範例中,我們使用下列命令,因為我們的驅動程式版本顯示為 550:

sudo dnf module install nvidia-driver:550/fm

執行「sudo dnf module install nvidia-driver:550/fm」的終端機輸出

啟用 DCGM systemd 服務 (重新開機時),並立即開始:

sudo systemctl --now enable nvidia-dcgm

在終端機中執行「sudo systemctl --now enable nvidia-dcgm」的視覺化表示。

若要驗證安裝,請使用 dcgmi 查詢系統。您應該會看到系統中所有支援的 GPU (以及任何 NVSwitches) 的清單:(開關為小寫 L)
DCGMI 探索 -l 

dcgmi discovery -l 

[以下範例沒有 NvSwitch,但如果有或偵測到,欄位會填入詳細資料。]
執行「dcgmi discovery -l」的終端機輸出

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.