Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

XE Systems:如何安装软件包以进行 DCGMI 故障处理。RHEL Rocky

Summary: 如何在 Linux 中安装 DCGM (NVIDIA Data Center GPU Manager) 以收集 DCGMI 日志以进行故障处理。RHEl/洛基

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

前提条件
要运行 DCGM,目标系统必须包括以下 NVIDIA 组件(按相关性顺序列出):
- 支持的 NVIDIA 数据中心驱动程序
- 在 HGX (Hyperscale Graphics Extension) 系统上,Fabric Manager 和 NVSwitch 配置和查询 (NSCQ) 软件包
- DCGM 运行时和 SDK

对于 Red Hat 或 Rocky 版本:

提醒:屏幕截图仅供参考,观察到的结果可能会有一些差异。


安装存储库元数据和 CUDA GPG 密钥:
[如果需要,将 x86_64 替换为 arm64 的“sbsa”,或将 ppc64le 替换为“ppc64le”。删除引号]
确定发行版:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


终端中用于安装存储库元数据和 CUDA GPG 密钥的 2 个命令的可视输出

更新存储库元数据。

sudo dnf clean expire-cache

终端正在运行,并且命令“sudo dnf clean expire-cache”的输出

现在,安装 DCGM。

sudo dnf install -y datacenter-gpu-manager

运行命令“sudo dnf install -y datacenter-gpu-manager”的终端以及相应的输出。

在 HGX 系统(A100/A800 和 H100/H800)上,如果要轮询 NVSwitch,则必须安装 NVIDIA 交换机配置。查询 DCGM 的 NSCQ 库,以枚举 NVSwitch 并为交换机提供遥测。NSCQ 必须与系统上安装的驱动程序版本分支 (XXX) 匹配。在下面的命令中,将 XXX 替换为所需的驱动程序分支。

sudo dnf module install nvidia-driver:XXX/fm

 

查询操作系统的驱动程序版本:

nvidia-smi

“nvidia-smi”命令的终端输出。特别指出,驱动程序版本为 550.54.14。

在此示例中,我们使用以下命令,因为我们的驱动程序版本显示为 550:

sudo dnf module install nvidia-driver:550/fm

运行“sudo dnf module install nvidia-driver:550/fm”的终端输出

启用 DCGM systemd 服务(重新启动时)并立即启动:

sudo systemctl --now enable nvidia-dcgm

在终端中运行“sudo systemctl --now enable nvidia-dcgm”的可视化表示。

要验证安装,请使用 dcgmi 查询系统。您应该会看到在系统中找到的所有受支持的 GPU(以及任何 NVSwitch)的列表:(开关为小写字母 L)
DCGMI 发现 -L 

dcgmi discovery -l 

[下面的示例没有 NvSwitch,但如果存在或检测到 NvSwitch,则该字段会填充详细信息。]
运行“dcgmi discovery -l”的终端输出

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.