XEシステム: DCGMIトラブルシューティング用のパッケージをインストールする方法。RHELロッキー

Summary: トラブルシューティングのためにDCGMIログを収集するために、Linux内にDCGM(NVIDIA Data Center GPU Manager)をインストールする方法。RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

前提条件 DCGMを実行するには、ターゲットシステムに次のNVIDIAコンポーネントが含まれている必要があります。依存関係の順にリストされています。
- サポートされているNVIDIAデータセンタードライバー
:HGX(Hyperscale Graphics Extension)システムでは、Fabric ManagerおよびNVSwitch Configuration and Query (NSCQ)パッケージ
- DCGMランタイムとSDK

Red HatまたはRockyリリースの場合:

メモ: スクリーンショットは参照用であり、観察された結果にはいくつかの違いがある場合があります。

リポジトリメタデータとCUDA GPGキーをインストールします:
[必要に応じてx86_64 arm64の場合は「sbsa」と置き換え、ppc64leの場合は「ppc64le」に置き換えます。[引用符を削除]
ディストリビューションの特定:

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)

sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo

リポジトリーメタデータとCUDA GPGキーをインストールするための2つのコマンドのターミナルでのビジュアル出力

リポジトリーメタデータを更新します。

sudo dnf clean expire-cache

ターミナルが実行されており、コマンド「sudo dnf clean expire-cache」の出力

次に、DCGMをインストールします。

sudo dnf install -y datacenter-gpu-manager

コマンド「sudo dnf install -y datacenter-gpu-manager」と対応する出力を実行するターミナル。

HGXシステム(A100/A800およびH100/H800)でNVSwitchをポーリングする場合は、NVIDIAスイッチ構成をインストールする必要があります。DCGMのNSCQライブラリーをクエリーしてNVSwitchを列挙し、スイッチのテレメトリーを提供します。NSCQは、システムにインストールされているドライバーバージョンブランチ(XXX)と一致する必要があります。以下のコマンドで、XXXを必要なドライバーブランチに置き換えます。

sudo dnf module install nvidia-driver:XXX/fm

オペレーティングシステムにドライバーのバージョンを問い合わせます。

nvidia-smi

「nvidia-smi」コマンドのターミナル出力。具体的には、ドライバーのバージョンが550.54.14であることに注意してください。

この例では、ドライバーのバージョンが550と表示されているため、次のコマンドを使用します。

sudo dnf module install nvidia-driver:550/fm

「sudo dnf module install nvidia-driver:550/fm」の実行のターミナル出力

DCGM systemdサービスを有効にし(再起動時)、今すぐ開始します。

sudo systemctl --now enable nvidia-dcgm

ターミナルで実行されている「sudo systemctl --now enable nvidia-dcgm」を視覚的に表現しています。

インストールを確認するには、dcgmiを使用してシステムにクエリーを実行します。システムで検出されたすべてのサポートされているGPU(およびNVSwitch)のリストが表示されます。(スイッチは小文字のL)
DCGMI検出-l

dcgmi discovery -l

[次の例にはNvSwitchはありませんが、存在するか検出された場合は、フィールドに詳細情報が入力されます。]
「dcgmi discovery -l」を実行した場合のターミナル出力

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680

Article Number: 000223375

Article Type: How To

Last Modified: 20 Jun 2024

Version: 2

Check if your device is covered by Support Services.

XEシステム: DCGMIトラブルシューティング用のパッケージをインストールする方法。RHELロッキー

Summary: トラブルシューティングのためにDCGMIログを収集するために、Linux内にDCGM(NVIDIA Data Center GPU Manager)をインストールする方法。RHEl/Rocky

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

XEシステム: DCGMIトラブルシューティング用のパッケージをインストールする方法。RHELロッキー

Summary: トラブルシューティングのためにDCGMIログを収集するために、Linux内にDCGM(NVIDIA Data Center GPU Manager)をインストールする方法。RHEl/Rocky

Detailed Article

Instructions

Affected Products

Instructions

Affected Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services