Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

XEシステム: DCGMIトラブルシューティング用のパッケージをインストールする方法。RHELロッキー

Summary: トラブルシューティングのためにDCGMIログを収集するために、Linux内にDCGM(NVIDIA Data Center GPU Manager)をインストールする方法。RHEl/Rocky

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions


前提条件 DCGMを実行するには、ターゲット システムに次のNVIDIAコンポーネントが含まれている必要があります。依存関係の順にリストされています。
- サポートされているNVIDIAデータセンター ドライバー
:HGX(Hyperscale Graphics Extension)システムでは、Fabric ManagerおよびNVSwitch Configuration and Query (NSCQ)パッケージ
- DCGMランタイムとSDK

Red HatまたはRockyリリースの場合:

メモ: スクリーンショットは参照用であり、観察された結果にはいくつかの違いがある場合があります。


リポジトリ メタデータとCUDA GPGキーをインストールします:
[必要に応じてx86_64 arm64の場合は「sbsa」と置き換え、ppc64leの場合は「ppc64le」に置き換えます。[引用符を削除]
ディストリビューションの特定:

 

distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \
    --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo


リポジトリー メタデータとCUDA GPGキーをインストールするための2つのコマンドのターミナルでのビジュアル出力

リポジトリー メタデータを更新します。

sudo dnf clean expire-cache

ターミナルが実行されており、コマンド「sudo dnf clean expire-cache」の出力

次に、DCGMをインストールします。

sudo dnf install -y datacenter-gpu-manager

コマンド「sudo dnf install -y datacenter-gpu-manager」と対応する出力を実行するターミナル。

HGXシステム(A100/A800およびH100/H800)でNVSwitchをポーリングする場合は、NVIDIAスイッチ構成をインストールする必要があります。DCGMのNSCQライブラリーをクエリーしてNVSwitchを列挙し、スイッチのテレメトリーを提供します。NSCQは、システムにインストールされているドライバー バージョン ブランチ(XXX)と一致する必要があります。以下のコマンドで、XXXを必要なドライバー ブランチに置き換えます。

sudo dnf module install nvidia-driver:XXX/fm

 

オペレーティング システムにドライバーのバージョンを問い合わせます。

nvidia-smi

「nvidia-smi」コマンドのターミナル出力。具体的には、ドライバーのバージョンが550.54.14であることに注意してください。

この例では、ドライバーのバージョンが550と表示されているため、次のコマンドを使用します。

sudo dnf module install nvidia-driver:550/fm

「sudo dnf module install nvidia-driver:550/fm」の実行のターミナル出力

DCGM systemdサービスを有効にし(再起動時)、今すぐ開始します。

sudo systemctl --now enable nvidia-dcgm

ターミナルで実行されている「sudo systemctl --now enable nvidia-dcgm」を視覚的に表現しています。

インストールを確認するには、dcgmiを使用してシステムにクエリーを実行します。システムで検出されたすべてのサポートされているGPU(およびNVSwitch)のリストが表示されます。(スイッチは小文字のL)
DCGMI検出-l 

dcgmi discovery -l 

[次の例にはNvSwitchはありませんが、存在するか検出された場合は、フィールドに詳細情報が入力されます。]
「dcgmi discovery -l」を実行した場合のターミナル出力

 

Affected Products

XE Servers, PowerEdge XE8545, PowerEdge XE8640, PowerEdge XE9640, PowerEdge XE9680
Article Properties
Article Number: 000223375
Article Type: How To
Last Modified: 20 Jun 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.