前提条件 DCGMを実行するには、ターゲット システムに次のNVIDIAコンポーネントが含まれている必要があります。依存関係の順にリストされています。
- サポートされているNVIDIAデータセンター ドライバー
:HGX(Hyperscale Graphics Extension)システムでは、Fabric ManagerおよびNVSwitch Configuration and Query (NSCQ)パッケージ
- DCGMランタイムとSDK
Red HatまたはRockyリリースの場合:
distribution=$(. /etc/os-release;echo $ID`rpm -E "%{?rhel}%{?fedora}"`)
sudo dnf config-manager \ --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/x86_64/cuda-rhel8.repo
リポジトリー メタデータを更新します。
sudo dnf clean expire-cache
次に、DCGMをインストールします。
sudo dnf install -y datacenter-gpu-manager
HGXシステム(A100/A800およびH100/H800)でNVSwitchをポーリングする場合は、NVIDIAスイッチ構成をインストールする必要があります。DCGMのNSCQライブラリーをクエリーしてNVSwitchを列挙し、スイッチのテレメトリーを提供します。NSCQは、システムにインストールされているドライバー バージョン ブランチ(XXX)と一致する必要があります。以下のコマンドで、XXXを必要なドライバー ブランチに置き換えます。
sudo dnf module install nvidia-driver:XXX/fm
オペレーティング システムにドライバーのバージョンを問い合わせます。
nvidia-smi
この例では、ドライバーのバージョンが550と表示されているため、次のコマンドを使用します。
sudo dnf module install nvidia-driver:550/fm
DCGM systemdサービスを有効にし(再起動時)、今すぐ開始します。
sudo systemctl --now enable nvidia-dcgm
インストールを確認するには、dcgmiを使用してシステムにクエリーを実行します。システムで検出されたすべてのサポートされているGPU(およびNVSwitch)のリストが表示されます。(スイッチは小文字のL)
DCGMI検出-l
dcgmi discovery -l
[次の例にはNvSwitchはありませんが、存在するか検出された場合は、フィールドに詳細情報が入力されます。]