GPU(アクセラレーター)の管理
Dell PowerEdgeサーバーには、グラフィックス プロセッシング ユニット(GPU)が装備されています。GPUの管理により、システムに接続されているさまざまなGPUを表示したり、GPUの電源、温度、およびサーマル情報を監視することができます。
GPUのプロパティとライセンスの詳細は以下のとおりです。
表 1. GPUプロパティとライセンスの詳細GPUのプロパティとライセンスの詳細。
GPUプロパティ |
ライセンス |
インベントリー |
ボード パーツ ナンバー |
すべてのライセンス |
OEM情報 |
すべてのライセンス |
シリアル番号 |
すべてのライセンス |
マーケティング名 |
すべてのライセンス |
GPUパーツ ナンバー |
すべてのライセンス |
ビルド日付 |
すべてのライセンス |
ファームウェア バージョン |
すべてのライセンス |
GPU GUID |
すべてのライセンス |
PCIベンダーID |
すべてのライセンス |
PCIデバイス |
すべてのライセンス |
PCIサブベンダーID |
すべてのライセンス |
PCIサブデバイスID |
すべてのライセンス |
GPU ステータス |
すべてのライセンス |
GPUの正常性 |
すべてのライセンス |
温度指標 |
プライマリーGPU温度 |
すべてのライセンス |
セカンダリーGPU温度 |
すべてのライセンス |
基板温度 |
すべてのライセンス |
メモリー温度 |
すべてのライセンス |
GPUハードウェアの最小減速温度 |
Enterprise |
GPUシャットダウン温度 |
Enterprise |
メモリーの最大動作温度 |
Enterprise |
GPUの最大動作温度 |
Enterprise |
温度アラートの状態 |
Enterprise |
電力ブレーキの状態 |
Enterprise |
電力指標 |
電力消費量 |
すべてのライセンス |
電源装置の状態 |
Enterprise |
基板電源装置状態 |
Enterprise |
注:
- 内蔵GPUカードのGPUプロパティはリストされず、ステータスは不明と表示されます。
- AMDベースのシステムでは、動作温度が異なる場合があります。
- ホストに表示されるPCIeスロットあたりのGPUエントリー数は、iDRACのものとは異なる場合があります。
- GPUまたはPDB(配電基板)CPLDで、コンポーネントまたはバンドルされたファームウェア アップデートを実行した後、手動でのAC電源の切断と再投入が必要になった場合には、Lifecycle (LC)ログにSUP0545イベントが記録されます。このイベントが発生した場合には、サーバーで予期しない動作が発生しないように、手動でACまたは仮想AC電源での電源サイクルを実行してください。
- コンポーネント ファームウェアのアップデートまたはバンドルされたファームウェア アップデートを含むGPUファームウェア アップデートを実施した場合には、必ずAC電源または仮想AC電源を入れ直してアップデートを完了してください。GPUに関連してiDRACが予期しない動作をするのを避けるためです。
- 持続モードでは、ウォーム リブート中にGPU電力キャッピングの制限値が正確でない場合があります。
- GPU電力キャッピング機能は、A2 GPU以外の構成では使用できません。
コマンドがデータをフェッチする前に、GPUが準備完了状態になっている必要があります。インベントリーの[GPUステータス]フィールドには、GPUの可用性と、GPUデバイスが応答しているかどうかが表示されます。GPUステータスが準備完了の場合は[GPUステータス]に[OK]と表示され、それ以外の場合は、ステータスに[使用不可]と表示されます。
GPUには複数の正常性パラメーターがあり、NVIDIAコントローラーのSMBPBインターフェイスを介して取得できます。この機能はNVIDIAカードに限定されています。GPUデバイスから取得される正常性パラメーターは以下のとおりです。
注:この機能はNVIDIAカードに限定されています。この情報は、サーバーがサポートしていてもその他のGPUでは利用できません。PBIでのGPUカードのポーリング間隔は5秒です。
注:NVIDIA GPUファームウェアのアップデート中に、USB管理ポートまたはiDRACクイック同期を介してiDRACに接続しないでください。ファームウェア アップデートで障害が発生する可能性があります。
ウォーム再起動と持続モードが無効になっている場合、以下の動作になります。
- 電力消費量はNAとして表示されます。
- 電力キャッピング制限は、古いインベントリー制限値とともに表示されます。
電力消費量、GPUターゲット温度、最小GPU減速温度、GPUシャットダウン温度、最大メモリー動作温度、最大GPU動作温度の各機能を使用するには、ホスト システムにNVIDIAドライバーがインストールされ、実行されている必要があります。GPUドライバーがインストールされていない場合、これらの値は該当なしと表示されます。
Linuxでは、カードが使用されていないときはドライバーがカードの機能縮小とアンロードを行い、電力を節約します。このような場合、電力消費、GPUターゲット温度、最小GPU減速温度、GPUシャットダウン温度、最大メモリー動作温度、最大GPU動作温度の各機能は利用できません。アンロードを回避するには、デバイスで持続モードを有効にする必要があります。これを有効にするには、nvidia-smiツールのコマンドnvidia-smi -pm 1を使用します。
テレメトリーを使用してGPUレポートを生成できます。テレメトリー機能の詳細については、「テレメトリー ストリーミング」を参照してください。
注:RACADMでは、値が空白のダミーGPUエントリーが表示される場合があります。iDRACがGPUデバイスに情報を問い合わせたときに、デバイスの応答準備ができていないと、この状態になることがあります。この問題を解決するには、iDRACでracrest操作を実行します。
FPGA監視
Field-programmable Gate Array (FPGA)デバイスは、使用中に大量の熱が発生するため、リアルタイム温度センサーでの監視が必要です。FPGAインベントリー情報を取得するには、次の手順を実行します。
- サーバーの電源をオフにします。
- ライザー カードにFPGAデバイスを取り付けます。
- サーバーの電源をオンにします。
- POSTが完了するまで待機します。
- iDRAC GUIにログインします。
- の順に移動します。[GPU]と[FPGA]の両方のセクションを表示できます。
- 特定のFPGAコンポーネントを展開して、次のセンサー情報を表示できます。
注:FPGAの情報にアクセスするには、iDRACログイン権限が必要です。
注:電力消費センサーは、サポートされているFPGAカードでのみ使用可能で、Datacenterライセンスがないと使用できません。
注:
- FPGAファームウェア アップデートをアップデートする前に、A100 GPU CECファームウェア アップデートを実行することをお勧めします。
- アップデートの失敗を避けるため、GPU CECとFPGAファームウェアのアップデートを同時に実行しないでください。ファームウェア アップデートが失敗した場合は、AC電源または仮想AC電源の入れ直しを行います。これにより、前回のアップデートの失敗によって、さらにアップデートが失敗することを回避できます。
注:FPGAデバイスから、電力消費量の0の値が送信されることがあります。その結果、PLDMも0の値を使用し、UIに同じ値が表示されます。ただし、この値は後続の読み取り値で自動的に修正されます。これは、FPGA KH30Nカードで確認できます。