GPU(アクセラレーター)の管理
Dell PowerEdgeサーバーには、グラフィックス プロセッシング ユニット(GPU)が装備されています。GPUの管理により、システムに接続されているさまざまなGPUを表示したり、GPUの電源、温度、サーマル情報を監視したりできます。
GPUのプロパティとライセンスの詳細は、以下のとおりです。
表 1. GPUプロパティとライセンスの詳細GPUのプロパティとライセンスの詳細。
GPUプロパティ |
ライセンス |
インベントリー |
ボード パーツ ナンバー |
すべてのライセンス |
OEM情報 |
すべてのライセンス |
シリアル番号 |
すべてのライセンス |
マーケティング名 |
すべてのライセンス |
GPUパーツ ナンバー |
すべてのライセンス |
ビルド日付 |
すべてのライセンス |
ファームウェア バージョン |
すべてのライセンス |
GPU GUID |
すべてのライセンス |
PCIベンダーID |
すべてのライセンス |
PCIデバイス |
すべてのライセンス |
PCIサブベンダーID |
すべてのライセンス |
PCIサブデバイスID |
すべてのライセンス |
GPU ステータス |
すべてのライセンス |
GPUの正常性 |
すべてのライセンス |
温度指標 |
プライマリーGPU温度 |
すべてのライセンス |
セカンダリーGPU温度 |
すべてのライセンス |
基板温度 |
すべてのライセンス |
メモリー温度 |
すべてのライセンス |
GPUハードウェアの最小減速温度 |
Enterprise |
GPUシャットダウン温度 |
Enterprise |
メモリーの最大動作温度 |
Enterprise |
GPUの最大動作温度 |
Enterprise |
温度アラートの状態 |
Enterprise |
電力ブレーキの状態 |
Enterprise |
電力指標 |
電力消費量 |
すべてのライセンス |
電源装置の状態 |
Enterprise |
基板電源装置状態 |
Enterprise |
注:
- 内蔵GPUカードのGPUプロパティはリストされず、ステータスは不明と表示されます。
- AMDベースのシステムでは、動作温度が異なる場合があります。
- ホストに表示されるPCIeスロットあたりのGPUエントリー数は、iDRACのものとは異なる場合があります。
- GPUまたはPDB(配電基板)CPLDで、コンポーネントまたはバンドルされたファームウェア アップデートを実行した後、手動でのAC電源の切断と再投入が必要になった場合には、Lifecycle (LC)ログにSUP0545イベントが記録されます。このイベントが発生した場合には、サーバーで予期しない動作が発生しないように、手動でACまたは仮想AC電源での電源サイクルを実行してください。
- コンポーネント ファームウェアのアップデートまたはバンドルされたファームウェア アップデートを含むGPUファームウェア アップデートを実施した場合には、必ずAC電源または仮想AC電源を入れ直してアップデートを完了してください。GPUに関連してiDRACが予期しない動作をするのを避けるためです。
- 持続モードでは、ウォーム リブート中にGPU電力キャッピングの制限値が正確でない場合があります。
- GPU電力キャッピング機能は、A2 GPU以外の構成では使用できません。
コマンドがデータをフェッチする前に、GPUが準備完了状態になっている必要があります。インベントリーの[GPUステータス]フィールドには、GPUの可用性と、GPUデバイスが応答しているかどうかが表示されます。GPUステータスが準備完了である場合は、[GPUステータス]にOKと表示され、それ以外の場合は、ステータスに使用不可と表示されます。
GPUには、複数の正常性パラメーターがあり、NVIDIAコントローラーのSMBPBインターフェイスを介して取得できます。この機能はNVIDIAカードに限定されています。GPUデバイスから取得される正常性パラメーターは、以下のとおりです。
注:この機能はNVIDIAカードに限定されています。この情報は、サーバーがサポートしていてもその他のGPUでは利用できません。PBIでのGPUカードのポーリング間隔は5秒です。
注:GPUファームウェアのアップデート中は、iDRACで、USB操作とUSB-NIC操作(USB管理ポートへの接続、iDRACクイック同期操作、USB-NICポートの有効化または無効化、同様のUSB操作など)をいずれも行わないでください。ファームウェア アップデート中にこのような操作を行うと、確定的でない動作が発生し、ファームウェア アップデートに失敗する可能性があります。
ウォーム再起動と持続モードが無効になっている場合、以下の動作になります。
- 電力消費量はN/Aとして表示されます。
- 電力キャッピング制限は、古いインベントリー制限値とともに表示されます。
電力消費量、GPUターゲット温度、最小GPU減速温度、GPUシャットダウン温度、最大メモリー動作温度、最大GPU動作温度の各機能を使用するには、ホスト システムにNVIDIAドライバーがインストールされ、実行されている必要があります。GPUドライバーがインストールされていない場合、これらの値は該当なしと表示されます。
Linuxでは、カードが使用されていないときは、ドライバーが、カードの機能縮小とアンロードを行って電力を節約します。このような場合は、電力消費、GPUターゲット温度、最小GPU減速温度、GPUシャットダウン温度、最大メモリー動作温度、最大GPU動作温度の各機能を使用できません。アンロードを回避するには、デバイスで持続モードを有効にする必要があります。これを有効にするには、nvidia-smiツールのコマンドnvidia-smi -pm 1を使用します。
テレメトリーを使用してGPUレポートを生成できます。テレメトリー機能の詳細については、「テレメトリー ストリーミング」を参照してください。
注:RACADMでは、値が空白のダミーGPUエントリーが表示される場合があります。iDRACがGPUデバイスに情報を問い合わせたときに、デバイスの応答準備ができていないと、この状態になることがあります。この問題を解決するには、iDRACでracrest操作を実行します。
処理アクセラレーターの監視
PCIeクラスの処理アクセラレーターを搭載したアクセラレーター デバイスは、大量の熱を使用中に発生させるため、温度およびセンサーのリアルタイムの監視が必要です。
処理アクセラレーターインベントリー情報を取得するには、次の手順を実行します。
- サーバーの電源をオフにします。
- ライザー カードにアクセラレーターを取り付けます。
- サーバーの電源をオンにします。
- POSTが完了するまで待機します。
- iDRAC UIにログインします。
- の順に移動します。[GPU]と[処理アクセラレーター]の両方のセクションが表示されます。
- 特定のアクセラレーターを展開して、次のセンサー情報を表示できます。
注:論理温度センサーはiDRACインターフェイスに表示されません。物理的温度センサーのみが表示されます。
注:アクセラレーターの情報にアクセスするには、iDRACログイン権限が必要です。
注:電力消費センサーは、サポートされているアクセラレーターでのみ使用可能で、Datacenterライセンスがないと使用できません。
注:iDRACインターフェイスには、ホスト オペレーティング システム(オペレーティング システム)に依存する、電源および温度センサーの情報が表示されない場合があります。この場合は、ホスト オペレーティング システムにGPUドライバー(ROCmパッケージ)をインストールします。
注:
- アクセラレーター ファームウェアをアップデートする前にA100 GPU CECファームウェア アップデートを実行することをお勧めします。
- アップデートの失敗を避けるため、GPU CECとアクセラレーター ファームウェアのアップデートを同時に実行しないでください。ファームウェア アップデートが失敗した場合は、AC電源または仮想AC電源の入れ直しを行います。これにより、前回のアップデートの失敗によって、さらにアップデートが失敗することを回避できます。
- HGX A100 8-GPUベースボードFPGAのファームウェア アップデートが完了するまでに60~90分かかることがあります。
- HGX A100 8-GPUベースボードFPGAのアップデートとCEC DUPのアップデートは同時にトリガーしないでください。次の手順に従うことをお勧めします。
- CECファームウェアをアップデートします。
- 仮想ACまたは手動ACサイクルを実行します。
- FPGAファームウェアをアップデートします。
- もう一度、仮想ACサイクルまたは手動ACサイクルを実行します。
- オペレーティング システムからPDB CPLDをアップデートするためにコールド リブートを開始します。アップデート後に仮想ACサイクルが実行されます。
注:電力消費量の値として0がアクセラレーターから送信されることがあります。したがって、PLDMの値にも0が使用され、同じ値がUIに表示されます。ただし、この値は後続の読み取り値で自動的に修正されます。
注:PCIeデバイスによるiDRACリクエストへの応答は、デバイス ドライバーとファームウェアによって異なります。必要なドライバーとファームウェアがロードされていない場合、またはサーバーがプレオペレーティング システム環境(UEFIシェルと[Lifecycle Controller]ページ)にある場合は、これらのデバイスでLCメッセージHWC9053(デバイスで失われた通信)がログに記録されます。