メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能

Integrated Dell Remote Access Controller 9 ユーザーズ ガイド

GPU(アクセラレーター)の管理

Dell PowerEdgeサーバーには、グラフィックス プロセッシング ユニット(GPU)が装備されています。GPUの管理により、システムに接続されているさまざまなGPUを表示したり、GPUの電源、温度、サーマル情報を監視したりできます。

GPUのプロパティとライセンスの詳細は、以下のとおりです。

表 1. GPUプロパティとライセンスの詳細GPUのプロパティとライセンスの詳細。
GPUプロパティ ライセンス
インベントリー
ボード パーツ ナンバー すべてのライセンス
OEM情報 すべてのライセンス
シリアル番号 すべてのライセンス
マーケティング名 すべてのライセンス
GPUパーツ ナンバー すべてのライセンス
ビルド日付 すべてのライセンス
ファームウェア バージョン すべてのライセンス
GPU GUID すべてのライセンス
PCIベンダーID すべてのライセンス
PCIデバイス すべてのライセンス
PCIサブベンダーID すべてのライセンス
PCIサブデバイスID すべてのライセンス
GPU ステータス すべてのライセンス
GPUの正常性 すべてのライセンス
温度指標
プライマリーGPU温度 すべてのライセンス
セカンダリーGPU温度 すべてのライセンス
基板温度 すべてのライセンス
メモリー温度 すべてのライセンス
GPUハードウェアの最小減速温度 Enterprise
GPUシャットダウン温度 Enterprise
メモリーの最大動作温度 Enterprise
GPUの最大動作温度 Enterprise
温度アラートの状態 Enterprise
電力ブレーキの状態 Enterprise
電力指標
電力消費量 すべてのライセンス
電源装置の状態 Enterprise
基板電源装置状態 Enterprise
注:
  • 内蔵GPUカードのGPUプロパティはリストされず、ステータスは不明と表示されます。
  • AMDベースのシステムでは、動作温度が異なる場合があります。
  • ホストに表示されるPCIeスロットあたりのGPUエントリー数は、iDRACのものとは異なる場合があります。
  • GPUまたはPDB(配電基板)CPLDで、コンポーネントまたはバンドルされたファームウェア アップデートを実行した後、手動でのAC電源の切断と再投入が必要になった場合には、Lifecycle (LC)ログにSUP0545イベントが記録されます。このイベントが発生した場合には、サーバーで予期しない動作が発生しないように、手動でACまたは仮想AC電源での電源サイクルを実行してください。
  • コンポーネント ファームウェアのアップデートまたはバンドルされたファームウェア アップデートを含むGPUファームウェア アップデートを実施した場合には、必ずAC電源または仮想AC電源を入れ直してアップデートを完了してください。GPUに関連してiDRACが予期しない動作をするのを避けるためです。
  • 持続モードでは、ウォーム リブート中にGPU電力キャッピングの制限値が正確でない場合があります。
  • GPU電力キャッピング機能は、A2 GPU以外の構成では使用できません。

コマンドがデータをフェッチする前に、GPUが準備完了状態になっている必要があります。インベントリーの[GPUステータス]フィールドには、GPUの可用性と、GPUデバイスが応答しているかどうかが表示されます。GPUステータスが準備完了である場合は、[GPUステータス]にOKと表示され、それ以外の場合は、ステータスに使用不可と表示されます。

GPUには、複数の正常性パラメーターがあり、NVIDIAコントローラーのSMBPBインターフェイスを介して取得できます。この機能はNVIDIAカードに限定されています。GPUデバイスから取得される正常性パラメーターは、以下のとおりです。

  • 電源
  • 温度
  • サーマル
注:この機能はNVIDIAカードに限定されています。この情報は、サーバーがサポートしていてもその他のGPUでは利用できません。PBIでのGPUカードのポーリング間隔は5秒です。
注:GPUファームウェアのアップデート中は、iDRACで、USB操作とUSB-NIC操作(USB管理ポートへの接続、iDRACクイック同期操作、USB-NICポートの有効化または無効化、同様のUSB操作など)をいずれも行わないでください。ファームウェア アップデート中にこのような操作を行うと、確定的でない動作が発生し、ファームウェア アップデートに失敗する可能性があります。

ウォーム再起動と持続モードが無効になっている場合、以下の動作になります。

  • 電力消費量はN/Aとして表示されます。
  • 電力キャッピング制限は、古いインベントリー制限値とともに表示されます。

電力消費量、GPUターゲット温度、最小GPU減速温度、GPUシャットダウン温度、最大メモリー動作温度、最大GPU動作温度の各機能を使用するには、ホスト システムにNVIDIAドライバーがインストールされ、実行されている必要があります。GPUドライバーがインストールされていない場合、これらの値は該当なしと表示されます。

Linuxでは、カードが使用されていないときは、ドライバーが、カードの機能縮小とアンロードを行って電力を節約します。このような場合は、電力消費、GPUターゲット温度、最小GPU減速温度、GPUシャットダウン温度、最大メモリー動作温度、最大GPU動作温度の各機能を使用できません。アンロードを回避するには、デバイスで持続モードを有効にする必要があります。これを有効にするには、nvidia-smiツールのコマンドnvidia-smi -pm 1を使用します。

テレメトリーを使用してGPUレポートを生成できます。テレメトリー機能の詳細については、「テレメトリー ストリーミング」を参照してください。

注:RACADMでは、値が空白のダミーGPUエントリーが表示される場合があります。iDRACがGPUデバイスに情報を問い合わせたときに、デバイスの応答準備ができていないと、この状態になることがあります。この問題を解決するには、iDRACでracrest操作を実行します。

処理アクセラレーターの監視

PCIeクラスの処理アクセラレーターを搭載したアクセラレーター デバイスは、大量の熱を使用中に発生させるため、温度およびセンサーのリアルタイムの監視が必要です。

処理アクセラレーターインベントリー情報を取得するには、次の手順を実行します。

  1. サーバーの電源をオフにします。
  2. ライザー カードにアクセラレーターを取り付けます。
  3. サーバーの電源をオンにします。
  4. POSTが完了するまで待機します。
  5. iDRAC UIにログインします。
  6. システム > 概要 > アクセラレーターの順に移動します。[GPU]と[処理アクセラレーター]の両方のセクションが表示されます。
  7. 特定のアクセラレーターを展開して、次のセンサー情報を表示できます。
    • 電力消費量
    • 温度詳細
注:論理温度センサーはiDRACインターフェイスに表示されません。物理的温度センサーのみが表示されます。
注:アクセラレーターの情報にアクセスするには、iDRACログイン権限が必要です。
注:電力消費センサーは、サポートされているアクセラレーターでのみ使用可能で、Datacenterライセンスがないと使用できません。
注:iDRACインターフェイスには、ホスト オペレーティング システム(オペレーティング システム)に依存する、電源および温度センサーの情報が表示されない場合があります。この場合は、ホスト オペレーティング システムにGPUドライバー(ROCmパッケージ)をインストールします。
注:
  • アクセラレーター ファームウェアをアップデートする前にA100 GPU CECファームウェア アップデートを実行することをお勧めします。
  • アップデートの失敗を避けるため、GPU CECとアクセラレーター ファームウェアのアップデートを同時に実行しないでください。ファームウェア アップデートが失敗した場合は、AC電源または仮想AC電源の入れ直しを行います。これにより、前回のアップデートの失敗によって、さらにアップデートが失敗することを回避できます。
  • HGX A100 8-GPUベースボードFPGAのファームウェア アップデートが完了するまでに60~90分かかることがあります。
  • HGX A100 8-GPUベースボードFPGAのアップデートとCEC DUPのアップデートは同時にトリガーしないでください。次の手順に従うことをお勧めします。
    1. CECファームウェアをアップデートします。
    2. 仮想ACまたは手動ACサイクルを実行します。
    3. FPGAファームウェアをアップデートします。
    4. もう一度、仮想ACサイクルまたは手動ACサイクルを実行します。
  • オペレーティング システムからPDB CPLDをアップデートするためにコールド リブートを開始します。アップデート後に仮想ACサイクルが実行されます。
注:電力消費量の値として0がアクセラレーターから送信されることがあります。したがって、PLDMの値にも0が使用され、同じ値がUIに表示されます。ただし、この値は後続の読み取り値で自動的に修正されます。
注:PCIeデバイスによるiDRACリクエストへの応答は、デバイス ドライバーとファームウェアによって異なります。必要なドライバーとファームウェアがロードされていない場合、またはサーバーがプレオペレーティング システム環境(UEFIシェルと[Lifecycle Controller]ページ)にある場合は、これらのデバイスでLCメッセージHWC9053(デバイスで失われた通信)がログに記録されます。

このコンテンツを評価する

正確
有益
分かりやすい
この記事は役に立ちましたか?
0/3000 characters
  1~5個の星の数で評価してください。
  1~5個の星の数で評価してください。
  1~5個の星の数で評価してください。
  この記事は役に立ちましたか?
  コメントでは、以下の特殊文字は利用できません: <>()\