メイン コンテンツに進む
  • すばやく簡単にご注文が可能
  • 注文内容の表示、配送状況をトラック
  • 会員限定の特典や割引のご利用
  • 製品リストの作成とアクセスが可能
  • 「Company Administration(会社情報の管理)」では、お使いのDell EMCのサイトや製品、製品レベルでのコンタクト先に関する情報を管理できます。

Integrated Dell Remote Access Controller 9ユーザーズ ガイド

GPU(アクセラレーター)の管理

Dell PowerEdgeサーバーには、グラフィックス プロセッシング ユニット(GPU)が装備されています。GPUの管理により、システムに接続されているさまざまなGPUを表示したり、GPUの電源、温度、およびサーマル情報を監視することができます。

GPUのプロパティとライセンスの詳細は以下のとおりです。

表 1. GPUプロパティとライセンスの詳細GPUのプロパティとライセンスの詳細。
GPUプロパティ ライセンス
インベントリー
ボード パーツ ナンバー すべてのライセンス
OEM情報 すべてのライセンス
シリアル番号 すべてのライセンス
マーケティング名 すべてのライセンス
GPUパーツ ナンバー すべてのライセンス
ビルド日付 すべてのライセンス
ファームウェア バージョン すべてのライセンス
GPU GUID すべてのライセンス
PCIベンダーID すべてのライセンス
PCIデバイス すべてのライセンス
PCIサブベンダーID すべてのライセンス
PCIサブデバイスID すべてのライセンス
GPU ステータス すべてのライセンス
GPUの正常性 すべてのライセンス
温度指標
プライマリーGPU温度 すべてのライセンス
セカンダリーGPU温度 すべてのライセンス
基板温度 すべてのライセンス
メモリー温度 すべてのライセンス
GPUハードウェアの最小減速温度 Enterprise
GPUシャットダウン温度 Enterprise
メモリーの最大動作温度 Enterprise
GPUの最大動作温度 Enterprise
温度アラートの状態 Enterprise
電力ブレーキの状態 Enterprise
電力指標
電力消費量 すべてのライセンス
電源装置の状態 Enterprise
基板電源装置状態 Enterprise
注:
  • 内蔵GPUカードのGPUプロパティはリストされず、ステータスは不明と表示されます。
  • AMDベースのシステムでは、動作温度が異なる場合があります。
  • ホストに表示されるPCIeスロットあたりのGPUエントリー数は、iDRACのものとは異なる場合があります。
  • GPUまたはPDB(配電基板)CPLDで、コンポーネントまたはバンドルされたファームウェア アップデートを実行した後、手動でのAC電源の切断と再投入が必要になった場合には、Lifecycle (LC)ログにSUP0545イベントが記録されます。このイベントが発生した場合には、サーバーで予期しない動作が発生しないように、手動でACまたは仮想AC電源での電源サイクルを実行してください。
  • コンポーネント ファームウェアのアップデートまたはバンドルされたファームウェア アップデートを含むGPUファームウェア アップデートを実施した場合には、必ずAC電源または仮想AC電源を入れ直してアップデートを完了してください。GPUに関連してiDRACが予期しない動作をするのを避けるためです。
  • 持続モードでは、ウォーム リブート中にGPU電力キャッピングの制限値が正確でない場合があります。
  • GPU電力キャッピング機能は、A2 GPU以外の構成では使用できません。

コマンドがデータをフェッチする前に、GPUが準備完了状態になっている必要があります。インベントリーの[GPUステータス]フィールドには、GPUの可用性と、GPUデバイスが応答しているかどうかが表示されます。GPUステータスが準備完了の場合は[GPUステータス]に[OK]と表示され、それ以外の場合は、ステータスに[使用不可]と表示されます。

GPUには複数の正常性パラメーターがあり、NVIDIAコントローラーのSMBPBインターフェイスを介して取得できます。この機能はNVIDIAカードに限定されています。GPUデバイスから取得される正常性パラメーターは以下のとおりです。

  • 電源
  • 温度
  • サーマル
注:この機能はNVIDIAカードに限定されています。この情報は、サーバーがサポートしていてもその他のGPUでは利用できません。PBIでのGPUカードのポーリング間隔は5秒です。
注:NVIDIA GPUファームウェアのアップデート中に、USB管理ポートまたはiDRACクイック同期を介してiDRACに接続しないでください。ファームウェア アップデートで障害が発生する可能性があります。

ウォーム再起動と持続モードが無効になっている場合、以下の動作になります。

  • 電力消費量はNAとして表示されます。
  • 電力キャッピング制限は、古いインベントリー制限値とともに表示されます。

電力消費量、GPUターゲット温度、最小GPU減速温度、GPUシャットダウン温度、最大メモリー動作温度、最大GPU動作温度の各機能を使用するには、ホスト システムにNVIDIAドライバーがインストールされ、実行されている必要があります。GPUドライバーがインストールされていない場合、これらの値は該当なしと表示されます。

Linuxでは、カードが使用されていないときはドライバーがカードの機能縮小とアンロードを行い、電力を節約します。このような場合、電力消費、GPUターゲット温度、最小GPU減速温度、GPUシャットダウン温度、最大メモリー動作温度、最大GPU動作温度の各機能は利用できません。アンロードを回避するには、デバイスで持続モードを有効にする必要があります。これを有効にするには、nvidia-smiツールのコマンドnvidia-smi -pm 1を使用します。

テレメトリーを使用してGPUレポートを生成できます。テレメトリー機能の詳細については、「テレメトリー ストリーミング」を参照してください。

注:RACADMでは、値が空白のダミーGPUエントリーが表示される場合があります。iDRACがGPUデバイスに情報を問い合わせたときに、デバイスの応答準備ができていないと、この状態になることがあります。この問題を解決するには、iDRACでracrest操作を実行します。

FPGA監視

Field-programmable Gate Array (FPGA)デバイスは、使用中に大量の熱が発生するため、リアルタイム温度センサーでの監視が必要です。FPGAインベントリー情報を取得するには、次の手順を実行します。

  • サーバーの電源をオフにします。
  • ライザー カードにFPGAデバイスを取り付けます。
  • サーバーの電源をオンにします。
  • POSTが完了するまで待機します。
  • iDRAC GUIにログインします。
  • システム > 概要 > アクセラレーターの順に移動します。[GPU]と[FPGA]の両方のセクションを表示できます。
  • 特定のFPGAコンポーネントを展開して、次のセンサー情報を表示できます。
    • 電力消費量
    • 温度詳細
注:FPGAの情報にアクセスするには、iDRACログイン権限が必要です。
注:電力消費センサーは、サポートされているFPGAカードでのみ使用可能で、Datacenterライセンスがないと使用できません。
注:
  • FPGAファームウェア アップデートをアップデートする前に、A100 GPU CECファームウェア アップデートを実行することをお勧めします。
  • アップデートの失敗を避けるため、GPU CECとFPGAファームウェアのアップデートを同時に実行しないでください。ファームウェア アップデートが失敗した場合は、AC電源または仮想AC電源の入れ直しを行います。これにより、前回のアップデートの失敗によって、さらにアップデートが失敗することを回避できます。
注:FPGAデバイスから、電力消費量の0の値が送信されることがあります。その結果、PLDMも0の値を使用し、UIに同じ値が表示されます。ただし、この値は後続の読み取り値で自動的に修正されます。これは、FPGA KH30Nカードで確認できます。

このコンテンツを評価する

正確
有益
分かりやすい
この記事は役に立ちましたか?
0/3000 characters
  1~5個の星の数で評価してください。
  1~5個の星の数で評価してください。
  1~5個の星の数で評価してください。
  この記事は役に立ちましたか?
  コメントでは、以下の特殊文字は利用できません: <>()\