症状
iDRACイベント ログにMEMエラーを報告する13Gまたは14Gノードがあります。
ハードウェアの交換またはCEのスケジュールされた訪問なしでこの問題を解決するには、どうすればよいですか。
DDR4の「自己修復」とは何ですか。
BIOSの拡張機能であるDDR4「自己修復」機能により、サーバーでメモリー エラーが発生した場合のお客様とテクニカル サポートの推奨アクションがどのように変わるのか教えてください。
BIOSバージョン2.1.x以降を実行している、DDR4を搭載したPowerEdgeサーバーには、重要な2つのメモリー関連「自己修復」BIOS拡張機能が実装されています。2つの拡張機能により、メモリー エラーが発生してvCenter、VxFM、オートコール、またはLifeCycleログに記録する場合に実行する推奨手順/アクションが変更になります。
注:DDR4でメモリー エラーが発生し、BIOS 2.1.xより前のバージョンを実行している場合は、メモリー自己修復機能のある最新のリビジョンにBIOSをアップデートしてください。 次に、ノードを再起動してPPRオペレーションを続行します。詳細については、「解決方法」セクションを参照してください。
注:現行のメモリーのトラブルシューティング手順では、障害が発生したDIMMを別のスロットに移動して、DIMMのエラーなのか、DIMMスロットのエラーなのかを確認します。
13GノードがBIOS 2.8.x以降を実行している場合は、推奨される最初の手順は再起動/再スタートです(DIMMを別スロットに移動する必要はありません)。BIOSの新しい拡張機能を実行できるようにすれば、DIMMを一切交換することなく、DIMMエラーを解決(自己修復)できます。
14GノードがBIOS 2.4.8以降を実行している場合は、推奨される最初の手順は再起動/再スタートです(DIMMを別スロットに移動する必要はありません)。BIOSの新しい拡張機能を実行できるようにすれば、DIMMを一切交換することなく、DIMMエラーを解決(自己修復)できます。
原因
ECCメモリー エラーはほとんどの場合、ランダムなアルファ粒子の衝突によって発生します。 アルファ粒子は、日常的に発生する正常な放射線の一部です。 アルファ粒子は、メモリー モジュールから1つの電子を取り去りデータを破損することがあります。 近年のメモリー モジュールは、このイベントを認識して修復するように設計されています。 各モジュールは、メモリー エラーを修復した回数の内部カウンターを持っています。 BIOSにはしきい値が設定されており、その値に達すると、メモリー イベントの数がしきい値を超えたというアラートがサーバーに送信されます。
解决方案
BIOSを、13Gの場合は2.8.x以上/14Gの場合は2.1.x以上にアップグレードして、DDR4 RAMをインストール済みのサーバーのメモリー再トレーニング拡張機能を有効にします。起動中に実行されるメモリーの再トレーニング機能は、各DIMM/スロットの信号のタイミング/マージニングを最適化して、最適なアクセスを実現します。DIMMのタイミング特性が変わる理由は、いくつかあります。
以下のような理由がありますが、これらに限定されません。
1.サーバー メモリー構成の変更
2.BIOSの変更
3.サーバーまたはDIMMの動作温度の違い
4.DIMMの一般的な使用年数
これまでは、BIOSのアップデートやメモリー構成の変更が検出されると、次回の起動時にメモリーの再トレーニングが発生していました。BIOS 2.1.x(14G)および2.8.x(13G)以降では、再トレーニングをスケジュール設定するための、次のような修正可能および修正不能メモリー エラー「トリガー」が追加されました。
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
上記のいずれかのエラーがVCイベント/オートコール/SEL/LifeCycleログに記録されると、メモリーの再トレーニングが次回の再起動(ウォームまたはコールド)時にスケジュール設定されます。何が起動されるかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX."
MEM0001が発生すると、致命的なエラーなのでサーバーが再起動します。メモリーの再トレーニングは、起動中に自動的に実行されます。
修正可能または修正不能(マルチビット)メモリー エラーが発生すると、再起動/再スタート時にメモリーの再トレーニングが実行され、各DIMM/スロットの信号のタイミング/マージニングを最適化して、障害が発生したDIMMを「自己修復」します。起動中のメモリーの再トレーニングが失敗するか(UEFI0106)、同じエラーが継続する場合を除き、これらのエラーに対してDIMMを交換する必要はありません。
2.ポスト パッケージ リペア(PPR)機能:2つ目の「自己修復」メモリー拡張機能は、スペア メモリー行を代わりに使用できるようにして、ハードウェア レイヤーの場所/アドレスを無効にして、DIMM上のメモリー障害が発生した個所を修復します。使用可能なスペア メモリー行の正確な数は、DRAMデバイスとDIMMサイズによって異なります。
これまでは、この機能は製造プロセス限定でした。前述のメモリー再トレーニング拡張機能と同様、次回の再起動(ウォームまたはコールド)時に、特定のDIMMスロットにPPRがスケジュール設定される、修正可能メモリー エラーがあります。何が起動されたかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。PPRオペレーションは特定のDIMMスロットにスケジュール設定されるため、PPR操作が実行されるまで、DIMMスロットの場所を変更しないでください。エラーの例は次のとおりです。
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
上記のいずれかのエラーがVCイベント/オートコール/SEL/LifeCycleログに記録されると、ポスト パッケージ リペアが次回の再起動(ウォームまたはコールド)時にスケジュール設定されます。
再起動後に、PPRオペレーションが正常に完了していることを確認してください。正常なPPRオペレーションは、次の例のようになります。
Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
再起動後にPPRオペレーションが失敗していない限り、これらの修正可能メモリー エラーに対するDIMMの交換は必要ありません。失敗した場合のPPRメッセージの例は、次のとおりです。
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
注:対応するMEM0005/MEM0701/MEM0702メッセージからは独立して(つまり類似のタイムフレームではない)、メッセージID MEM8000(Correctable memory error logging disabled for a memory device at location DIMM_XX)が発生した場合、次回の再起動時にPPRのスケジュール設定は行われません。
独立して、または対応するMCE(マシン チェック例外)とともに表示されるメッセージID MEM8000は、DIMMモジュールの一般的な障害を示しており、修正可能または修正不能なバケットが最初にオーバーフローする状況ではありません。このタイプのメモリー イベントはDIMM障害として処理する必要があり、リストされているDIMMモジュールは、お客様の都合のいい時にできるだけ早く交換する必要があります。
受影响的产品
VxFlex Product Family
产品
VxFlex Product Family