VxFlex-IR：PowerEdge DIMM ECCの修正可能メモリーエラー

摘要: Dell 13G/14Gサーバーが、iDRACイベントログにMEMXXXXエラーを記録しています。このイベントが原因で、ノードのハングアップやマシンチェック例外が発生した可能性があります。対処方法

本文适用于本文不适用于本文并非针对某种特定的产品。本文并非包含所有产品版本。

症状

iDRACイベントログにMEMエラーを報告する13Gまたは14Gノードがあります。

ハードウェアの交換またはCEのスケジュールされた訪問なしでこの問題を解決するには、どうすればよいですか。

DDR4の「自己修復」とは何ですか。
BIOSの拡張機能であるDDR4「自己修復」機能により、サーバーでメモリーエラーが発生した場合のお客様とテクニカルサポートの推奨アクションがどのように変わるのか教えてください。

BIOSバージョン2.1.x以降を実行している、DDR4を搭載したPowerEdgeサーバーには、重要な2つのメモリー関連「自己修復」BIOS拡張機能が実装されています。2つの拡張機能により、メモリーエラーが発生してvCenter、VxFM、オートコール、またはLifeCycleログに記録する場合に実行する推奨手順/アクションが変更になります。

注：DDR4でメモリーエラーが発生し、BIOS 2.1.xより前のバージョンを実行している場合は、メモリー自己修復機能のある最新のリビジョンにBIOSをアップデートしてください。次に、ノードを再起動してPPRオペレーションを続行します。詳細については、「解決方法」セクションを参照してください。

注：現行のメモリーのトラブルシューティング手順では、障害が発生したDIMMを別のスロットに移動して、DIMMのエラーなのか、DIMMスロットのエラーなのかを確認します。

13GノードがBIOS 2.8.x以降を実行している場合は、推奨される最初の手順は再起動/再スタートです（DIMMを別スロットに移動する必要はありません）。BIOSの新しい拡張機能を実行できるようにすれば、DIMMを一切交換することなく、DIMMエラーを解決（自己修復）できます。

14GノードがBIOS 2.4.8以降を実行している場合は、推奨される最初の手順は再起動/再スタートです（DIMMを別スロットに移動する必要はありません）。BIOSの新しい拡張機能を実行できるようにすれば、DIMMを一切交換することなく、DIMMエラーを解決（自己修復）できます。

原因

ECCメモリーエラーはほとんどの場合、ランダムなアルファ粒子の衝突によって発生します。アルファ粒子は、日常的に発生する正常な放射線の一部です。アルファ粒子は、メモリーモジュールから1つの電子を取り去りデータを破損することがあります。近年のメモリーモジュールは、このイベントを認識して修復するように設計されています。各モジュールは、メモリーエラーを修復した回数の内部カウンターを持っています。 BIOSにはしきい値が設定されており、その値に達すると、メモリーイベントの数がしきい値を超えたというアラートがサーバーに送信されます。

解决方案

BIOSを、13Gの場合は2.8.x以上/14Gの場合は2.1.x以上にアップグレードして、DDR4 RAMをインストール済みのサーバーのメモリー再トレーニング拡張機能を有効にします。起動中に実行されるメモリーの再トレーニング機能は、各DIMM/スロットの信号のタイミング/マージニングを最適化して、最適なアクセスを実現します。DIMMのタイミング特性が変わる理由は、いくつかあります。

以下のような理由がありますが、これらに限定されません。
1.サーバーメモリー構成の変更
2.BIOSの変更
3.サーバーまたはDIMMの動作温度の違い
4.DIMMの一般的な使用年数

これまでは、BIOSのアップデートやメモリー構成の変更が検出されると、次回の起動時にメモリーの再トレーニングが発生していました。BIOS 2.1.x（14G）および2.8.x（13G）以降では、再トレーニングをスケジュール設定するための、次のような修正可能および修正不能メモリーエラー「トリガー」が追加されました。

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

上記のいずれかのエラーがVCイベント/オートコール/SEL/LifeCycleログに記録されると、メモリーの再トレーニングが次回の再起動（ウォームまたはコールド）時にスケジュール設定されます。何が起動されるかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX."

MEM0001が発生すると、致命的なエラーなのでサーバーが再起動します。メモリーの再トレーニングは、起動中に自動的に実行されます。

修正可能または修正不能（マルチビット）メモリーエラーが発生すると、再起動/再スタート時にメモリーの再トレーニングが実行され、各DIMM/スロットの信号のタイミング/マージニングを最適化して、障害が発生したDIMMを「自己修復」します。起動中のメモリーの再トレーニングが失敗するか（UEFI0106）、同じエラーが継続する場合を除き、これらのエラーに対してDIMMを交換する必要はありません。

2.ポストパッケージリペア（PPR）機能：2つ目の「自己修復」メモリー拡張機能は、スペアメモリー行を代わりに使用できるようにして、ハードウェアレイヤーの場所/アドレスを無効にして、DIMM上のメモリー障害が発生した個所を修復します。使用可能なスペアメモリー行の正確な数は、DRAMデバイスとDIMMサイズによって異なります。
これまでは、この機能は製造プロセス限定でした。前述のメモリー再トレーニング拡張機能と同様、次回の再起動（ウォームまたはコールド）時に、特定のDIMMスロットにPPRがスケジュール設定される、修正可能メモリーエラーがあります。何が起動されたかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。PPRオペレーションは特定のDIMMスロットにスケジュール設定されるため、PPR操作が実行されるまで、DIMMスロットの場所を変更しないでください。エラーの例は次のとおりです。

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

上記のいずれかのエラーがVCイベント/オートコール/SEL/LifeCycleログに記録されると、ポストパッケージリペアが次回の再起動（ウォームまたはコールド）時にスケジュール設定されます。

再起動後に、PPRオペレーションが正常に完了していることを確認してください。正常なPPRオペレーションは、次の例のようになります。

Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
再起動後にPPRオペレーションが失敗していない限り、これらの修正可能メモリーエラーに対するDIMMの交換は必要ありません。失敗した場合のPPRメッセージの例は、次のとおりです。
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

其他信息

注：対応するMEM0005/MEM0701/MEM0702メッセージからは独立して（つまり類似のタイムフレームではない）、メッセージID MEM8000（Correctable memory error logging disabled for a memory device at location DIMM_XX）が発生した場合、次回の再起動時にPPRのスケジュール設定は行われません。

独立して、または対応するMCE（マシンチェック例外）とともに表示されるメッセージID MEM8000は、DIMMモジュールの一般的な障害を示しており、修正可能または修正不能なバケットが最初にオーバーフローする状況ではありません。このタイプのメモリーイベントはDIMM障害として処理する必要があり、リストされているDIMMモジュールは、お客様の都合のいい時にできるだけ早く交換する必要があります。

受影响的产品

VxFlex Product Family

产品

VxFlex Product Family

文章编号: 000058157

文章类型: Solution

上次修改时间: 15 4月 2021

版本: 4

VxFlex-IR：PowerEdge DIMM ECCの修正可能メモリーエラー

摘要: Dell 13G/14Gサーバーが、iDRACイベントログにMEMXXXXエラーを記録しています。このイベントが原因で、ノードのハングアップやマシンチェック例外が発生した可能性があります。対処方法

症状

原因

解决方案

其他信息

受影响的产品

产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

欢迎

欢迎访问戴尔

VxFlex-IR：PowerEdge DIMM ECCの修正可能メモリー エラー

摘要: Dell 13G/14Gサーバーが、iDRACイベント ログにMEMXXXXエラーを記録しています。このイベントが原因で、ノードのハングアップやマシン チェック例外が発生した可能性があります。対処方法

详细文章

症状

原因

解决方案

其它信息

受影响的产品

症状

原因

解决方案

其他信息

受影响的产品

产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

VxFlex-IR：PowerEdge DIMM ECCの修正可能メモリーエラー

摘要: Dell 13G/14Gサーバーが、iDRACイベントログにMEMXXXXエラーを記録しています。このイベントが原因で、ノードのハングアップやマシンチェック例外が発生した可能性があります。対処方法