跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表

VxFlex-IR:PowerEdge DIMM ECCの修正可能メモリー エラー

摘要: Dell 13G/14Gサーバーが、iDRACイベント ログにMEMXXXXエラーを記録しています。このイベントが原因で、ノードのハングアップやマシン チェック例外が発生した可能性があります。対処方法

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状



iDRACイベント ログにMEMエラーを報告する13Gまたは14Gノードがあります。

ハードウェアの交換またはCEのスケジュールされた訪問なしでこの問題を解決するには、どうすればよいですか。

DDR4の「自己修復」とは何ですか。
BIOSの拡張機能であるDDR4「自己修復」機能により、サーバーでメモリー エラーが発生した場合のお客様とテクニカル サポートの推奨アクションがどのように変わるのか教えてください。

BIOSバージョン2.1.x以降を実行している、DDR4を搭載したPowerEdgeサーバーには、重要な2つのメモリー関連「自己修復」BIOS拡張機能が実装されています。2つの拡張機能により、メモリー エラーが発生してvCenter、VxFM、オートコール、またはLifeCycleログに記録する場合に実行する推奨手順/アクションが変更になります。

注:DDR4でメモリー エラーが発生し、BIOS 2.1.xより前のバージョンを実行している場合は、メモリー自己修復機能のある最新のリビジョンにBIOSをアップデートしてください。  次に、ノードを再起動してPPRオペレーションを続行します。詳細については、「解決方法」セクションを参照してください。

注:現行のメモリーのトラブルシューティング手順では、障害が発生したDIMMを別のスロットに移動して、DIMMのエラーなのか、DIMMスロットのエラーなのかを確認します。

13GノードがBIOS 2.8.x以降を実行している場合は、推奨される最初の手順は再起動/再スタートです(DIMMを別スロットに移動する必要はありません)。BIOSの新しい拡張機能を実行できるようにすれば、DIMMを一切交換することなく、DIMMエラーを解決(自己修復)できます。

14GノードがBIOS 2.4.8以降を実行している場合は、推奨される最初の手順は再起動/再スタートです(DIMMを別スロットに移動する必要はありません)。BIOSの新しい拡張機能を実行できるようにすれば、DIMMを一切交換することなく、DIMMエラーを解決(自己修復)できます。

原因

ECCメモリー エラーはほとんどの場合、ランダムなアルファ粒子の衝突によって発生します。  アルファ粒子は、日常的に発生する正常な放射線の一部です。  アルファ粒子は、メモリー モジュールから1つの電子を取り去りデータを破損することがあります。  近年のメモリー モジュールは、このイベントを認識して修復するように設計されています。  各モジュールは、メモリー エラーを修復した回数の内部カウンターを持っています。  BIOSにはしきい値が設定されており、その値に達すると、メモリー イベントの数がしきい値を超えたというアラートがサーバーに送信されます。

解决方案

BIOSを、13Gの場合は2.8.x以上/14Gの場合は2.1.x以上にアップグレードして、DDR4 RAMをインストール済みのサーバーのメモリー再トレーニング拡張機能を有効にします。起動中に実行されるメモリーの再トレーニング機能は、各DIMM/スロットの信号のタイミング/マージニングを最適化して、最適なアクセスを実現します。DIMMのタイミング特性が変わる理由は、いくつかあります。

以下のような理由がありますが、これらに限定されません。
1.サーバー メモリー構成の変更
2.BIOSの変更
3.サーバーまたはDIMMの動作温度の違い
4.DIMMの一般的な使用年数

これまでは、BIOSのアップデートやメモリー構成の変更が検出されると、次回の起動時にメモリーの再トレーニングが発生していました。BIOS 2.1.x(14G)および2.8.x(13G)以降では、再トレーニングをスケジュール設定するための、次のような修正可能および修正不能メモリー エラー「トリガー」が追加されました。

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

上記のいずれかのエラーがVCイベント/オートコール/SEL/LifeCycleログに記録されると、メモリーの再トレーニングが次回の再起動(ウォームまたはコールド)時にスケジュール設定されます。何が起動されるかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX."

MEM0001が発生すると、致命的なエラーなのでサーバーが再起動します。メモリーの再トレーニングは、起動中に自動的に実行されます。

修正可能または修正不能(マルチビット)メモリー エラーが発生すると、再起動/再スタート時にメモリーの再トレーニングが実行され、各DIMM/スロットの信号のタイミング/マージニングを最適化して、障害が発生したDIMMを「自己修復」します。起動中のメモリーの再トレーニングが失敗するか(UEFI0106)、同じエラーが継続する場合を除き、これらのエラーに対してDIMMを交換する必要はありません。

2.ポスト パッケージ リペア(PPR)機能:2つ目の「自己修復」メモリー拡張機能は、スペア メモリー行を代わりに使用できるようにして、ハードウェア レイヤーの場所/アドレスを無効にして、DIMM上のメモリー障害が発生した個所を修復します。使用可能なスペア メモリー行の正確な数は、DRAMデバイスとDIMMサイズによって異なります。
これまでは、この機能は製造プロセス限定でした。前述のメモリー再トレーニング拡張機能と同様、次回の再起動(ウォームまたはコールド)時に、特定のDIMMスロットにPPRがスケジュール設定される、修正可能メモリー エラーがあります。何が起動されたかに関わりなく、BIOSは自動的に強制コールド再起動を実行します。PPRオペレーションは特定のDIMMスロットにスケジュール設定されるため、PPR操作が実行されるまで、DIMMスロットの場所を変更しないでください。エラーの例は次のとおりです。

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

上記のいずれかのエラーがVCイベント/オートコール/SEL/LifeCycleログに記録されると、ポスト パッケージ リペアが次回の再起動(ウォームまたはコールド)時にスケジュール設定されます。

再起動後に、PPRオペレーションが正常に完了していることを確認してください。正常なPPRオペレーションは、次の例のようになります。

Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
再起動後にPPRオペレーションが失敗していない限り、これらの修正可能メモリー エラーに対するDIMMの交換は必要ありません。失敗した場合のPPRメッセージの例は、次のとおりです。
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

其他信息

注:対応するMEM0005/MEM0701/MEM0702メッセージからは独立して(つまり類似のタイムフレームではない)、メッセージID MEM8000(Correctable memory error logging disabled for a memory device at location DIMM_XX)が発生した場合、次回の再起動時にPPRのスケジュール設定は行われません。

独立して、または対応するMCE(マシン チェック例外)とともに表示されるメッセージID MEM8000は、DIMMモジュールの一般的な障害を示しており、修正可能または修正不能なバケットが最初にオーバーフローする状況ではありません。このタイプのメモリー イベントはDIMM障害として処理する必要があり、リストされているDIMMモジュールは、お客様の都合のいい時にできるだけ早く交換する必要があります。

受影响的产品

VxFlex Product Family

产品

VxFlex Product Family
文章属性
文章编号: 000058157
文章类型: Solution
上次修改时间: 15 4月 2021
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。