現象
エンタープライズ クラスのメモリー全体にわたるRAS(信頼性、可用性、保守性)機能の進化により、Dellではエラー報告に慎重なアプローチを採用し、お客様に透明性を提供しています。この進化が続くにつれて、Dellのエラー報告へのアプローチも同様に、主に情報を提供する通知ではなく、より緊急の対応が必要な通知に焦点を当てられるようにしています。
DRAMベースのメモリー ジオメトリーが縮小し続け、お客様が必要とするパフォーマンスが向上するにつれて、均等スケーリングの性質として修正可能なエラーの数が増加することが予想されます。
原因
グローバル サーバー業界では、ある考え方がDellにより共有され、ますます受け入れられています。それは、DIMMごとに発生するいくつかの修正可能なエラーは避けられず、メモリー モジュールの交換や即時再起動による自己修復さえも本質的に保証しないという考えです。
解決方法
再起動による自己修復を行わずに、修正可能なエラーを報告しているシステムの運用を継続しても、修正不能なエラーが発生するリスクや、予期しないダウンタイムにつながる可能性はそれほど高くなりません。実際、業界内には、メモリー処理で修正可能なエラーは報告されないと公に伝えているユーザーもいます。
14GインテルPowerEdge BIOSバージョン2.5.4以降では、「
Correctable Error Logging」と呼ばれるBIOS設定が追加されました。これにより、お客様は修正可能なエラー レポートを無効にするオプションが選択できます(既に多くのユーザーがそうしています)。 BIOSは、ログを記録しなくても、修正可能なしきい値イベントに対する自動修復のスケジュールを引き続き設定します。このスケジュール設定された自己修復は、次回のシステム再起動中に自動的に実行されます。
業界とお客様からのフィードバックにさらに適合させるため、2022年3月以降、Dell PowerEdge BIOSのアップデートにより、[
Correctable Error Logging]のBIOS設定がデフォルトで[Disabled]に変更されます。 修正可能なメモリーしきい値イベントを引き続き表示したい場合は、このBIOSオプションを再度有効にできます。このBIOS設定の変更が含まれるBIOSバージョンは次のとおりです。
- 14Gインテル プラットフォーム - BIOSバージョン2.13.3以降
- 15G AMDプラットフォーム - BIOSバージョン2.6.5以降
- 15Gインテル プラットフォーム - BIOSバージョン1.5.5以降
システム再起動によるDDR4 DIMM自己修復のメリット:
- システムから取り外さずにDDR4 DIMMを修復できます。Dell製のすべてのDDR4 DIMMは、メモリーの自己修復をサポートしています。メモ - 14G AMD PowerEdgeサーバーには、この自動修復機能はありません。
- DRAMに組み込まれた使用可能なスペア行を使用して、不正な行を電気的なフュージングによって正常な行に永続的に置き換えられます。
- 後続のメモリーの再トレーニングでは、センター ポイントを再調整して「データ アイ」を最適化し、メモリー バスが最大レベルの信号品位で動作するようにします。
[Correctable Error Logging]のBIOS設定が[Enabled]になっている場合の修正可能なしきい値イベントについては、メモリーしきい値イベントが発生した場合、スケジュール済みのメモリー自己修復または自己修正を実行できるように、お客様の定期的なメンテナンス スケジュールで再起動することをお勧めします。再起動後、関連付けられているDIMMの自動修復イベントの成功または失敗がログに記録されます。
[Correctable Error Logging]のBIOS設定が[Disabled]になっている場合は、お客様の通常のメンテナンス スケジュールで再起動することをお勧めします。再起動すると、スケジュール済みの自動修復操作が自動的に実行されます。自己修復/自己修正操作が失敗した場合、システムはイベント(MEM0805またはMEM7114タイプのイベント)を記録し、さらに対象DIMMを物理的に交換することを推奨します。
推奨事項:
Dell EMCメモリー エンジニアリングでは、古いBIOSバージョン(2022年3月より前のBIOSブロック リリース)を使用しているPowerEdgeサーバーのお客様に、[Correctable Error Logging]のBIOS設定を[Disabled]に変更することを推奨します。これにより、サーバー インフラストラクチャ全体で散発的な修正可能なメモリーしきい値イベント(MEM0802やMEM5104タイプのイベントなど)が排除されるため、サーバーを再起動して自己修復または自己修正を実行することが推奨されます。前述のように、スケジュール済みの自動修復または自己修正操作は、サーバーの再起動時に自動的に実行され、障害が報告されます。
[Correctable Error Logging]のBIOS設定は、サーバーをF2設定で再起動するか、iDRAC GUIを使用して変更できます。
F2設定を使用してBIOS設定を変更するには、次の手順を実行します。
iDRAC GUIを使用してBIOS設定を変更するには、次の手順を実行します。
- iDRAC GUIにログインします。
- [Configuration -> BIOS Settings]で、[Memory Settings]セクションを展開します
- [Correctable Error Logging]設定を[Disabled]に変更します。
- [Apply]ボタンをクリックして、[Memory Settings]を保存します。
- BIOSの変更を適用するには、必ず[Apply and Reboot]ボタン(すぐに再起動する場合)または[At Next Reboot]ボタンのいずれかを選択してください。
メモリーに関する既存のKB記事とホワイトペーパーは、この推奨される変更を反映して更新されます。
メモ:承認済みのお客様向けメッセージングは、この記事にファイルとして添付されています(「Managing Correctable Error Notices Dec 2021 v1.pdf」)。
この記事は、新しい情報が提供され次第、更新されます。
対象製品
AX-6515, AX-7525, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R740 Ready Node
, Dell EMC vSAN R740xd Ready Node
...
製品
Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440
, PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525
...