iDRAC 會記錄下列事件:DIMM (銀行/插槽) 超過 MEM0702 可修正記憶體錯誤率
「可修正記憶體錯誤」是單一位錯誤,如果錯誤在寫入或讀取作業期間從 1 到 0 或從 0 變更為 1,就會發生一個位錯誤。識別出錯誤的特定位時,會補強錯誤位來更正錯誤。Dell 認證的 DIMM 會自動執行此修正。
在極少數情況下,伺服器可能會在 SEL 記錄中記錄可修正的記憶體錯誤後重新開機。這只會在 BIOS 版本 2.3.x 中看到。
例子:
超過DIMM_xx的 MEM0701 警告可修正記憶體錯誤率。
超過DIMM_xx的 MEM0702 嚴重可修正記憶體錯誤率。
LC 記錄範例:
2017-03-07 23:08:02 SYS1003 系統 CPU 重設。
2017-03-07 23:08:02 SYS1001 系統正在關閉。
超過 DIMM_xx 的 2017-03-07 23:08:02 MEM0702 可修正記憶體錯誤率。
為了解決重新開機問題,BIOS 應更新至最新的版本。如果因操作原因而無法執行此操作,則 BIOS 應更新至下列最低版本:
R430 | 2.4.2 |
T430 | 2.4.2 |
R530 | 2.4.2 |
T630 | 2.4.2 |
R630 | 2.4.3 |
R730 | 2.4.3 |
R830 | 1.4.2 |
C4130 | 2.4.2 |
C6320 | 2.4.2 |
所有模組化刀鋒 | 2.4.2 |
進一步資訊
此問題主要在 PowerEdge R630 和 R730 中報告,但在 BIOS 版本為 2.3.x 的所有 13G 中都存在此問題。BIOS 版本 2.3.x 中針對額外的安全性原則資料庫 (SPD) 記錄進行了一項變更,這帶來了此特定問題:「
超過記憶體可修正錯誤嚴重閾值後,BIOS 增強型 SPD 記錄中的 Null 指標延遲,將導致系統進行機器檢查或鎖定。」
先前針對受影響平臺引用的 BIOS 版本,會針對超過可修正的錯誤率訊息,修正伺服器重新開機問題。
此問題主要在 R630 和 R730 中報告。 所有具有 BIOS 2.3.x 版的 PowerEdge 13G 伺服器都存在此可能性,可讓問題發生。