注意:本文不適用於搭載 Xeon 可擴充處理器的新系統。若為較新的系統,請查看此文章什麼是搭載 Intel Xeon 可擴充處理器的 Dell PowerEdge 伺服器上的 DDR4 自我修復功能?
透過交換測試,故障診斷 PowerEdge 系統上的記憶體錯誤
當一或多個記憶體 DIMM 位置回報單位元錯誤 (SBE) 和/或多位元錯誤 (MBE) 時,原因可能不是由 DIMM 本身造成,因此必須執行一些簡單的故障診斷,以判斷故障的確切位置。如需 R715 iDRAC 介面中出現的記憶體錯誤範例,請參閱 圖 1 。
圖 1:iDRAC 6 記錄中顯示的記憶體錯誤 (僅限英文版)
隔離記憶體問題是指將記憶體 DIMM 交換至不同的記憶體插槽、通道、記憶體庫和控制器。您可以透過多種方式交換 DIMM 以縮小故障範圍。您可能需要使用其中一種方法來找出故障的 DIMM 或插槽。您可以在下方找到這些方法的表示。為了讓說明更明確,我們假設故障的 DIMM 是 A1,或是影像中標示為藍色的其中一組。
最佳方法將 DIMM 依群組 (透過通道或銀行) 交換,而不是個別交換故障的 DIMM。
識別出包含故障的 DIMM 的 DIMM 群組後,可使用移動單一 DIMM 來識別故障的 DIMM。
將 DIMM A1 (藍色標示) 與 DIMM A9 (紅色標示) 交換,嘗試使用不同記憶體通道的 DIMM,以及記憶體庫
圖 2:將 DIMM A1 與 DIMM A9 交換
將 DIMM A1 (標示為藍色) 與 DIMM B1 (標示為紅色) 交換,會將 DIMM 置於完全不同的記憶體控制器 (CPU) 上。
圖 3:將 DIMM A1 與 DIMM B1 交換
將整個 DIMM 組 (A1、A2、A3 - 標記為藍色) 與另一個插槽 (B1、B2、B3 - 標記為紅色) 交換,會在新的記憶體控制器上測試新插槽中的整個 DIMM 組。
圖 4:將 DIMM A1、A2、A3 與 DIMM B1、B2、B3 交換
將整個通道的 DIMM (A1、A4、A7 - 標記為藍色) 與另一個通道 (B1、B2、B3 - 標記為紅色) 交換,在新通道和新的記憶體控制器上測試整個通道的 DIMM。
圖 5:將 DIMM A1、A4、A7 與 DIMM B1、B4、B7 交換
一般來說,DIMM 錯誤往往會遵循錯誤中所識別的 DIMM。例如在 DIMM A1 上使用 SBE 報告時,將此 DIMM 替換為不同的 DIMM,結果會出現下列狀況之一:
不適用
不適用