Поиск и устранение ошибок памяти в системах PowerEdge путем тестовой замены
Summary:Замена модулей памяти DIMM для устранения ошибок памяти на серверах Dell Technologies PowerEdge.
Please select a product to check article relevancy
This article applies to This article does not apply toThis article is not tied to any specific product.Not all product versions are identified in this article.
Поиск и устранение ошибок памяти в системах PowerEdge путем тестовой замены
Если в одной или нескольких ячейках памяти DIMM отображается одноразрядная ошибка (SBE) и/или многоразрядная ошибка (MBE), причина может заключаться не в самом модуле DIMM, поэтому необходимо выполнить простую процедуру поиска и устранения неисправностей, чтобы определить, где именно находится неисправность. Пример ошибок памяти, появляющихся в интерфейсе iDRAC на компьютере R715, приведен на рис. 1 .
Рисунок 1: Ошибки памяти, отображаемые в журналах iDRAC 6 (Только на английском языке)
Локализация проблем с памятью означает перемещение модулей памяти DIMM по разным разъемам памяти, каналам, банкам и контроллерам. Существует несколько способов замены модулей DIMM, чтобы определить положение неисправности. Для обнаружения неисправного модуля DIMM или разъема может потребоваться применить несколько из этих способов. Ниже приведено представление этих способов. Чтобы объяснить это просто, мы предположим, что неисправный модуль DIMM — A1 или один из наборов, отмеченных синим цветом на изображениях.
Наилучший способ определения неисправных модулей DIMM или модулей DIMM — это лучший способ определения неисправных модулей DIMM (по каналу или банку). После того как в группе модулей DIMM обнаружены неисправные модули DIMM или модули DIMM, можно использовать перемещение отдельных модулей DIMM, чтобы определить, какие модули DIMM неисправны.
Способ 1.
Замена DIMM A1 (помеченного синим цветом) модулем DIMM A9 (помеченным красным цветом) для проверки модуля DIMM на другом банке и канале памяти
Рис. 2. Замена DIMM A1 модулем DIMM A9
Способ 2.
При замене модуля DIMM A1 (отмечен синим цветом) на модуль DIMM B1 (отмечен красным) модуль DIMM переходит на совершенно другой контроллер памяти (ЦП).
Рисунок 3: Замена DIMM A1 модулем DIMM B1
Способ 3.
При замене всего банка модулей DIMM (A1, A2, A3 - синий) на другой банк (B1, B2, B3 - красный) выполняется проверка всего банка DIMM в новом банке на новом контроллере памяти.
Заменив весь канал модулей DIMM (A1, A4, A7 - отмечен синим цветом) на другой канал (B1, B2, B3 - отмечен красным), проверьте весь канал модулей DIMM в новом канале и на новом контроллере памяти.
Интерпретация результатов после замены модулей DIMM
Как правило, ошибки DIMM следуют за модулями DIMM, указанными в ошибках. Например, если модуль памяти DIMM A1 сообщает об ошибке SBE, то при замене этого модуля DIMM на другой произойдет одно из следующих событий.
Сообщение об ошибке больше не отображается, проблема устранена.
Это означает, что переустановка памяти устранила проблему.
Сообщение об ошибке следует за модулем DIMM (модуль DIMM A1 заменен на модуль DIMM B1, и теперь возникает ошибка модуля DIMM B1).
Это означает, что, скорее всего, модуль DIMM неисправен и его нужно заменить.
Сообщение об ошибке следует за разъемом DIMM (модуль DIMM A1 заменен на модуль DIMM B1, по прежнему возникает ошибка модуля DIMM A1).
Это указывает, что, скорее всего, неисправны системная плата или процессор.
Замена ЦП позволяет определить, какой компонент требует замены
Если проблема связана с ЦП (сообщение об ошибке перемещается после замены ЦП), замените ЦП.
Если проблема сохраняется в разъеме DIMM, замените системную плату.
Сообщение об ошибке не следует за модулем DIMM или процессором (после замены появляется ошибка другого модуля DIMM).
Это указывает, что, скорее всего, неисправны другие модули DIMM.
ПРИМЕЧАНИЕ. Рекомендуется также поддерживать актуальность версий микропрограммы, так как это может снизить риск получения ошибок памяти и продлить срок службы модулей DIMM.
Подробнее см. в статье базы знаний Dell Dell Repository Manager (DRM).