跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表

VxFlex-IR: Устранимые ошибки памяти PowerEdge DIMM ECC

摘要: Сервер Dell 13G/14G публикует ошибки MEMXXXX в журнале событий iDRAC. Это событие могло привести к зависанию узла или к исключению Machine Check Exception. Что нужно сделать?

本文适用于 本文不适用于 本文并非针对某种特定的产品。 本文并非包含所有产品版本。

症状



Узел 13G или 14G сообщает об ошибках MEM в журнале событий iDRAC.

Что можно сделать, чтобы устранить проблему без замены оборудования или планового визита инженера по работе с заказчиком?

Что такое «самовосстановление» DDR4? 
Как функция «самовосстановления» DDR4 (улучшения BIOS) влияет на рекомендуемые действия заказчиков и службы технической поддержки при возникновении ошибок памяти на сервере?

Для серверов PowerEdge с памятью DDR4 под управлением BIOS версии 2.1.x и более поздних версий реализованы два улучшения BIOS, связанные с «самовосстановлением». Эти усовершенствования изменяют рекомендуемые действия или шаги, которые необходимо предпринять в случае возникновения ошибок памяти и их регистрации в журналах vCenter, VxFM, домашнего вызова или LifeCycle.

Примечание. Если при использовании DDR4 и BIOS 2.0 или более ранних версий возникают ошибки памяти, обновите BIOS до последней версии с улучшениями, связанными с функцией самовосстановления памяти.  Затем перезагрузите узел, чтобы продолжить и перейти к исправлению PPR. Дополнительные сведения см. в разделе «Решение»

Примечание. Текущие действия по поиску и устранению неисправностей памяти включают перемещение неисправных модулей DIMM в другой разъем, чтобы проверить, следуют ли ошибки за модулем DIMM или остаются в разъеме DIMM.

Если узел 13G работает под управлением BIOS версии 2.8.x или более поздней, первым рекомендуемым шагом является перезагрузка или перезапуск (без перемещения модулей DIMM в другой разъем). Это приведет к запуску новых улучшений BIOS, которые могут выполнить устранение (самовосстановление) ошибок модулей DIMM без их замены.

Если узел 14G работает под управлением BIOS версии 2.4.8 или более поздней, первым рекомендуемым шагом является перезагрузка или перезапуск (без перемещения модулей DIMM в другой разъем). Это приведет к запуску новых улучшений BIOS, которые могут выполнить устранение (самовосстановление) ошибок модулей DIMM без их перемещения.

原因

В большинстве случаев ошибки памяти ECC вызваны случайными альфа-частицами.  Альфа-частицы являются частью нормального повседневного излучения.  Иногда альфа-частица выбивает один электрон из модуля памяти, что приводит к повреждению данных.  Современные модули памяти разработаны для распознавания этого события и восстановления.  Каждый модуль поддерживает внутренний счетчик количества случаев исправления ошибок памяти.  В BIOS устанавливается пороговое значение, при достижении которого сервер будет оповещать о том, что количество событий памяти превысило это пороговое значение.

解决方案

Модернизируйте BIOS до версии (2.8.x или выше для 13G) и (2.1.x или выше для 14G), чтобы обеспечить возможность переобучения памяти для серверов с установленной оперативной памятью DDR4 — Переобучение памяти, которое происходит во время загрузки, оптимизирует синхронизацию или ограничения для каждого модуля или разъема DIMM для оптимизации доступа. Характеристики синхронизации DIMM могут изменяться по нескольким причинам:

Примеры включают, помимо прочего:
1. Изменения в конфигурации памяти сервера
2. Изменения в BIOS
3. Разность рабочих температур сервера или модуля DIMM
4. Средний возраст модулей DIMM

Ранее обнаружение обновлений BIOS или изменений конфигурации памяти приводило к переобучению памяти во время последующей загрузки. Начиная с BIOS 2.1.x (14G) и 2.8.x (13G), для планового переобучения были добавлены дополнительные «триггеры» устранимых и неустранимых ошибок памяти:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

Запись любой из перечисленных выше ошибок в журналах событий Vc/домашнего вызова/SEL/LifeCycle приведет к тому, что для следующей перезагрузки (горячей или холодной) будет запланировано переобучение памяти, BIOS автоматически выполнит холодную перезагрузку независимо от инициированного действия.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX."

MEM0001 приводит к перезагрузке сервера из-за неустранимой ошибки. Переобучение памяти будет выполняться автоматически во время этой загрузки.

В случае одной из этих устранимых или неустранимых (многоразрядных) ошибок памяти переобучение памяти при перезагрузке или перезапуске может выполнить «самовосстановление» отказавшего модуля DIMM путем оптимизации синхронизации или ограничений для каждого модуля или разъема DIMM. При возникновении этих ошибок не требуется замена модуля DIMM, если во время загрузки не происходит сбой в ходе переобучения памяти (UEFI0106) или эти же ошибки не возникают снова.

2. Исправление PPR — второе улучшение, связанное с самовосстановлением памяти. Оно восстанавливает неисправное местоположение памяти на модуле DIMM путем отключения местоположения/адреса на аппаратном уровне, что позволяет использовать вместо него резервную строку памяти. Точное количество доступных резервных строк памяти зависит от устройства DRAM и размера модуля DIMM.
Ранее эта функциональность была ограничена процессом производства. Как и в случае с упомянутыми выше улучшениями переобучения памяти, существуют некоторые исправимые ошибки памяти, которые приводят к тому, что для следующей перезагрузки («теплой» или «холодной») будет запланировано исправление PPR на определенном модуле DIMM. BIOS автоматически инициирует «холодную» перезагрузку вне зависимости от того, какие процессы запущены. Так как исправление PPR запланировано для конкретного разъема DIMM, НЕ меняйте местоположения разъемов DIMM до тех пор, пока оно не будет запущено. Примеры ошибок:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."

Запись любой из перечисленных выше ошибок в журналах событий Vc/домашнего вызова/SEL/LifeCycle приведет к тому, что для следующей перезагрузки (горячей или холодной) будет запланировано исправление PPR.

После перезагрузки убедитесь, что операция PPR выполнена успешно. Пример успешной операции PPR будет аналогичен следующему:

Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
Замена модулей DIMM для таких устранимых ошибок памяти не требуется, если после перезагрузки происходит сбой операции PPR. Пример сообщения о сбое исправления PPR:
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

其他信息

Примечание. В ситуации, когда появляется сообщение ID MEM8000 (Регистрация устранимых ошибок памяти отключена для устройства памяти в местоположении DIMM_XX), которое отображается отдельно (т.е. не в том же периоде времени) от любых соответствующих сообщений MEM0005/MEM0701/MEM0702, это не приводит к планированию PPR для следующей перезагрузки.

Идентификатор сообщения MEM8000 отдельно или с соответствующим MCE (исключение проверки машины) указывает на общий сбой модуля DIMM и не является ситуацией, когда контейнеры устранимых и неустранимых ошибок переполнены. Этот тип события памяти следует рассматривать как сбой DIMM, а указанный модуль DIMM следует заменить при первой возможности.

受影响的产品

VxFlex Product Family

产品

VxFlex Product Family
文章属性
文章编号: 000058157
文章类型: Solution
上次修改时间: 15 4月 2021
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。