Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Сведения о функции самовосстановления памяти DDR4 на серверах Dell PowerEdge с масштабируемыми процессорами Intel Xeon

Summary: Устранимые и неустранимые ошибки памяти на сервере PowerEdge с DDR4 и изменения в действиях по устранению неполадок

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Что такое самовосстановление DDR4 на серверах Dell PowerEdge с масштабируемыми процессорами Intel Xeon (первого или второго поколения) и BIOS версии 2.1.x или новее?

Как эти возможности самовосстановления DDR4 (улучшения BIOS) влияют на рекомендуемые действия заказчика и службы технической поддержки при возникновении ошибок памяти на сервере?

Каковы улучшения самовосстановления в новых версиях BIOS?

Cause

BIOS серверов Dell PowerEdge постоянно совершенствуется и совершенствуется с целью передачи сообщений о событиях памяти, обработки ошибок и самовосстановления, которое происходит после перезагрузки сервера. Это устраняет необходимость в запланированном окне обслуживания или присутствии на месте для замены модуля памяти DDR4 DIMM, который регистрировал события ошибок.

Resolution

Для серверов PowerEdge с памятью DDR4, на которых установлена BIOS 2.1.x и более поздних версий, были добавлены два основных улучшения BIOS, связанные с самовосстановлением памяти. Эти улучшения изменяют рекомендуемые действия или действия, которые необходимо предпринимать в случае возникновения событий памяти, которые регистрируются в журнале жизненного цикла.

Примечание.:
  • При возникновении ошибок памяти при использовании DDR4 в BIOS 2.0 или более ранних версиях обновите BIOS до последней версии, включающей улучшения функций самовосстановления памяти. Мы всегда рекомендуем заказчикам обновлять BIOS (и микропрограмму iDRAC) до последней версии, чтобы они могли воспользоваться преимуществами последних улучшений самовосстановления.
  • Предыдущие действия по устранению неисправностей памяти включали перемещение неисправных модулей DIMM в другие разъемы, чтобы проверить, связаны ли ошибки с модулем DIMM или с разъемом. Для BIOS 2.1.x или более поздних версий первым рекомендуемым действием является перезапуск (без перемещения модулей DIMM в другой разъем). Это приведет к запуску новых улучшений BIOS, которые могут выполнить устранение (самовосстановление) ошибок модулей DIMM без планирования их замены.

1. Улучшения переобучения памяти

Переобучение памяти, которое происходит во время загрузки (на ранних этапах настройки памяти), оптимизирует синхронизацию и ограничения сигнала для каждого модуля или разъема DIMM для обеспечения оптимального доступа. Характеристики синхронизации и ограничения сигналов памяти DIMM могут изменяться со временем по нескольким причинам:

  • Изменения в конфигурации памяти сервера
  • Изменения в BIOS (справочный код памяти — MRC)
  • Разность рабочих температур сервера или модуля DIMM
  • Средний возраст модулей DIMM

Ранее обнаружение обновлений BIOS или изменений конфигурации памяти приводило к переобучению памяти во время последующей загрузки. Начиная с BIOS версии 2.1.x добавлены дополнительные «триггеры» устранимых и неустранимых ошибок памяти, которые будут инициировать запланированное переобучение:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Регистрация любой из этих ошибок в журнале SEL/LifeCycle приведет к тому, что для следующей перезагрузки («теплой» или «холодной») будет запланировано переобучение памяти. BIOS автоматически инициирует «холодную» перезагрузку вне зависимости от того, какие процессы запущены.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
 

Эта многобитовая ошибка может привести к перезагрузке сервера из-за неустранимой ошибки, если операционной системе не удается обработать эту ошибку. Во время загрузки автоматически выполняется переобучение памяти. Если в некритической ячейке памяти возникает многобитовая ошибка, которую может обработать операционная система, необходимо запланировать перезагрузку.

Переобучение памяти во время процедуры POST может выполнить «самовосстановление» неисправного модуля DIMM и соответствующего разъема за счет оптимизации синхронизации и ограничения сигнала. При возникновении этих ошибок не требуется замена модуля DIMM, если во время загрузки не происходит сбой в ходе переобучения памяти (UEFI0106) или эти же ошибки не возникают снова.
 

2. Услуга Post Package Repair (PPR)

Вторым «самовосстанавливающимся» улучшением памяти является PPR. PPR восстанавливает неисправную ячейку памяти, отключая местоположение или адрес на аппаратном уровне, позволяя использовать вместо нее резервную строку памяти. Точное количество доступных резервных строк памяти зависит от устройства DRAM и размера модуля DIMM.

Ранее эта функция была ограничена процессом производства. Как и в случае с упомянутыми выше улучшениями переобучения памяти, существуют некоторые исправимые ошибки памяти, которые приводят к тому, что для следующей перезагрузки («теплой» или «холодной») будет запланировано исправление PPR на определенном слоте DIMM. BIOS автоматически инициирует «холодную» перезагрузку вне зависимости от того, какие процессы запущены. Так как исправление PPR запланировано для конкретного разъема DIMM, НЕ меняйте местоположения разъемов DIMM до тех пор, пока оно не будет запущено. Примеры ошибок.

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Любое из этих событий в журналах приведет к тому, что PPR будет запланирована для следующей перезагрузки («теплой» или «холодной») на раннем этапе настройки памяти.

Примечание.: Если MEM8000 с идентификатором сообщения (для устройства памяти в расположении DIMM_XX отключено исправление ошибок памяти) без соответствующего MEM0005/MEM0701/MEM0702 в том же расположении DIMM не будет запланировано выполнение PPR при следующей перезагрузке.

См. обновление от 10 июля 2020 г., чтобы узнать об изменениях в мероприятии MEM8000, а также в обновленном техническом документе версии 1.1 и более новых версий.

После перезагрузки убедитесь, что исправление PPR выполнено успешно. Пример сообщения об успешном выполнении исправления PPR будет выглядеть примерно следующим образом:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

Замена модуля DIMM для устранения этих исправимых ошибок памяти не требуется, если только не выполняется операция PPR. Пример критического сообщения PPR, завершающегося сбоем:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
 

В новом техническом документе (версия 1.0) с описанием функций, связанных с надежностью, доступностью и удобством обслуживания (RAS) на серверах Dell PowerEdge. В нем описаны различные функции и возможности RAS, доступные на серверах PowerEdge — ошибки памяти и функции RAS серверной памяти Dell EMC PowerEdge YX4X.

Для получения дополнительной информации о событиях пороговых значений исправляемых ошибок см . Серверы PowerEdge 14G Intel и 15G Intel/AMD. Память DDR4: управление событиями пороговых значений исправляемых ошибок.

Обновлено: 24 апреля 2020 г.

Dell продолжает расширять возможности самовосстановления. В следующем разделе перечислены обновления и улучшения, связанные с различными версиями BIOS.

BIOS 2.1.x — Первая статья, в которой представлена информация о возможностях самовосстановления, начиная с BIOS 2.1.6 и выше, включая примеры сообщений об ошибках и рекомендуемые действия.

Изменения BIOS 2.4.x и более новых версий (декабрь 2019 г.)

  • MEM0702 (Correctable error rate exceeded…) — Серьезность сообщения обновлена с «Critical» на «Warning». В список рекомендуемых действий добавлена перезагрузка сервера, чтобы разрешить «самовосстановление», например исправление PPR (Post-Package Repair).
    • Для получения обновленного сообщения также требуется установить контроллер iDRAC версии от декабря 2019 г. или более поздней
    • Рекомендуемое действие: Перезагрузите сервер, чтобы запустить PPR
  • MEM9060 — Описание сообщения обновлено, теперь оно указывает на успешное завершение самовосстановления

Изменения BIOS 2.5.x и более новых версий (февраль 2020 г.)

  • Добавлена опция BIOS «Correctable Error Logging», позволяющая пользователям отключать запись в журналы Lifecycle/SEL сообщений, связанных с исправляемыми ошибками. Все функции «самовосстановления» продолжают работать, например PPR и переобучение памяти по-прежнему запланированы и выполняются во время следующей перезагрузки (на ранних этапах процесса настройки памяти).
  • Добавление ошибок MEM08xx для RDIMM и LRDIMM с заменой существующих сообщений об ошибках и действий. Существующие сообщения об ошибках по-прежнему используются для платформ, которые не поддерживают возможности самовосстановления.
    • Для регистрации новых сообщений в журнале требуется iDRAC от февраля 2020 г. или более поздней версии.
Примечание.: Без обновленного iDRAC новые сообщения BIOS в журналах SEL или журналах жизненного цикла будут отображаться как «unknown».
  • MEM0802 — Заменено сообщение MEM0702 - «correctable error rate exceeded»
    • Рекомендуемое действие: Перезагрузите сервер, чтобы запустить PPR. Убедитесь, что PPR выполнена успешно (MEM0802).
  • MEM0804 — Заменено сообщение MEM9060, указывающее на успешное выполнение PPR. Теперь включает расположение разъема DIMM, на котором выполнялась PPR.
    • Рекомендуемое действие: Нет. Это событие указывает на то, что произошло самовосстановление, замена DIMM не требуется.
  • MEM0805 — Заменено сообщение UEFI0278, указывающее на сбой выполнения PPR.
    • Рекомендуемое действие: Замените неисправный модуль DIMM.

Обновлено: 10 июля 2020 г.

Изменения BIOS 2.7.x и более новых версий (блок BIOS от июля 2020 г. — планируется разместить в Интернете в середине июля).

  • MEM8000 (ведение исправимых ошибок отключено) — начиная с версии BIOS ~2.0.x, технические специалисты Dell внесли изменения в BIOS, чтобы повысить скорость обнаружения исправимых ошибок, которые могут повлиять на производительность. Это изменение привело к увеличению количества MEM8000 событий, которые не были подтверждены результатами анализа сбоев модулей DIMM. Начиная с BIOS 2.7.x, внесены два изменения, касающиеся MEM8000. Первая заключается в том, что была изменена передача сигналов о событии MEM8000. Второе — BIOS планирует самовосстановления (PPR) при следующей перезагрузке. Сообщения iDRAC еще не обновлены, чтобы отражать новые действия.
    • Рекомендуемое действие: Перезагрузите сервер, чтобы запустить самовосстановление/PPR. Убедитесь, что PPR выполнена успешно (MEM0804).
  • MEM0001 (Uncorrectable error) — самовосстановление (PPR) будет запланировано при следующей перезагрузке. Сообщения iDRAC еще не обновлены, чтобы отражать новые действия.
    • Рекомендуемое действие: Не требуется, если MEM0001 связано с критической страницей, которую операционная система не может восстановить — по-прежнему является неустранимой ошибкой, что приводит к перезагрузке. Если MEM0001 связано с некритической страницей, с которой операционная система может восстановить работу, необходимо запланировать перезагрузку для выполнения всех операций самовосстановления (PPR). Убедитесь, что PPR выполнена успешно (MEM0804).

ОБНОВЛЕНО 13.01.2021

Изменения в BIOS 2.8.2 и более поздних версиях (блок BIOS от сентября 2020 г.)

  • MEM9072 (Неустранимая ошибка, выявленная процессом патрулирования памяти — страница не используется или не используется) — самовосстановление (PPR) будет запланировано при следующей перезагрузке.  Сообщения iDRAC еще не обновлены, чтобы отражать новые действия.
    • Рекомендуемое действие: Запланируйте перезагрузку в ближайшее время. Задержка перезагрузки может привести к тому, что страница будет использована, возникнет ошибка MEM0001 и произойдет перезагрузка.  Самовосстановление памяти (PPR) будет выполнено во время перезагрузки. Убедитесь, что PPR выполнена успешно (MEM0804).
Примечание.: Последняя версия технического документа (версия 1.3 — дата выпуска 20 ноября 2020 г.) находится по адресу:  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Для получения материалов по Intel Xeon E и AMD EPYC перейдите к оригинальному техническому документу (версия 1.0), который можно найти по адресу: Технический документ RAS по серверной памяти PowerEdge YX4X версии 1.0 (dell.com)

В настоящее время анализируются несколько дополнительных улучшений функций RAS для включения в будущие обновления BIOS.

Примечание. Подробное описание и рекомендуемые действия для конкретных сообщений с кодами ошибок см. по следующей ссылке: Поиск (dell.com). Поскольку коды ошибок (например, MEM0001) относятся к нескольким поколениям серверов и платформ, рекомендуемые действия могут быть не актуальными для конкретной версии BIOS. Добавленные новые коды ошибок (например, MEM0802, MEM0804, MEM0805 и т. д.) применимы только к серверам с масштабируемыми процессорами Intel Xeon (первого или второго поколения).

Эта статья будет обновляться по мере поступления новой информации.

Читайте также: Руководство по поиску и устранению неисправностей памяти путем тестовой замены: Поиск и устранение ошибок памяти в системах PowerEdge путем тестовой

заменыЗагружаемые материалы и драйверы Драйверы и загружаемые материалы | Dell, США

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R240, OEMR R340, OEMR R740xd2, OEMR T140, OEMR T340, OEMR XL R240, OEMR XL R340, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R240 , PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R940, PowerEdge T140, PowerEdge T340, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...

Products

VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 13 Nov 2024
Version:  16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.