Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Серверы PowerEdge 14G Intel и 15G Intel / AMD: Память DDR4: управление событиями пороговых значений исправляемых ошибок

Summary: Обновлены рекомендации для заказчиков при управлении событиями пороговых значений исправляемых ошибок (MEM0802 или MEM5104) на модулях DDR4 RDIMM или LRDIMM, установленных на серверах PowerEdge 14-го и 15-го поколений, а также на серверах PowerEdge 15-го поколения на базе процессоров AMD. Примечание.: Данная статья не относится к серверам PowerEdge на базе процессоров AMD 14-го поколения, таким как платформы 64x5 или 74x5, так как они не поддерживают функцию Post Package Repair / самовосстановления, хотя сам модуль DIMM поддерживает ее. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

В процессе эволюции функций RAS (надежность, доступность и удобство обслуживания) в памяти корпоративного класса компания Dell применяет консервативный подход к отчетам об ошибках, чтобы обеспечить прозрачность для наших заказчиков. По мере того как эта эволюция продолжается, меняется и подход Dell к отчетам об ошибках, позволяющий сосредоточиться на уведомлениях, требующих более срочного реагирования, а не на уведомлениях, которые носят преимущественно информационный характер.

По мере того как геометрии памяти на основе DRAM продолжают уменьшаться, обеспечивая заказчикам необходимую им повышенную производительность, ожидается увеличение числа исправимых ошибок как естественной части равномерного масштабирования.

Cause

В глобальной серверной индустрии все шире распространено мнение, и Dell считает, что некоторые устранимые ошибки в каждом модуле DIMM неизбежны и не требуют замены модуля памяти или даже немедленной перезагрузки для запуска самовосстановления.

Resolution

Продолжение работы системы, сообщающей об исправимых ошибках, без перезагрузки для самовосстановления не увеличивает существенно риск возникновения неустранимых ошибок, которые могут привести к незапланированным простоям. На самом деле, другие представители отрасли публично сообщили, что их обработка памяти не сообщает об исправимых ошибках.

В BIOS для серверов Intel PowerEdge 14-го поколения версии 2.5.4 и новее был добавлен параметр BIOS под названием «Ведение журнала исправимых ошибок», который позволяет заказчикам при желании отключить отчеты об исправимых ошибках, и многие так и сделали.  BIOS продолжит планировать самовосстановление для исправляемых пороговых событий даже без ведения журнала. Это запланированное самовосстановление произойдет автоматически во время последующей перезагрузки системы.

Чтобы в большей степени соответствовать отраслевым рекомендациям и постоянным отзывам заказчиков, начиная с марта 2022 г. при обновлении Dell PowerEdge для BIOS настройка BIOS «Ведение журнала исправимых ошибок» по умолчанию будет отключена.  Для заказчиков, которые хотят и дальше видеть исправляемые события пороговых значений памяти, этот параметр BIOS можно включить повторно. Версии BIOS, в которые включено это изменение настроек BIOS:
  • Платформы Intel 14G — BIOS версии 2.13.3 или новее
  • Платформы AMD 15G — BIOS версии 2.6.5 или новее
  • Платформы Intel 15-го поколения — BIOS версии 1.5.5 или новее.

Преимущества самовосстановления DDR4 DIMM путем перезагрузки системы:
  • Позволяет отремонтировать модуль DDR4 DIMM без извлечения из системы. Все модули DDR4 DIMM от Dell поддерживают самовосстановление памяти. Примечание. Серверы AMD PowerEdge 14-го поколения не имеют возможности самовосстановления.
  • Использует доступные резервные ряды, встроенные в DRAM, где поврежденная строка навсегда заменяется заведомо исправной строкой с помощью электрического предохранителя.
  • Последующее переобучение памяти оптимизирует работу «глаз данных» путем повторной калибровки центральных точек, чтобы обеспечить работу шины памяти с высочайшим уровнем целостности передачи сигналов.


При возникновении пороговых событий памяти при наступлении пороговых событий с включенным параметром BIOS «Ведение журнала исправимых ошибок» Dell рекомендует выполнить перезагрузку в соответствии с графиком планового обслуживания заказчика, чтобы обеспечить запланированное самовосстановление или самокоррекцию памяти. После перезагрузки успешные или неуспешные события самовосстановления будут зарегистрированы для связанных модулей DIMM.

Если в BIOS включена настройка «Ведение журнала исправимых ошибок», Dell рекомендует выполнять перезагрузку в соответствии с графиком планового обслуживания заказчика. После перезагрузки будут автоматически запущены все запланированные операции самовосстановления. Если операция самовосстановления/самокоррекции завершилась неудачно, система запишет событие (события типа MEM0805 или MEM7114), а затем порекомендует физически заменить затронутый модуль DIMM.

Рекомендация.Специалисты
Dell EMC Memory Engineering рекомендуют заказчикам серверов PowerEdge на более старых версиях BIOS (выпуски BIOS до марта 2022 г.) изменить настройку BIOS «Ведение журнала исправимых ошибок» на «Отключено». Это устранит спорадические исправляемые события порога памяти (например, события типа MEM0802 или MEM5104) в серверной инфраструктуре, которые рекомендуют перезагрузку сервера для самовосстановления или самокоррекции. Как упоминалось ранее, любые запланированные операции самовосстановления или самоисправления будут выполняться автоматически при перезагрузке сервера и будут отображаться отчеты обо всех сбоях.
 

Настройку «Ведение журнала исправимых ошибок» в BIOS можно изменить, перезагрузив сервер до настройки F2 или с помощью графического интерфейса пользователя iDRAC.
 

Чтобы изменить настройки BIOS с помощью клавиши F2, выполните следующие действия.

  • Перезагрузите серверы, остановившись при настройке F2
  • В разделе «Настройки BIOS —> Настройки памяти» измените параметр «Ведение журнала исправимых ошибок» на «Отключено».
  • Сохраните настройки BIOS и выйдите из настроек F2

Чтобы изменить настройки BIOS с помощью графического интерфейса пользователя iDRAC, выполните следующие действия.

  • Войдите в графический интерфейс пользователя iDRAC.
  • В разделе Конфигурация -> Настройки BIOS разверните раздел Настройки памяти
  • Измените значение параметра «Ведение журнала исправимых ошибок» на «Отключено».
  • Нажмите кнопку Применить, чтобы сохранить настройки памяти
  • Не забудьте нажать кнопку Применить и перезагрузить (для немедленной перезагрузки) или кнопку При следующей перезагрузке , чтобы применить изменения BIOS.


Существующие статьи базы знаний и технические документы, связанные с памятью, будут обновлены с учетом этого рекомендуемого изменения.

ПРИМЕЧАНИЕ: Утвержденные сообщения для заказчиков прикреплены в виде файла к этой статье — «Управление уведомлениями об исправимых ошибках, декабрь 2021 г. v1.pdf».

Эта статья будет обновляться по мере поступления новой информации.

Affected Products

AX-6515, AX-7525, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R740 Ready Node , Dell EMC vSAN R740xd Ready Node ...

Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
Article Properties
Article Number: 000194574
Article Type: Solution
Last Modified: 10 Feb 2022
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.