Article Number: 000053203
У BIOS Dell PowerEdge постійно вдосконалюються та вдосконалюються для покращення обміну повідомленнями про події пам'яті, обробки помилок і «самовідновлення», які відбуваються під час перезавантаження сервера. Це запобігає необхідності у вікні планового технічного обслуговування або присутності на об'єкті для заміни модуля пам'яті DDR4 DIMM, який реєстрував події помилок.
Існує два основні покращення BIOS, пов'язані з «самовідновленням», пов'язані з пам'яттю, які були реалізовані для серверів PowerEdge із DDR4 під керуванням BIOS версії 2.1.x і новіших. Ці вдосконалення змінюють рекомендовані кроки або дії, які слід виконати, якщо відбуваються події пам'яті та реєструються в журналі життєвого циклу.
Перенавчання пам'яті, яке відбувається під час завантаження (на ранніх етапах налаштування пам'яті), оптимізує час сигналу та запас для кожного модуля DIMM/слота для найкращого доступу. Синхронізація сигналу пам'яті та характеристики запасу модуля DIMM можуть змінюватися з часом із кількох причин:
Раніше виявлення оновлень BIOS або змін конфігурації пам'яті призводило до перенавчання пам'яті під час наступного завантаження. Починаючи з BIOS 2.1.x, були додані додаткові виправлені і невиправні помилки пам'яті «тригери» для планового перенавчання:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Будь-яка з цих помилок, зареєстрованих у журналах SEL/LifeCycle, призводить до того, що перенавчання пам'яті планується на наступне перезавантаження (тепле або холодне). BIOS автоматично примусово перезавантажується холодом незалежно від того, що ініційовано.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Ця багатобітова помилка може призвести до перезавантаження сервера через фатальну помилку, якщо операційна система не в змозі обробити цю помилку. Перенавчання пам'яті відбувається автоматично під час цього завантаження. Якщо багатобітова помилка виникає в некритичній області пам'яті, з якою може впоратися ця операційна система, необхідно запланувати перезавантаження.
Перенавчання пам'яті під час POST може «самовилікувати» несправний модуль DIMM і пов'язаний з ним слот шляхом оптимізації часу сигналу та запасу. Заміна модуля DIMM для цих помилок не потрібна, якщо під час завантаження не вдається перенавчати пам'ять (UEFI0106) або ці самі помилки продовжують виникати.
Другим «самовідновлювальним» поліпшенням пам'яті є ППР. PPR відновлює несправну ділянку пам'яті, вимикаючи розташування або адресу на апаратному рівні, дозволяючи замість цього використовувати рядок запасної пам'яті. Точна кількість доступних рядків вільної пам'яті залежить від пристрою DRAM і розміру модуля DIMM.
Раніше цей функціонал обмежувався процесом виготовлення. Як і у випадку з удосконаленнями перенавчання пам'яті, про які згадувалося раніше, існують певні помилки пам'яті, які можна виправити, які призводять до того, що PPR буде заплановано на певному слоті DIMM для наступного перезавантаження (теплого або холодного). BIOS автоматично примусово перезавантажується холодом незалежно від того, що ініційовано. Оскільки операція PPR запланована на певному слоті DIMM, НЕ змінюйте розташування слотів DIMM, доки операцію PPR не буде запущено. Прикладами помилок є:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Будь-яка з цих подій в журналах призведе до того, що PPR буде заплановано на наступне перезавантаження (тепле або холодне) на початку фази налаштування пам'яті.
Після перезавантаження переконайтеся, що операція PPR була успішно виконана. Приклад успішної операції ППР схожий на:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Нещодавно опублікований технічний документ (версія 1.0), що описує функції надійності, доступності та обслуговування (RAS) сервера Dell PowerEdge, пов'язаних із пам'яттю, який описує різні функції та можливості RAS, доступні на серверах PowerEdge – помилки пам'яті та функції RAS серверної пам'яті Dell EMC PowerEdge YX4X.
Щоб дізнатися більше про порогові значення помилок, які можна виправити, зверніться до серверів 14G Intel і 15G Intel/AMD PowerEdge: Пам'ять DDR4: керування пороговими подіями помилок, які можна виправити.Оновлено 24 квітня 2020 р.
Dell продовжує вдосконалювати свої можливості «самовідновлення». У наступному розділі перелічено оновлення та вдосконалення, пов'язані з різними версіями BIOS.
BIOS 2.1.x - Початкова публікація статті про можливості «самовідновлення», починаючи з BIOS 2.1.6 і вище, включаючи приклади повідомлень про помилки та рекомендовані дії.
BIOS 2.4.x і новіші зміни (грудень 2019 р.)
BIOS 2.5.x і новіші зміни (лютий 2020 р.)
Оновлено 10 липня 2020 р.
BIOS 2.7.x і новіші зміни (липень 2020 року блок BIOS - орієнтований на середину липня для веб-публікацій)
ОНОВЛЕНО 13 січня 2021 р.
BIOS 2.8.2 і новіші зміни (вересень 2020 блок BIOS)
Оцінюються додаткові вдосконалення функцій RAS для включення в майбутні оновлення BIOS.
Ця стаття буде оновлюватися в міру надходження нової інформації.
Читайте також: Керівництво по усуненню несправностей пам'яті за допомогою тестування підкачки - Усунення помилок пам'яті в системах PowerEdge за допомогою тестування
підкачкиЗавантаження та драйвери: Драйвери та завантаження | Dell США
VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
19 Apr 2024
15
Solution