Co to jest mechanizm autonaprawy pamięci DDR4 w serwerach Dell PowerEdge z procesorami Intel Xeon Scalable

Summary: Usuwalne i niemożliwe do skorygowania błędy pamięci na serwerze PowerEdge z pamięcią DDR4 oraz zmiany w procedurach rozwiązywania problemów

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Symptoms

Co to jest "autonaprawa" pamięci DDR4 na serwerach Dell PowerEdge ze skalowalnymi procesorami Intel Xeon (pierwszej lub drugiej generacji) z systemem BIOS w wersji 2.1.x lub nowszej?

W jaki sposób te funkcje "autonaprawy" pamięci DDR4 (ulepszenia systemu BIOS) zmieniają zalecane działania klienta i pomocy technicznej w przypadku napotkania błędów pamięci na serwerze?

Na czym polegają udoskonalenia "mechanizmu autonaprawy" w nowszych wersjach systemu BIOS?

Cause

W systemie BIOS Dell PowerEdge trwają udoskonalenia i ulepszenia, które mają na celu usprawnienie komunikatów o zdarzeniach pamięci, obsługi błędów i "autonaprawy" występujących po ponownym uruchomieniu serwera. Zapobiega to konieczności zaplanowanej przerwy konserwacyjnej lub obecności na miejscu w celu wymiany modułu DIMM pamięci DDR4, który rejestrował zdarzenia błędów.

Resolution

Istnieją dwa główne udoskonalenia systemu BIOS dotyczące „mechanizmu autonaprawy” pamięci, które zostały wdrożone dla serwerów PowerEdge z pamięcią DDR4 i systemem BIOS w wersji 2.1.x lub nowszej. Udoskonalenia te zmieniają zalecane kroki lub działania, które należy podjąć w przypadku wystąpienia zdarzeń związanych z pamięcią, które są rejestrowane w dzienniku cyklu eksploatacji.

Uwaga:

W przypadku wystąpienia błędów pamięci DDR4 w systemie BIOS w wersji 2.0 lub starszej należy zaktualizować system BIOS do najnowszej wersji, która zawiera wiele funkcji autonaprawy pamięci i ciągłe udoskonalenia. Zawsze zachęcamy klientów do aktualizacji systemu BIOS (i oprogramowania wewnętrznego kontrolera iDRAC) do najnowszej dostępnej wersji, aby mogli korzystać z najnowszych udoskonaleń mechanizmu autonaprawy.
Poprzednie czynności rozwiązywania problemów z pamięcią obejmowały przeniesienie modułów DIMM do innego gniazda w celu sprawdzenia, czy błędy przenoszą się z modułem DIMM, czy pozostają z gniazdem DIMM. W przypadku systemu BIOS w wersji 2.1.x lub nowszej zalecanym pierwszym krokiem jest ponowne uruchomienie (bez przenoszenia modułów DIMM do innego gniazda). To umożliwia uruchomienie nowych udoskonaleń systemu BIOS i być może pozwoli rozwiązać (poprzez mechanizm autonaprawy) błędy modułów DIMM bez planowania ich wymiany.

1. Udoskonalenia dotyczące ponownego szkolenia pamięci

Przekwalifikowanie pamięci, które następuje podczas rozruchu (na wczesnym etapie konfiguracji pamięci), optymalizuje synchronizację i marginesy sygnału dla każdego modułu DIMM/gniazda w celu uzyskania najlepszego dostępu. Charakterystyki synchronizacji i marginesów sygnału pamięci DIMM mogą się zmieniać z kilku różnych powodów:

Zmiany w konfiguracji pamięci serwera
Zmiany w systemie BIOS (kod referencyjny Memory Reference Code — MRC)
Inne temperatury pracy serwera lub DIMM
Ogólny wiek DIMM

Wcześniej wykrywane aktualizacje systemu BIOS lub zmiany konfiguracji pamięci powodowały ponowne szkolenie pamięci podczas kolejnego rozruchu. Począwszy od systemu BIOS w wersji 2.1.x, dodatkowe „wyzwalacze” błędów pamięci z lub bez możliwości korekty zostały dodane do planowanego ponownego szkolenia:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

Zarejestrowanie dowolnego z tych błędów w dziennikach SEL/LifeCycle spowoduje zaplanowanie ponownego szkolenia pamięci na następny rozruch (ciepły lub zimny). System BIOS automatycznie wymusza zimny rozruch, niezależnie od tego, co zostało zainicjowane.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

Ten błąd wielobitowy może spowodować ponowne uruchomienie serwera z powodu błędu krytycznego, jeśli system operacyjny nie jest w stanie obsłużyć tego błędu. Ponowne szkolenie pamięci nastąpi automatycznie podczas tego rozruchu. Jeśli błąd wielobitowy wystąpi w niekrytycznej lokalizacji pamięci, którą ten system operacyjny jest w stanie obsłużyć, należy zaplanować ponowne uruchomienie.

Przeszkolenie pamięci podczas testu POST może spowodować "samodzielną naprawę" wadliwego modułu DIMM i powiązanego gniazda poprzez optymalizację synchronizacji i marginesów sygnału. Wymiana modułu DIMM w przypadku tych błędów nie jest konieczna, chyba że ponowne szkolenie pamięci nie powiedzie się (UEFI0106) podczas rozruchu lub te same błędy będą nadal występować.

2. Naprawa po spakowaniu (PPR)

Drugim "samonaprawiającym się" ulepszeniem pamięci jest PPR. PPR naprawia wadliwą lokalizację pamięci, wyłączając lokalizację lub adres w warstwie sprzętowej, umożliwiając użycie zapasowego wiersza pamięci. Dokładna liczba dostępnych zapasowych rzędów pamięci zależy od urządzenia DRAM i rozmiaru modułu DIMM.

Wcześniej ta funkcja była ograniczona do procesu produkcji. Podobnie jak w przypadku udoskonaleń dotyczących ponownego szkolenia pamięci, o których wspomniano wcześniej, istnieją błędy pamięci z możliwością korekty, które powodują zaplanowanie PPR dla konkretnego gniazda DIMM przy następnym ponownym uruchomieniu (ciepłym lub zimnym). System BIOS automatycznie wymusza zimny rozruch, niezależnie od tego, co zostało zainicjowane. Ponieważ operacja PPR jest planowana dla konkretnego gniazda DIMM, NIE należy zmieniać lokalizacji gniazd DIMM do momentu wykonania operacji PPR. Przykłady błędów są następujące:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

Każde z tych zdarzeń w dziennikach spowoduje zaplanowanie PPR na następny restart (ciepły lub zimny) na początku fazy konfiguracji pamięci.

Uwaga: Identyfikator komunikatu MEM8000 (rejestrowanie błędów pamięci z możliwością korekty wyłączone dla urządzenia pamięci w lokalizacji DIMM_XX.) bez odpowiedniego MEM0005/MEM0701/MEM0702 w tej samej lokalizacji DIMM nie powoduje zaplanowania PPR przy następnym ponownym uruchomieniu.

Zapoznaj się z aktualizacją z 10 lipca 2020 r., aby zapoznać się ze zmianami dotyczącymi wydarzenia MEM8000 oraz zaktualizowaną wersją 1.1 i nowszym opracowaniem.

Po ponownym uruchomieniu sprawdź, czy operacja PPR została wykonana pomyślnie. Przykład pomyślnej operacji PPR:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

Wymiana modułów DIMM w przypadku tych możliwych do skorygowania błędów pamięci nie jest konieczna, chyba że wykonywana jest operacja PPR. Przykład krytycznego komunikatu PPR, który zakończył się niepowodzeniem:

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

Niedawno opublikowane opracowanie (wersja 1.0) opisujące funkcje niezawodności, dostępności i łatwości serwisowania (RAS) związane z pamięcią serwerów Dell PowerEdge jest już dostępne, w którym opisano różne funkcje i możliwości RAS dostępne w serwerach PowerEdge — błędy pamięci i funkcje RAS pamięci serwera Dell EMC PowerEdge YX4X.

Aby uzyskać więcej informacji na temat zdarzeń progu błędów z możliwością korekty, należy zapoznać się z tematem Serwery PowerEdge Intel/AMD 14G i 15G: Pamięć DDR4: zarządzanie zdarzeniami progu błędów z możliwością korekty.

Aktualizacja: 24 kwietnia 2020

Firma Dell nadal zwiększa nasze możliwości "autonaprawy". Poniższa sekcja zawiera listę aktualizacji i udoskonaleń powiązanych z różnymi wersjami systemu BIOS.

BIOS 2.1.x — początkowa publikacja artykułu o możliwościach „mechanizmu autonaprawy” dostępnych począwszy od systemu BIOS w wersji 2.1.6 lub nowszej, w tym przykładowych komunikatów o błędach i zalecanych czynnościach.

Zmiany w systemie BIOS 2.4.x i nowszych (grudzień 2019 r.)

MEM0702 (liczba błędów z możliwością korekty…) — komunikat zaktualizowany z krytycznego do ostrzeżenia. Z zalecanymi działaniami zaktualizowanymi w celu ponownego uruchomienia serwera i umożliwienia „autonaprawy” — np. naprawy PPR.
- Wymaga instalacji kontrolera iDRAC z grudnia 2019 r. lub nowszego w celu uzyskania zaktualizowanego komunikatu
- Zalecane działanie: Uruchom ponownie serwer, aby umożliwić uruchamianie PPR
MEM9060 — zaktualizowano opis komunikatu informujący o pomyślnym zakończeniu „autonaprawy”

Zmiany w systemie BIOS 2.5.x i nowszych (luty 2020 r.)

Dodano opcję „Correctable Error Logging”w systemie BIOS, aby umożliwić klientom wyłączenie wszystkich dzienników cyklu życia/SEL związanych z błędami odwracalnymi. Wszystkie funkcje "mechanizmu autonaprawy" nadal działają — np. PPR i ponowne szkolenie pamięci są nadal zaplanowane i uruchamiane podczas następnego ponownego uruchomienia (na początku procesu konfiguracji pamięci).
Dodanie błędów MEM08xx dla modułów RDIMM i LRDIMM zastępuje istniejące komunikaty o błędach i działania. Istniejące komunikaty o błędach są nadal używane w przypadku platform, które nie obsługują funkcji „autonaprawy”.
- Do rejestrowania nowych komunikatów wymagany jest kontroler iDRAC z lutego 2020 r. lub nowszy.

Uwaga: Bez zaktualizowanego kontrolera iDRAC nowe komunikaty systemu BIOS są oznaczone jako "nieznane" w dziennikach SEL lub cyklu eksploatacji.

MEM0802 — wymieniono MEM0702 — przekroczona liczba usuwalnych błędów
- Zalecane działanie: Uruchom ponownie serwer, aby umożliwić uruchamianie PPR. Potwierdź, że naprawa PPR się powiodła (MEM0802)
MEM0804 — wymieniono MEM9060, co oznacza, że naprawa PPR się powiodła. Zawiera teraz lokalizacje gniazda DIMM, które uruchomiło PPR
- Zalecane działanie: Brak. Zdarzenie to wskazuje na "autonaprawę" — nie jest wymagana wymiana modułu DIMM.
MEM0805 — wymiana UEFI0278 wskazująca awarię PPR
- Zalecane działanie: Wymiana wadliwego modułu DIMM

Aktualizacja: 10 lipca 2020

BIOS 2.7.x i nowsze zmiany (BIOS z lipca 2020 r. — docelowo w połowie lipca do publikacji w Internecie)

MEM8000 (rejestrowanie błędów z możliwością naprawienia wyłączone) — Począwszy od systemu BIOS ~2.0.x, inżynierowie firmy Dell wprowadzili w systemie BIOS zmianę w celu zwiększenia szybkości wykrywania usuwalnych błędów, które mogą mieć wpływ na wydajność. Zmiana ta spowodowała wzrost liczby zdarzeń MEM8000, które nie były uzasadnione wynikami analizy awarii modułów DIMM. Począwszy od wersji 2.7.x systemu BIOS, są dwie zmiany związane z MEM8000. Pierwszym z nich jest to, że sygnalizacja zdarzenia MEM8000 została zmodyfikowana. Druga to planowanie przez system BIOS autonaprawy (PPR) na następny rozruch. Komunikaty kontrolera iDRAC nie są jeszcze aktualizowane w celu odzwierciedlenia nowych działań.
- Zalecane działanie: Uruchom ponownie serwer, aby umożliwić uruchomienie mechanizmu autonaprawy/PPR. Potwierdź, że naprawa PPR się powiodła (MEM0804).
MEM0001 (błąd niemożliwy do skorygowania) — powoduje zaplanowanie autonaprawy (PPR) na następny rozruch. Komunikaty kontrolera iDRAC nie są jeszcze aktualizowane w celu odzwierciedlenia nowych działań.
- Zalecane działanie: Nie jest to konieczne, jeśli MEM0001 jest powiązany z krytyczną stroną, której system operacyjny nie jest w stanie przywrócić — nadal jest błędem krytycznym, skutkującym ponownym uruchomieniem. Jeśli MEM0001 jest powiązany ze stroną niekrytyczną, z której system operacyjny może zostać przywrócony, należy zaplanować ponowne uruchomienie, aby odbyły się wszystkie operacje autonaprawy (PPR). Potwierdź, że naprawa PPR się powiodła (MEM0804).

AKTUALIZACJA 13 stycznia 2021 r.

System BIOS 2.8.2 i nowsze zmiany (BIOS z września 2020 r.)

MEM9072 (niemożliwy do skorygowania błąd zidentyfikowany w procesie usuwania patrolowania pamięci — strona nie jest wykorzystywana ani używana) — powoduje zaplanowanie autonaprawy (PPR) na następny rozruch. Komunikaty kontrolera iDRAC nie zostały jeszcze zaktualizowane w celu odzwierciedlenia nowych działań.
- Zalecane działanie: Zaplanuj wkrótce ponowne uruchomienie. Opóźnienie ponownego uruchomienia może spowodować korzystanie ze strony, skutkujące błędem MEM0001, który może doprowadzić do ponownego uruchomienia komputera. Podczas tego ponownego uruchamiania jest uruchamiany mechanizm autonaprawy pamięci (PPR). Potwierdź, że naprawa PPR się powiodła (MEM0804).

Uwaga: najnowsza wersja opracowania inżynieryjnego (wersja 1.3 — data wydania 20 listopada 2020 r.) znajduje się pod adresem: https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
W przypadku produktów Intel Xeon E i AMD EPYC należy odnieść się do oryginalnego opracowania inżynieryjnego (wersja 1.0), które znajduje się pod adresem: Opracowanie dotyczące RAS pamięci serwera PowerEdge YX4X w wersji 1.0 (dell.com)

W przyszłych aktualizacjach systemu BIOS będą oceniane dodatkowe ulepszenia funkcji RAS.

Uwaga: Szczegółowy opis i zalecane działania dotyczące określonych komunikatów z kodem błędu znajdują się pod następującym łączem: Wyszukaj (dell.com). Ponieważ kody błędów (takie jak MEM0001) dotyczą wielu generacji serwerów i platform, zalecane działania mogą nie być aktualne dla konkretnej wersji systemu BIOS. Nowe kody błędów, które zostały dodane (takie jak MEM0802, MEM0804, MEM0805 itd.) dotyczą tylko serwerów ze skalowalnymi procesorami Intel Xeon (pierwszej lub drugiej generacji).

Ten artykuł będzie aktualizowany w miarę pojawiania się nowych informacji.

Zobacz też: Wskazówki dotyczące rozwiązywania problemów z pamięcią poprzez testy różnych modułów pamięci — Rozwiązywanie problemów z błędami pamięci w systemach PowerEdge poprzez testy

różnychmodułów pamięci Pliki do pobrania i sterowniki: Sterowniki i pliki do pobrania | Dell US

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R240, OEMR R340, OEMR R740xd2, OEMR T140, OEMR T340, OEMR XL R240, OEMR XL R340, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R240 , PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R940, PowerEdge T140, PowerEdge T340, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...

Products

VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F

Article Number: 000053203

Article Type: Solution

Last Modified: 13 Nov 2024

Version: 16

Check if your device is covered by Support Services.

Co to jest mechanizm autonaprawy pamięci DDR4 w serwerach Dell PowerEdge z procesorami Intel Xeon Scalable

Summary: Usuwalne i niemożliwe do skorygowania błędy pamięci na serwerze PowerEdge z pamięcią DDR4 oraz zmiany w procedurach rozwiązywania problemów

Symptoms

Cause

Resolution

1. Udoskonalenia dotyczące ponownego szkolenia pamięci

2. Naprawa po spakowaniu (PPR)

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Co to jest mechanizm autonaprawy pamięci DDR4 w serwerach Dell PowerEdge z procesorami Intel Xeon Scalable

Summary: Usuwalne i niemożliwe do skorygowania błędy pamięci na serwerze PowerEdge z pamięcią DDR4 oraz zmiany w procedurach rozwiązywania problemów

Detailed Article

Symptoms

Cause

Resolution

Affected Products

Symptoms

Cause

Resolution

1. Udoskonalenia dotyczące ponownego szkolenia pamięci

2. Naprawa po spakowaniu (PPR)

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services