Article Number: 000053203
W systemie BIOS Dell PowerEdge trwają udoskonalenia i ulepszenia, które mają na celu usprawnienie komunikatów o zdarzeniach pamięci, obsługi błędów i "autonaprawy" występujących po ponownym uruchomieniu serwera. Zapobiega to konieczności zaplanowanej przerwy konserwacyjnej lub obecności na miejscu w celu wymiany modułu DIMM pamięci DDR4, który rejestrował zdarzenia błędów.
Istnieją dwa główne udoskonalenia systemu BIOS dotyczące „mechanizmu autonaprawy” pamięci, które zostały wdrożone dla serwerów PowerEdge z pamięcią DDR4 i systemem BIOS w wersji 2.1.x lub nowszej. Udoskonalenia te zmieniają zalecane kroki lub działania, które należy podjąć w przypadku wystąpienia zdarzeń związanych z pamięcią, które są rejestrowane w dzienniku cyklu eksploatacji.
Przekwalifikowanie pamięci, które następuje podczas rozruchu (na wczesnym etapie konfiguracji pamięci), optymalizuje synchronizację i marginesy sygnału dla każdego modułu DIMM/gniazda w celu uzyskania najlepszego dostępu. Charakterystyki synchronizacji i marginesów sygnału pamięci DIMM mogą się zmieniać z kilku różnych powodów:
Wcześniej wykrywane aktualizacje systemu BIOS lub zmiany konfiguracji pamięci powodowały ponowne szkolenie pamięci podczas kolejnego rozruchu. Począwszy od systemu BIOS w wersji 2.1.x, dodatkowe „wyzwalacze” błędów pamięci z lub bez możliwości korekty zostały dodane do planowanego ponownego szkolenia:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Zarejestrowanie dowolnego z tych błędów w dziennikach SEL/LifeCycle spowoduje zaplanowanie ponownego szkolenia pamięci na następny rozruch (ciepły lub zimny). System BIOS automatycznie wymusza zimny rozruch, niezależnie od tego, co zostało zainicjowane.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Ten błąd wielobitowy może spowodować ponowne uruchomienie serwera z powodu błędu krytycznego, jeśli system operacyjny nie jest w stanie obsłużyć tego błędu. Ponowne szkolenie pamięci nastąpi automatycznie podczas tego rozruchu. Jeśli błąd wielobitowy wystąpi w niekrytycznej lokalizacji pamięci, którą ten system operacyjny jest w stanie obsłużyć, należy zaplanować ponowne uruchomienie.
Przeszkolenie pamięci podczas testu POST może spowodować "samodzielną naprawę" wadliwego modułu DIMM i powiązanego gniazda poprzez optymalizację synchronizacji i marginesów sygnału. Wymiana modułu DIMM w przypadku tych błędów nie jest konieczna, chyba że ponowne szkolenie pamięci nie powiedzie się (UEFI0106) podczas rozruchu lub te same błędy będą nadal występować.
Drugim "samonaprawiającym się" ulepszeniem pamięci jest PPR. PPR naprawia wadliwą lokalizację pamięci, wyłączając lokalizację lub adres w warstwie sprzętowej, umożliwiając użycie zapasowego wiersza pamięci. Dokładna liczba dostępnych zapasowych rzędów pamięci zależy od urządzenia DRAM i rozmiaru modułu DIMM.
Wcześniej ta funkcja była ograniczona do procesu produkcji. Podobnie jak w przypadku udoskonaleń dotyczących ponownego szkolenia pamięci, o których wspomniano wcześniej, istnieją błędy pamięci z możliwością korekty, które powodują zaplanowanie PPR dla konkretnego gniazda DIMM przy następnym ponownym uruchomieniu (ciepłym lub zimnym). System BIOS automatycznie wymusza zimny rozruch, niezależnie od tego, co zostało zainicjowane. Ponieważ operacja PPR jest planowana dla konkretnego gniazda DIMM, NIE należy zmieniać lokalizacji gniazd DIMM do momentu wykonania operacji PPR. Przykłady błędów są następujące:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Każde z tych zdarzeń w dziennikach spowoduje zaplanowanie PPR na następny restart (ciepły lub zimny) na początku fazy konfiguracji pamięci.
Po ponownym uruchomieniu sprawdź, czy operacja PPR została wykonana pomyślnie. Przykład pomyślnej operacji PPR:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Niedawno opublikowane opracowanie (wersja 1.0) opisujące funkcje niezawodności, dostępności i łatwości serwisowania (RAS) związane z pamięcią serwerów Dell PowerEdge jest już dostępne, w którym opisano różne funkcje i możliwości RAS dostępne w serwerach PowerEdge — błędy pamięci i funkcje RAS pamięci serwera Dell EMC PowerEdge YX4X.
Aby uzyskać więcej informacji na temat zdarzeń progu błędów z możliwością korekty, należy zapoznać się z tematem Serwery PowerEdge Intel/AMD 14G i 15G: Pamięć DDR4: zarządzanie zdarzeniami progu błędów z możliwością korekty.Aktualizacja: 24 kwietnia 2020
Firma Dell nadal zwiększa nasze możliwości "autonaprawy". Poniższa sekcja zawiera listę aktualizacji i udoskonaleń powiązanych z różnymi wersjami systemu BIOS.
BIOS 2.1.x — początkowa publikacja artykułu o możliwościach „mechanizmu autonaprawy” dostępnych począwszy od systemu BIOS w wersji 2.1.6 lub nowszej, w tym przykładowych komunikatów o błędach i zalecanych czynnościach.
Zmiany w systemie BIOS 2.4.x i nowszych (grudzień 2019 r.)
Zmiany w systemie BIOS 2.5.x i nowszych (luty 2020 r.)
Aktualizacja: 10 lipca 2020
BIOS 2.7.x i nowsze zmiany (BIOS z lipca 2020 r. — docelowo w połowie lipca do publikacji w Internecie)
AKTUALIZACJA 13 stycznia 2021 r.
System BIOS 2.8.2 i nowsze zmiany (BIOS z września 2020 r.)
W przyszłych aktualizacjach systemu BIOS będą oceniane dodatkowe ulepszenia funkcji RAS.
Ten artykuł będzie aktualizowany w miarę pojawiania się nowych informacji.
Zobacz też: Wskazówki dotyczące rozwiązywania problemów z pamięcią poprzez testy różnych modułów pamięci — Rozwiązywanie problemów z błędami pamięci w systemach PowerEdge poprzez testy
różnychmodułów pamięci Pliki do pobrania i sterowniki: Sterowniki i pliki do pobrania | Dell US
VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
19 Apr 2024
15
Solution