Serwery PowerEdge Intel/AMD czternastej generacji i piętnastej generacji: Pamięć DDR4: zarządzanie zdarzeniami progu błędów z możliwością korekty
Résumé:
Zaktualizowane zalecenia dla klientów w zakresie zarządzania możliwymi do skorygowania zdarzeniami progu błędów (MEM0802 lub MEM5104) w modułach DDR4 RDIMM lub LRDIMM zainstalowanych w
serwerach PowerEdge 14G i 15G z procesorami Intel oraz serwerach PowerEdge 15G z procesorami AMD.
Uwaga: Ten artykuł nie dotyczy serwerów PowerEdge 14G opartych na procesorach AMD, takich jak platformy 64x5 lub 74x5, ponieważ nie mają one tej funkcji naprawy / autonaprawy po pakiecie, mimo że sam moduł DIMM ją obsługuje.
...
Sélectionnez un produit pour vérifier la pertinence de l’article
Cet article concerne Cet article ne concerne pasCet article n’est associé à aucun produit spécifique.Toutes les versions du produit ne sont pas identifiées dans cet article.
Poprzez ewolucję funkcji RAS (niezawodność, dostępność i możliwość serwisowania) w pamięci klasy Enterprise firma Dell przyjęła konserwatywne podejście do raportowania błędów, aby zapewnić przejrzystość wobec klientów. Wraz z postępującą ewolucją zmienia się również podejście firmy Dell do raportowania błędów, które umożliwia skupienie się na powiadomieniach wymagających pilniejszej reakcji, w przeciwieństwie do powiadomień o charakterze głównie informacyjnym.
Ponieważ geometrie pamięci opartych na pamięci DRAM stale się kurczą, zapewniając klientom wymaganą większą wydajność, spodziewamy się rosnącej liczby błędów możliwych do naprawienia, jako naturalnego elementu jednolitego skalowania.
Cause
W globalnej branży serwerowej coraz częściej panuje przekonanie, podzielane przez firmę Dell, że niektórych możliwych do naprawienia błędów każdego modułu DIMM nie da się uniknąć i nie wymagają one wymiany modułu pamięci ani nawet natychmiastowego ponownego uruchomienia w celu zainicjowania mechanizmu autonaprawy.
Résolution
Dalsze działanie systemu i zgłaszanie błędów możliwych do naprawienia bez ponownego uruchomienia w celu samonaprawy nie zwiększa znacząco ryzyka wystąpienia nienaprawialnych błędów, które mogą prowadzić do nieplanowanych przestojów. W rzeczywistości inni w branży publicznie informowali, że ich obsługa pamięci nie zgłasza błędów możliwych do naprawienia.
W systemie BIOS Intel PowerEdge 14G w wersji 2.5.4 i nowszych dodano ustawienie systemu BIOS o nazwie "Rejestrowanie błędów z możliwością korekty", aby umożliwić klientom wyłączenie raportowania błędów z możliwością korekty, jeśli zechcą, a wielu z nich to zrobiło. System BIOS będzie nadal planować samoczynną naprawę w przypadku możliwych do skorygowania zdarzeń progowych, nawet bez rejestrowania. Ta zaplanowana autonaprawa nastąpi automatycznie podczas kolejnego ponownego uruchomienia systemu.
Aby lepiej dostosować się do potrzeb branży i opinii klientów, począwszy od marca 2022 r., aktualizacje systemu BIOS serwerów Dell PowerEdge zmienią ustawienie rejestrowania korygowalnych błędów systemu BIOS na domyślnie wyłączone. Ta opcja systemu BIOS może zostać ponownie włączona dla klientów, którzy chcą nadal widzieć zdarzenia progu pamięci z możliwością korekty. Wersje systemu BIOS z tą zmianą ustawień systemu BIOS to:
Platformy Intel 14G — system BIOS w wersji 2.13.3 lub nowszej
Platformy AMD piętnastej generacji — system BIOS w wersji 2.6.5 lub nowszej
Platformy Intel piętnastej generacji — system BIOS w wersji 1.5.5 lub nowszej.
Zalety samonaprawy modułów DIMM DDR4 poprzez ponowne uruchomienie systemu:
Umożliwia naprawę modułu DIMM DDR4 bez wymontowywania go z komputera. wszystkie moduły DIMM DDR4 firmy Dell obsługują mechanizm autonaprawy pamięci. Uwaga: serwery AMD PowerEdge 14G nie mają tej funkcji autonaprawy.
Wykorzystanie dostępnych wolnych wierszy zaprojektowanych w pamięci DRAM, w których uszkodzony wiersz jest trwale zastępowany znanym dobrym rzędem przez bezpiecznik elektryczny.
Kolejne przeszkolenie pamięci optymalizuje "oczy danych" poprzez ponowną kalibrację punktów środkowych w celu zapewnienia, że magistrala pamięci działa na najwyższym poziomie integralności sygnalizacji.
W przypadku zdarzeń progowych z możliwością korekty przy włączonym ustawieniu "Correctable Error Logging" systemu BIOS w przypadku wystąpienia zdarzeń progu pamięci firma Dell zaleca ponowne uruchomienie systemu zgodnie ze standardowym harmonogramem konserwacji klienta, aby umożliwić zaplanowaną autonaprawę lub autokorektę pamięci. Po ponownym uruchomieniu zostaną zarejestrowane zdarzenia automatycznej naprawy dotyczące powiązanych modułów DIMM.
Przy włączonym ustawieniu "Correctable Error Logging" systemu BIOS firma Dell zaleca ponowne uruchomienie systemu zgodnie ze standardowym harmonogramem konserwacji klienta. Po ponownym uruchomieniu wszystkie zaplanowane operacje automatycznej naprawy zostaną uruchomione automatycznie. System zarejestruje zdarzenie (zdarzenie typu MEM0805 lub MEM7114), jeśli operacja autonaprawy/autokorekty zakończy się niepowodzeniem. Ponadto zaleci fizyczną wymianę modułu DIMM, którego dotyczy problem.
Zalecenie: zespół Dell EMC Memory Engineering zaleca, aby użytkownicy serwerów PowerEdge ze starszymi wersjami systemu BIOS (sprzed marca 2022 r.) przyjęli zmianę ustawienia systemu BIOS "Rejestrowanie błędów z możliwością korekty" na wyłączone. Pozwoli to wyeliminować sporadyczne zdarzenia progu pamięci z możliwością korekty (takie jak zdarzenia typu MEM0802 lub MEM5104) w całej infrastrukturze serwerów, które zalecają ponowne uruchomienie serwera w celu umożliwienia autonaprawy lub autokorekty. Jak wspomniano wcześniej, wszystkie zaplanowane operacje autonaprawy lub autokorekty zostaną uruchomione automatycznie po ponownym uruchomieniu serwera, a wszelkie awarie zostaną zgłoszone.
Ustawienie "Correctable Error Logging" systemu BIOS można zmienić, uruchamiając serwer ponownie do ustawień F2 lub za pomocą graficznego interfejsu użytkownika kontrolera iDRAC.
Aby zmienić ustawienie systemu BIOS przy użyciu ustawień F2:
Uruchom ponownie serwery, zatrzymując się na ustawieniach F2
W menu BIOS Settings (Ustawienia systemu BIOS -> Ustawienia pamięci) zmień opcję "Correctable Error Logging" na wyłączoną.
Zapisz ustawienia systemu BIOS i wyjdź z menu F2
Aby zmienić ustawienia systemu BIOS za pomocą graficznego interfejsu użytkownika kontrolera iDRAC:
Zaloguj się do graficznego interfejsu użytkownika kontrolera iDRAC
W sekcji Configuration -> BIOS Settings rozwiń sekcję Memory Settings
Zmieniono ustawienie "Correctable Error Logging" na wyłączone
Kliknij przycisk Apply, aby zapisać ustawienia pamięci
Pamiętaj, aby wybrać przycisk Apply and Reboot (aby natychmiast uruchomić system) lub przycisk At Next Reboot, aby zastosować zmiany BIOS.
Istniejące artykuły bazy wiedzy i dokumenty dotyczące pamięci zostaną zaktualizowane w celu odzwierciedlenia tej zalecanej zmiany.
UWAGA: Zatwierdzone komunikaty dla klientów są załączone jako plik do tego artykułu — "Managing Correctable Error Notices Dec 2021 v1.pdf".
Ten artykuł będzie aktualizowany w miarę pojawiania się nowych informacji.