跳转至主要内容
  • 快速、轻松地下订单
  • 查看订单并跟踪您的发货状态
  • 创建并访问您的产品列表

VxFlex-IR: Usuwalne błędy pamięci PowerEdge DIMM ECC

摘要: Serwer Dell 13G/14G publikuje błędy MEMXXXX w dzienniku zdarzeń iDRAC. To zdarzenie mogło spowodować zawieszenie węzła lub skutkować wyjątkiem sprawdzania komputera. Co należy zrobić?

本文适用于   本文不适用于 

症状



W dzienniku zdarzeń iDRAC znajduje się węzeł 13G lub 14G zgłaszający błędy pamięci.

W jaki sposób można rozwiązać problem bez wymiany sprzętu lub wizyty CE.

Co to jest „mechanizm autonaprawy” DDR4? 
W jaki sposób funkcje „mechanizmu autonaprawy” DDR4 (udoskonalenia systemu BIOS) zmieniają zalecane działania klientów i pomocy technicznej w przypadku wystąpienia błędów pamięci na serwerze?

Dostępne są dwa podstawowe udoskonalenia systemu BIOS dotyczące „mechanizmu autonaprawy” pamięci, które zostały zaimplementowane w serwerach PowerEdge z pamięcią DDR4 i systemem BIOS w wersji 2.1.x i nowszej. Te udoskonalenia powodują zmianę zalecanych czynności i działań w przypadku wystąpienia błędów pamięci oraz zarejestrowania ich w dzienniku vCenter, VxFM, dial home lub LifeCycle.

Uwaga: W przypadku wystąpienia problemów z pamięcią DDR4 oraz systemu BIOS w wersji starszej niż 2.1.x, zaktualizuj system BIOS do najnowszej wersji, aby uwzględnić udoskonalenia mechanizmu autonaprawy.  Następnie uruchom ponownie węzeł, aby kontynuować procedurę PPR Aby uzyskać więcej informacji, patrz część Rozwiązanie

Uwaga: Bieżąca procedura rozwiązywania problemów z pamięcią obejmuje przenoszenie uszkodzonych modułów DIMM do innego gniazda, aby sprawdzić, czy błędy są powiązane z modułami DIMM czy też pozostają przy gnieździe DIMM.

Jeśli węzeł 13G pracuje z systemem BIOS 2.8.x lub nowszym, pierwszym zalecanym krokiem jest ponowne uruchomienie / restart urządzenia (bez przenoszenia modułów DIMM do innego gniazda). Umożliwienie uruchomienia nowych udoskonaleń systemu BIOS być może pozwoli rozwiązać (poprzez mechanizm autonaprawy) błędów modułów DIMM bez konieczności ich wymiany.

Jeśli węzeł 14G pracuje z systemem BIOS w wersji 2.4.8 lub nowszej, pierwszym zalecanym krokiem jest ponowne uruchomienie / restart (bez przenoszenia modułów DIMM do innego gniazda). Umożliwienie uruchomienia nowych udoskonaleń systemu BIOS być może pozwoli rozwiązać (poprzez mechanizm autonaprawy) błędów modułów DIMM bez konieczności ich wymiany.

原因

W większości przypadków błędy pamięci ECC są spowodowane przez losowe bombardowanie cząstkami alfa.  Cząsteczki alfa stanowią część normalnego, występującego na co dzień promieniowania.  Czasami cząstka alfa wytrąca pojedynczy elektron z modułu pamięci, uszkadzając dane.  Nowoczesne moduły pamięci są zaprojektowane tak, aby rozpoznawać to zdarzenie i je naprawiać.  Każdy moduł zawiera wewnętrzny licznik wskazujący, ile razy został naprawiony błąd pamięci.  W systemie BIOS jest ustawiony próg, po którego osiągnięciu serwer otrzymuje ostrzeżenie o przekroczeniu tego progu przez liczbę zdarzeń pamięci.

解决方案

Uaktualnij system BIOS do wersji (2.8.x lub nowszej dla 13G) oraz (2.1.x lub nowszej dla 14G), aby włączyć ulepszenia ponownego szkolenia pamięci w przypadku serwerów z zainstalowaną pamięcią RAM DDR4 – Ponowne szkolenie pamięci, które odbywa się podczas rozruchu, optymalizuje synchronizację/marginesy sygnału dla każdego modułu DIMM / gniazda, aby uzyskać najlepszy dostęp. Charakterystyka czasowa DIMM może ulec zmianie z kilku różnych przyczyn:

Przykłady obejmują między innymi:
1. Zmiany w konfiguracji pamięci serwera
2. Zmiany w systemie BIOS
3. Inne temperatury pracy serwera lub DIMM
4. Ogólny wiek modułu DIMM

Wcześniej wykrywanie aktualizacji systemu BIOS lub zmian w konfiguracji pamięci powodowało ponowne szkolenie pamięci podczas kolejnego rozruchu. Począwszy od systemu BIOS 2.1.x (14G) i 2.8.x (13G), dodano dodatkowe „wyzwalacze” usuwalnych i nieusuwalnych błędów pamięci w celu zaplanowanego ponownego szkolenia:

Ostrzeżenie – MEM0701 – „Przekroczono liczbę usuwalnych błędów pamięci dla DIMM_XX”.
Krytyczny – MEM0702 – „Przekroczono współczynnik usuwalnych błędów pamięci dla DIMM_XX”.
Krytyczny – MEM0005 – „Osiągnięto limit trwałych usuwalnych błędów pamięci dla urządzenia pamięci w lokalizacji (lokalizacjach) XX”.

Każdy z powyższych błędów zarejestrowanych w dziennikach zdarzeń VC / dial home / SEL / LifeCycle spowoduje zaplanowanie ponownego szkolenia pamięci na następne uruchomienie (ciepłe lub zimne), system BIOS automatycznie wymusi zimny restart, niezależnie od tego, co zostało zainicjowane.

Krytyczny – MEM0001 – „Wykryto wielobitowe błędy pamięci na urządzeniu pamięci w lokalizacji (lokalizacjach) DIMM_XX”.

MEM0001 powoduje ponowne uruchomienie serwera z powodu błędu krytycznego. Ponowne szkolenie pamięci nastąpi automatycznie podczas tego rozruchu.

W przypadku jednego z tych (wielobitowych) usuwalnych lub nieusuwalnych błędów pamięci wynikające z tego ponowne szkolenie pamięci przy ponownym uruchomieniu / restarcie może spowodować „auto naprawę” wadliwego modułu DIMM przez optymalizację synchronizacji/marginesów sygnału dla każdego modułu DIMM / gniazda. Wymiana modułu DIMM w przypadku tych błędów nie jest konieczna, chyba że ponowne szkolenie pamięci nie powiedzie się (UEFI0106) podczas rozruchu lub te same błędy będą nadal występować.

2. Post Package Repair (PPR) – drugie udoskonalenie dotyczące „mechanizmu autonaprawy” pamięci powoduje naprawę wadliwej lokalizacji pamięci w module DIMM poprzez wyłączenie lokalizacji/adresu w warstwie sprzętowej, co umożliwia zastąpienie zapasowym rzędem pamięci. Dokładna liczba dostępnych zapasowych rzędów pamięci zależy od rozmiaru urządzenia DRAM i modułu DIMM.
Wcześniej ta funkcja była ograniczona do procesu produkcyjnego. Tak jak w przypadku udoskonaleń dotyczących ponownego szkolenia pamięci, o których wspomniano wcześniej, istnieją błędy pamięci z możliwością korekty, które powodują zaplanowanie PPR dla konkretnego gniazda DIMM przy następnym ponownym uruchomieniu (ciepłym lub zimnym). System BIOS automatycznie wymusi zimny rozruch, niezależnie od tego, co zostało zainicjowane. Ponieważ operacja PPR jest planowana dla konkretnego gniazda DIMM, NIE NALEŻY zmieniać lokalizacji gniazd DIMM do momentu wykonania operacji PPR. Przykładami błędów są:

Ostrzeżenie – MEM0701 – „Przekroczono liczbę usuwalnych błędów pamięci dla DIMM_XX”.
Krytyczny – MEM0702 – „Przekroczono współczynnik usuwalnych błędów pamięci dla DIMM_XX”.
Krytyczny – MEM0005 – „Osiągnięto limit trwałych usuwalnych błędów pamięci dla urządzenia pamięci w lokalizacji (lokalizacjach) XX”.

Każde z powyższych błędów rejestrowanych w dzienniku zdarzeń VC / Dial home / SEL / LifeCycle będzie skutkować zaplanowaniem naprawy PPR do kolejnego ponownego uruchomienia (ciepłego lub zimnego).

Po ponownym uruchomieniu systemu sprawdź, czy operacja PPR została wykonana pomyślnie. Przykład komunikatu o pomyślnej operacji PPR będzie podobny do następującego:

Identyfikator komunikatu MEM9060 – „Operacja naprawy PPR została pomyślnie zakończona na module DIMM, który wcześniej ulegał awarii”.
Wymiana pamięci DIMM w przypadku tych usuwalnych błędów pamięci nie jest konieczna, chyba że operacja PPR zakończy się niepowodzeniem po ponownym uruchomieniu. Przykład komunikatu o niepowodzeniu PPR:
Krytyczny – Identyfikator komunikatu UEFI0278 – „Nie można ukończyć operacji PPR z powodu problemu w gnieździe pamięci DIMM X”.

其他信息

Uwaga: W przypadku wystąpienia komunikatu o identyfikatorze MEM8000 (Zapisywanie w dzienniku usuwalnych błędów pamięci wyłączone dla urządzenia pamięci w lokalizacji DIMM_XX), który jest wyświetlane odrębnie (tzn. w innych ramach czasowych) od odpowiednich komunikatów MEM0005/MEM0701/MEM0702, nie spowoduje to zaplanowania PPR dla następnego rozruchu.

Identyfikator odrębnego komunikatu MEM8000 lub wyświetlanego z odpowiednim MCE (wyjątek sprawdzania komputera) stanowi wskazanie ogólnego błędu modułu DIMM oraz nie jest to sytuacja, w której usuwalne lub nieusuwalne zasobniki będą początkowo przepełnione. Ten typ zdarzenia pamięci może być traktowany jako błąd DIMM, a znajdujący się na liście moduł DIMM powinien zostać wymieniony przy pierwszej dogodnej dla klienta okazji.

受影响的产品

VxFlex Product Family

产品

VxFlex Product Family
文章属性
文章编号: 000058157
文章类型: Solution
上次修改时间: 15 4月 2021
版本:  4
从其他戴尔用户那里查找问题的答案
支持服务
检查您的设备是否在支持服务涵盖的范围内。