症状
13G- tai 14G-solmu kirjaa MEM-virheitä iDRAC-tapahtumalokiin.
Miten ongelman voi korjata ilman laitteiston vaihtoa tai ajoitettua CE-käyntiä?
Mikä on DDR4-muistin itsekorjaus?
Miten nämä DDR4-muistin itsekorjaustoiminnot (BIOS-parannukset) muuttavat suositeltuja asiakastuen ja teknisen tuen toimintoja, kun palvelimessa ilmenee muistivirheitä?
PowerEdge-palvelimissa, joissa on käytössä DDR4 ja vähintään BIOS-versio 2.1.x, on kaksi tärkeää muistiin liittyvää itsekorjautuvaa BIOSin parannusta. Nämä parannukset muuttavat muistivirheiden yhteydessä tehtäviä suositustoimenpiteitä. Ne myös kirjataan vCenter-, VxFM-, Dial Home- tai LifeCycle-lokiin.
Huomautus: Jos saat ilmoituksia DDR4-muistivirheistä ja käytössä on BIOS-versiota 2.1.x vanhempi versio, päivitä BIOS uusimpaan, muistin itsekorjausparannukset sisältävään versioon. Jatka sen jälkeen PPR-toimintoa käynnistämällä solmu uudelleen. Lisätietoja on Ratkaisu-kohdassa
Huomautus: Huomautus: Vikaantuneet DIMM-moduulit siirretään nykyisessä muistin vianmäärityksessä toiseen paikkaan. Siten voidaan selvittää, seuraavatko virheet DIMM-moduulia vai jäävätkö ne DIMM-paikkaan.
Jos 13G-solmussa on BIOS 2.8.x tai uudempi, ensimmäiseksi suositellaan uudelleenkäynnistystä (ilman DIMM-moduulien siirtämistä toiseen paikkaan). Uudet BIOSin parannukset suoritetaan, mikä mahdollistaa DIMM-virheiden korjaamisen (itsekorjautumisen) ilman DIMM-vaihtoja.
Jos 14G-solmussa on BIOS-versio 2.4.8 tai uudempi, ensimmäiseksi suositellaan uudelleenkäynnistystä (ilman DIMM-moduulien siirtämistä toiseen paikkaan). Uudet BIOSin parannukset suoritetaan, mikä mahdollistaa DIMM-virheiden korjaamisen (itsekorjautumisen) ilman DIMM-vaihtoja.
原因
ECC-muistivirheet johtuvat useimmiten satunnaisesta alfahiukkaspommituksesta. Alfahiukkaset ovat osa normaalia arkista säteilyä. Joskus alfahiukkanen irrottaa yksittäisen elektronin muistimoduulista, jolloin tiedot vioittuvat. Nykyiset muistimoduulit on suunniteltu tunnistamaan ja korjaamaan nämä tapahtumat. Kussakin moduulissa on sisäinen laskuri muistivirheen korjauskertojen määrästä. BIOSissa on asetettu kynnys, jonka saavuttamisen jälkeen palvelimelle ilmoitetaan, että kyseinen muistitapahtumien määrän kynnys on ylittynyt.
解决方案
Päivitä BIOS (2.8.x tai uudempi 13G:lle) ja (2.1.x tai uudempi 14G:lle), jotta voidaan ottaa käyttöön muistin uudelleenkoulutusparannukset palvelimille, joihin on asennettu DDR4 RAM -muistia. Muistin uudelleenkoulutus tapahtuu käynnistyksen aikana ja optimoi kunkin DIMM-moduulin/paikan signaaliajoituksen/marginaalit. DIMM-moduulin ajoitusominaisuuksien muuttumiseen voi olla useita syitä:
Esimerkkejä:
1. Palvelimen muistikokoonpanon muutokset
2. BIOSin muutokset
3. Palvelimen tai DIMM-moduulin erilaiset käyttölämpötilat
4. DIMM-moduulin ikä
Aiemmin BIOSin päivityksen tai muistikokoonpanon muutosten havaitseminen olisi aiheuttanut muistin uudelleenkoulutuksen seuraavan käynnistyksen aikana. Alkaen BIOS 2.1.x -versiosta (14G) ja 2.8.x-versiosta (13G) ajoitettuun uudelleenkoulutukseen lisättiin korjattavien ja korjauskelvottomien muistivirheiden käynnistimet:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
Jos jokin näistä virheistä kirjataan SEL/LifeCycle-lokeihin, muistin uudelleenkoulutus ajoitetaan seuraavan käynnistyksen (lämmin tai kylmä) yhteyteen.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX."
MEM0001 aiheuttaa palvelimen uudelleenkäynnistyksen vakavan virheen vuoksi. Muistin uudelleenkoulutus tapahtuu automaattisesti kyseisen käynnistyksen aikana.
Näihin kumpaankin korjattavaan tai korjauskelvottomaan (monibittisyyden) muistivirheeseen liittyvä muistin uudelleenkoulutus uudelleenkäynnistyksen yhteydessä voi aiheuttaa vikaantuneen DIMM-moduulin itsekorjauksen, mikä tapahtuu kunkin DIMM-moduulin/paikan signaalin ajoituksen/marginaalien optimoinnilla. DIMM-moduulin vaihtoa ei tarvitse tehdä näiden virheiden yhteydessä, ellei muistin uudelleenkoulutus epäonnistu (UEFI0106) käynnistyksen aikana tai elleivät samat virheet toistu.
2. Pakkauksen jälkeinen korjaus (PPR) - Toinen muistin itsekorjaukseen liittyvä parannus korjaa DIMM-moduulin vikaantuneen muistipaikan poistamalla paikan/osoitteen käytöstä laitetasolla, jolloin sen sijaan voidaan ottaa käyttöön varamuistirivi. Käytettävissä olevien varamuistirivien tarkka määrä määräytyy DRAM-laitteen ja DIMM-koon mukaan.
Tämä oli aiemmin käytettävissä vain valmistusprosessin aikana. Aiemmin mainittujen muistin uudelleenkoulutusparannusten tavoin tietyt korjattavat muistivirheet aiheuttavat PPR-korjauksen ajoittamisen tiettyyn DIMM-paikkaan seuraavan uudelleenkäynnistyksen (lämmin tai kylmä) yhteydessä. BIOS pakottaa automaattisesti kylmäkäynnistyksen valitusta käynnistyksestä riippumatta. Koska PPR-toiminto on ajoitettu tiettyyn DIMM-paikkaan, ÄLÄ muuta DIMM-paikkoja, ennen kuin PPR-toiminto on suoritettu. Esimerkkejä virheistä:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX."
Jos jokin näistä virheistä kirjataan VC events- / Dial home- / SEL- / LifeCycle-lokiin, pakkauksen jälkeinen korjaus (PPR) ajoitetaan seuraavan käynnistyksen (lämmin tai kylmä) yhteyteen.
Tarkista uudelleenkäynnistyksen jälkeen, että PPR-toiminto suoritettiin. Esimerkki onnistuneesta PPR-toiminnosta:
Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
DIMM-moduulia ei tarvitse vaihtaa näiden korjattavien muistivirheiden yhteydessä, ellei PPR-toiminto epäonnistu uudelleenkäynnistyksen jälkeen. Esimerkki epäonnistuneen PPR-toiminnon ilmoituksesta:
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Huomautus: Jos näet ilmoitustunnuksen MEM8000 (Correctable memory error logging disabled for a memory device at location DIMM_XX), joka näkyy erikseen (eli ei samankaltaisena aikana) vastaavista MEM0005/MEM0701/MEM0702-ilmotuksista, PPR:ää ei ajoiteta seuraavaan uudelleenkäynnistykseen.
Ilmoitustunnus MEM8000 erikseen tai vastaavan MCE (machine check exception) -ilmoituksen kanssa on oire DIMM-moduulin yleisestä virheestä. Kyse ei ole tilanteesta, jossa korjattavissa tai ei korjattavissa olevat säilöt ylivuotavat aluksi. Tällaista muistitapahtumaa on käsiteltävä DIMM-vikana, ja asiakkaan on vaihdettava ilmoituksessa näkyvä DIMM-moduuli mahdollisimman pian.
受影响的产品
VxFlex Product Family
产品
VxFlex Product Family