症状
iDRAC olay günlüğünde MEM hataları bildiren 13G veya 14G düğümünüz var.
Donanım değişimi veya planlı CE ziyareti gerekmeden sorunu çözmek için ne yapabilirsiniz?
DDR4 "kendi kendini onarma" özelliği nedir?
Bu DDR4 "kendi kendini onarma" özellikleri (BIOS iyileştirmeleri), bir sunucuda bellek hatalarıyla karşılaşıldığında önerilen müşteri ve Teknik Destek eylemlerini nasıl değiştirir?
BIOS 2.1.x ve daha yeni bir sürüm çalıştıran DDR4'e sahip PowerEdge Sunucuları için "kendi kendini onarma" özelliği ile ilgili iki temel BIOS iyileştirmesi uygulanmıştır. Bu iyileştirmeler, bellek hatalarının meydana gelmesi ve vCenter, VxFM, dial home veya LifeCycle günlüğüne kaydedilmesi durumunda önerilen adımları/eylemleri değiştirir.
Not: DDR4 ile bellek hataları alıyorsanız ve BIOS 2.1.x'ten daha eski bir sürümü çalıştırıyorsanız lütfen BIOS'unuzu bellek kendi kendini onarma iyileştirmelerini içerecek şekilde son revizyona güncelleştirin. Ardından PPR işlemiyle devam etmek için düğümünüzü yeniden başlatın. Daha fazla bilgi için Çözüm Bölümüne bakın
Not: Bellek sorunlarını giderme ile ilgili mevcut adımlar, hataların DIMM'den mi yoksa DIMM yuvasından mı kaynaklandığını doğrulamak için başarısız olan DIMM'lerin farklı bir yuvaya taşınmasını içerir.
13G düğümünde BIOS 2.8.x veya üzeri bir sürüm çalıştırılıyorsa önerilen ilk adım, DIMM'leri farklı bir yuvaya taşımadan bir yeniden başlatma işlemi gerçekleştirmektir. Yeni BIOS iyileştirmelerinin çalıştırılmasını sağlamak, DIMM değişikliklerine gerek olmadan DIMM hatalarının çözülmesini (kendi kendine onarılmasını) sağlayabilir.
14G düğümünde BIOS 2.4.8 veya üzeri bir sürüm çalıştırılıyorsa önerilen ilk adım, DIMM'leri farklı bir yuvaya taşımadan bir yeniden başlatma işlemi gerçekleştirmektir. Yeni BIOS iyileştirmelerinin çalışmasını sağlamak, DIMM değişikliklerine gerek olmadan DIMM hatalarının çözülmesini (kendini onarma) sağlayabilir.
原因
ECC bellek hataları çoğu durumda art arda maruz kalınan rastgele alfa parçacıklarından kaynaklanır. Alfa parçacıkları günlük olarak meydana gelen normal radyasyonun bir parçasıdır. Bazen bir alfa parçacığı, bellek modülündeki tek bir elektronu yerinden ayırarak verilerin bozulmasına neden olur. Modern bellek modülleri bu tür olayları algılayacak ve onaracak şekilde tasarlanmıştır. Her modülde, bir bellek hatasının kaç kere onarıldığını gösteren dahili bir sayaç mevcuttur. BIOS'ta ayarlanan bir eşik değeri, bu değere ulaşıldığında sunucuyu bellek olayı sayısının eşiği aştığı konusunda uyarır.
解决方案
DDR4 RAM takılı sunucularda bellek yeniden eğitimi iyileştirmelerini etkinleştirmek üzere BIOS yükseltmesi (13G'de 2.8.x veya üstü ve 14G'de 2.1.x veya üstü) yapın. Önyükleme sırasında gerçekleşen bellek yeniden eğitimi, en iyi erişim için her bir DIMM'nin/yuvanın sinyal zamanlamasını/yerleşimini optimize eder. DIMM'lerin zamanlama özellikleri birkaç farklı nedenle değişebilir:
Aşağıdakiler buna örnek olarak verilebilir:
1. Sunucu bellek yapılandırmasındaki değişiklikler
2. BIOS değişiklikleri
3. Sunucunun veya DIMM'nin farklı çalışma sıcaklıkları
4. DIMM'nin genel yaşı
Önceki sürümlerde, algılanan BIOS güncelleştirmeleri veya bellek yapılandırması değişiklikleri, bir sonraki önyükleme sırasında bellek yeniden eğitimine neden oluyordu. BIOS 2.1.x (14G) ve 2.8.x (13G) sürümleriyle birlikte, zamanlanmış yeniden eğitim için ilave düzeltilebilir ve düzeltilemez bellek hatası "tetikleyicileri" eklenmiştir:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." (Uyarı - MEM0701 - "DIMM_XX için düzeltilebilir bellek hatası oranı aşıldı.")
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." (Kritik - MEM0702 - "DIMM_XX için düzeltilebilir bellek hatası oranı aşıldı.")
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX." (Kritik - MEM0005 - "XX konumlarındaki bellek aygıtı için kalıcı düzeltilebilir hata sınırına ulaşıldı.")
VC olayları/dial home/SEL/LifeCycle günlüklerine yukarıdaki hatalardan herhangi birinin kaydedilmesi, sonraki yeniden başlatma için (sıcak veya soğuk) bellek yeniden eğitimi planlanmasına neden olur ve BIOS, başlatılan işlemin türü ne olursa olsun otomatik olarak soğuk yeniden başlatma işlemine zorlar.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location(s) DIMM_XX." (Kritik - MEM0001 - "DIMM_XX konumlarındaki bellek aygıtında çok bitli bellek hataları algılandı.")
MEM0001, önemli hata nedeniyle sunucunun yeniden başlatılmasına yol açar. Önyükleme sırasında bellek yeniden eğitimi otomatik olarak gerçekleşir.
Bu düzeltilebilir veya düzeltilemez (çok bitli) bellek hatalarının sonucunda, yeniden başlatma sırasında meydana gelen bellek yeniden eğitimi, her bir DIMM/yuva için sinyal zamanlamasını/yerleşimini optimize ederek arızalı DIMM'yi "kendi kendine onarabilir". Önyükleme sırasında bellek yeniden eğitimi (UEFI0106) başarısız olmadığı veya aynı hatalar gerçekleşmeye devam etmediği sürece bu hatalar için DIMM'nin değiştirilmesi gerekli değildir.
2. Paket Sonrası Onarım (PPR): İkinci "kendi kendini onarma" bellek iyileştirmesi sonucunda bir DIMM üzerindeki arızalı bellek konumu onarılır. Bu işlem, donanım katmanındaki konumu/adresi devre dışı bırakıp bunun yerine kullanılacak olan yedek bir bellek satırının etkinleştirilmesiyle yapılır. Mevcut yedek bellek satırlarının tam sayısı DRAM aygıtına ve DIMM boyutuna bağlıdır.
Daha önce bu işlev, üretim süreciyle sınırlıydı. Yukarıda bahsedilen bellek yeniden eğitim iyileştirmelerinde olduğu gibi, sonraki yeniden başlatmada (sıcak veya soğuk) belirli bir DIMM yuvasında PPR planlanmasına neden olacak bazı düzeltilebilir bellek hataları bulunmaktadır. BIOS, neyin başlatıldığından bağımsız şekilde otomatik olarak soğuk yeniden başlatmaya zorlar. PPR işlemi belirli bir DIMM yuvasında zamanlandığı için bu işlem çalıştırılıncaya kadar DIMM yuvası konumlarını DEĞİŞTİRMEYİN. Hatalara örnek olarak şunlar verilebilir:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." (Uyarı - MEM0701 - "DIMM_XX için düzeltilebilir bellek hatası oranı aşıldı.")
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." (Kritik - MEM0702 - "DIMM_XX için düzeltilebilir bellek hatası oranı aşıldı.")
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location(s) XX." (Kritik - MEM0005 - "XX konumlarındaki bellek aygıtı için kalıcı düzeltilebilir hata sınırına ulaşıldı.")
VC olayları/dial home/SEL/LifeCycle günlüğüne yukarıdaki hatalardan herhangi birinin kaydedilmesi, sonraki yeniden başlatma için (sıcak veya soğuk) Paket Sonrası Onarım işleminin planlanmasına neden olur.
Yeniden başlatmanın ardından PPR işleminin başarıyla gerçekleştirildiğini doğrulayın. Başarılı bir PPR işlemi örneği aşağıdaki gibidir:
Message ID MEM9060 - "The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier." [Mesaj Kimliği MEM9060 - "Paket Sonrası Onarım işlemi, daha önce başarısız olan Çift Hat İçi Bellek Modülü (DIMM) aygıtında başarıyla tamamlandı."]
Yeniden başlatma sonrasında PPR işlemi başarısız olmadığı sürece, bu düzeltilebilir bellek hataları için bir DIMM değişimi gerekli değildir. Başarısız PPR işlemi mesajına örnek olarak şu verilebilir:
Critical - Message ID UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X." [Kritik - Mesaj Kimliği UEFI0278 - "DIMM bellek yuvası X'teki bir sorun nedeniyle Paket Sonrası Onarım (PPR) işlemi tamamlanamıyor."]
Not: İlişkili MEM0005/MEM0701/MEM0702 mesajlarından yalıtılmış olarak görünen (bu mesajlarla aynı zaman çerçevesi içinde görünmeyen) MEM8000 kimlikli "Correctable memory error logging disabled for a memory device at location DIMM_XX" (DIMM_XX konumundaki bir bellek aygıtı için düzeltilebilir bellek hatasını günlüğe kaydetme devre dışı bırakıldı) mesajıyla karşılaşmanız durumunda, sonraki yeniden başlatma için bir PPR planlanmaz.
Tek başına veya ilişkili bir MCE (makine kontrol istisnası) ile birlikte görülen MEM8000 kimlikli mesaj, DIMM modülünde genel bir hata olduğunu gösterir ve düzeltilebilir ya da düzeltilemez grupların (bucket'ların) başlangıçta taşacağı bir durumu ifade etmez. Bu tür bir bellek olayı DIMM hatası olarak değerlendirilmeli ve listelenen DIMM modülü müşterinin müsait olduğu en kısa süre içinde değiştirilmelidir.
受影响的产品
VxFlex Product Family
产品
VxFlex Product Family