Article Number: 000053203
Sunucu yeniden başlatıldığında bellek olay mesajını, hata işlemeyi ve "kendi kendini onarmayı" iyileştirmek için Dell PowerEdge BIOS'ta devam eden iyileştirmeler ve iyileştirmeler bulunmaktadır. Bu, hata olaylarını kaydeden bir DDR4 bellek DIMM'ini değiştirmek için zamanlanmış bir bakım penceresine veya yerinde bulunmaya olan ihtiyacı önler.
BIOS 2.1.x ve daha sonraki bir sürüm çalıştıran DDR4'e sahip PowerEdge sunucularına uygulanmış, bellekle ilişkili "kendini onarma" özelliği üzerine iki temel BIOS iyileştirmesi mevcuttur. Bu geliştirmeler, bellek olayları meydana geldiğinde ve Yaşam Döngüsü günlüğüne kaydedildiğinde önerilen adımları veya eylemleri değiştirmez.
Önyükleme sırasında (Bellek Yapılandırma adımlarının başında) gerçekleşen bellek yeniden eğitimi, en iyi erişimi sağlamak amacıyla her DIMM/yuva için sinyal zamanlamasını ve yerleşimi en iyi duruma getirir. Bir DIMM'nin bellek sinyal zamanlaması ve marjlama özellikleri, birkaç farklı nedenden dolayı zaman içinde değişebilir:
Daha önceden, algılanan BIOS güncellemeleri veya bellek yapılandırma değişiklikleri, sonraki önyükleme sırasında bellek yeniden eğitimine neden oluyordu. BIOS 2.1.x sürümünden başlayarak, planlanmış yeniden eğitim için düzeltilebilir ve düzeltilemez ilave bellek hataları "tetikleyicileri" eklenmiştir:
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
SEL/LifeCycle günlüklerine kaydedilen bu hatalardan biri, sonraki yeniden başlatma (sıcak veya soğuk) için bellek yeniden eğitimi planlanmasıyla sonuçlanır. BIOS, neyin başlatıldığından bağımsız şekilde otomatik olarak soğuk yeniden başlatmaya zorlar.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Bu çoklu bit hatası, işletim sisteminin hatayı düzeltememesi halinde önemli hata nedeniyle sunucunun yeniden başlatılmasına neden olabilir. Bu önyükleme sırasında bellek yeniden eğitimi otomatik olarak gerçekleştirilir. Çoklu bit hatası, işletim sisteminin düzeltebildiği kritik olmayan bir bellek konumunda oluşursa bir yeniden başlatma planlanmalıdır.
POST sırasında bellek yeniden eğitimi, sinyal zamanlamasını ve yerleşimini en iyi duruma getirerek arızalı DIMM'yi ve ilişkili yuvayı "kendi kendine onarabilir". Önyükleme sırasında bellek yeniden eğitimi (UEFI0106) başarısız olmadığı veya bu aynı hatalar gerçekleşmeye devam etmediği sürece bu hatalar için DIMM'in değiştirilmesi gerekli değildir.
İkinci "kendi kendini iyileştiren" hafıza geliştirme PPR'dir. PPR, donanım katmanındaki konumu veya adresi devre dışı bırakıp bunun yerine kullanılacak yedek bir bellek satırını etkinleştirerek arızalı bir bellek konumunu onarır. Mevcut yedek bellek satırlarının tam sayısı DRAM aygıtına ve DIMM boyutuna bağlıdır.
Daha önce bu işlev, üretim süreciyle sınırlıydı. Yukarıda bahsedilen bellek yeniden eğitimi iyileştirmelerinde olduğu gibi sonraki yeniden başlatmada (sıcak veya soğuk) belirli bir DIMM yuvasında PPR planlanmasına neden olacak bazı düzeltilebilir bellek hataları bulunmaktadır. BIOS, neyin başlatıldığından bağımsız şekilde otomatik olarak soğuk yeniden başlatmaya zorlar. PPR işlemi belirli bir DIMM yuvasında zamanlandığı için bu işlem çalıştırılıncaya kadar DIMM yuvası konumlarını DEĞİŞTİRMEYİN. Hatalara örnek olarak şunlar verilebilir:
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Günlüklerde bu olaylardan herhangi biri, PPR'nin Bellek Yapılandırma aşamasının başlarında bir sonraki yeniden başlatma (sıcak veya soğuk) için zamanlanmasına neden olur.
Yeniden başlatmanın ardından PPR işleminin başarıyla gerçekleştirildiğini doğrulayın. Başarılı bir PPR işlemi örneği aşağıdaki gibidir:
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Dell PowerEdge sunucu Bellekle İlgili Güvenilirlik, Kullanılabilirlik ve Servis Kolaylığı (RAS) özelliklerini açıklayan ve PowerEdge Sunucularda bulunan Bellek Hataları ve Dell EMC PowerEdge YX4X Sunucu Belleği RAS Özellikleri gibi çeşitli RAS özelliklerini açıklayan yeni bir Teknik İnceleme (sürüm 1.0) kullanıma sunuldu.
Düzeltilebilir hata eşiği olayları hakkında daha fazla bilgi için bkz . 14G Intel ve 15G Intel/AMD PowerEdge sunucuları: DDR4 bellek: Düzeltilebilir hata eşiği olaylarını yönetme (İngilizce).Güncelleştirme tarihi: 24 Nisan 2020
Dell, "kendi kendini onarma" özelliklerini geliştirmeye devam ediyor. Aşağıdaki bölümde farklı BIOS sürümleriyle ilişkili güncelleştirmeler ve geliştirmeler listelenmektedir.
BIOS 2.1.x - BIOS 2.1.6 ve üzeri sürümlerle birlikte kullanıma sunulmaya başlanan "kendi kendini onarma" özellikleriyle ilgili ilk makale, örnek hata mesajları ve önerilen eylemleri içerecek şekilde yayınlandı.
BIOS 2.4.x ve daha yeni sürümlerdeki değişiklikler (Aralık 2019)
BIOS 2.5.x ve daha yeni sürümlerdeki değişiklikler (Şubat 2020)
Güncelleştirme tarihi: 10 Temmuz 2020
BIOS 2.7.x ve daha yeni sürümlerdeki değişiklikler (Temmuz 2020 blok BIOS'u - web'de yayınlama için Temmuz ortası hedeflenmiştir)
GÜNCELLEŞTİRME TARİHİ: 13 Ocak 2021
BIOS 2.8.2 ve daha yeni sürümlerdeki değişiklikler (Eylül 2020 blok BIOS'u)
Gelecekteki BIOS güncelleştirmelerine eklenmek üzere ek RAS özellik geliştirmeleri değerlendirilmektedir.
Yeni bilgiler geldikçe bu makale güncelleştirilecektir.
Ayrıca bakınız: Değiştirme testi ile bellek sorunlarını giderme rehberi - Değiştirme testi
ile PowerEdge sistemlerindeki bellek hatalarını gidermeİndirmeler ve Sürücüler: Sürücüler ve Yüklemeler | Dell ABD
VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
19 Apr 2024
15
Solution