14G Intel ve 15G Intel/AMD PowerEdge sunucuları: DDR4 bellek: Düzeltilebilir hata eşiği olaylarını yönetme
Summary:
Intel tabanlı 14G ve 15G PowerEdge Sunucuların yanı sıra AMD tabanlı 15G PowerEdge Sunucularda kurulu DDR4 RDIMM'lerde veya LRDIMM'lerde düzeltilebilir hata eşiği olaylarını (MEM0802
veya MEM5104) yönetirken müşterilere yönelik güncellenmiş öneriler.
Not: Bu makale, 64x5 veya 74x5 platformları gibi 14G AMD tabanlı PowerEdge sunucuları için geçerli değildir, çünkü DIMM'nin kendisi desteklemesine rağmen bu Paket Sonrası Onarım / kendi kendini onarma özelliğine sahip değildirler.
...
Please select a product to check article relevancy
This article applies to This article does not apply toThis article is not tied to any specific product.Not all product versions are identified in this article.
Kurumsal Sınıf bellekte RAS (Güvenilirlik, Erişilebilirlik ve Servis Kolaylığı) özelliklerinin gelişimi boyunca Dell, müşterilerimize şeffaflık sağlamak için hata raporlamada muhafazakar bir yaklaşım benimsemiştir. Bu evrim devam ettikçe, doğası gereği bilgilendirme amaçlı bildirimler yerine daha acil yanıt gerektiren bildirimlere odaklanılmasını sağlayan Dell'in hata raporlama yaklaşımı da devam ediyor.
DRAM tabanlı bellek geometrileri küçülmeye devam ederek müşterilerin talep ettiği performans artışını sağladıkça, tek tip ölçeklendirmenin doğal bir parçası olarak düzeltilebilir hataların sayısının artması beklenmektedir.
Cause
Küresel sunucu sektöründe, Dell tarafından paylaşılan, DIMM başına bazı düzeltilebilir hataların kaçınılmaz olduğu ve doğası gereği bellek modülünün değiştirilmesini veya hatta kendi kendini onarmayı başlatmak için hemen yeniden başlatmayı garanti etmediği yönünde giderek daha fazla kabul gören bir anlayış bulunmaktadır.
Resolution
Kendi kendini onarmak için yeniden başlatma yapmadan düzeltilebilir hatalar bildiren bir sistemi çalıştırmaya devam etmek, planlanmamış kapalı kalma sürelerine yol açabilecek düzeltilemez hatalarla karşılaşma riskini önemli ölçüde artırmaz. Aslında, sektördeki diğer kişiler, bellek işlemelerinin düzeltilebilir hatalar bildirmediğini kamuya açık bir şekilde ilettiler.
14G Intel PowerEdge BIOS sürüm 2.5.4 ve daha yeni sürümlerde, müşterilere istedikleri takdirde düzeltilebilir hata raporlamayı devre dışı bırakma seçeneği sunmak için "Correctable Error Logging" adlı bir BIOS ayarı eklenmiştir. BIOS, düzeltilebilir eşik olayları için günlük kaydı olmadan da kendi kendini onarmayı programlamaya devam eder. Bu zamanlanmış kendi kendini onarma, sonraki sistem yeniden başlatma işlemi sırasında otomatik olarak gerçekleşir.
Sektörle ve sürekli müşteri geri bildirimleriyle daha uyumlu olması için Mart 2022'den itibaren Dell PowerEdge BIOS güncellemeleri, "Düzeltilebilir Hata Günlüğü" BIOS ayarını varsayılan olarak devre dışı olarak değiştirecek. Bu BIOS seçeneği, düzeltilebilir bellek eşiği olaylarını görmeye devam etmek isteyen müşteriler için yeniden etkinleştirilebilir. Bu BIOS ayarı değişikliğine sahip BIOS sürümleri şunlardır:
14G Intel Platformları - BIOS sürüm 2.13.3 veya daha yenisi
15G AMD Platformları - BIOS sürüm 2.6.5 veya daha yenisi
15G Intel Platformları - BIOS 1.5.5 veya daha yeni sürümler.
Sistemi yeniden başlatma yoluyla DDR4 DIMM kendi kendini onarmanın avantajları:
DDR4 DIMM'nin sistemden çıkarılmadan onarılmasını sağlar; Dell kaynaklı tüm DDR4 DIMM'ler belleğin kendi kendini onarmasını destekler. Not: 14G AMD PowerEdge sunucuları bu kendi kendini onarma özelliğine sahip değildir.
Bozuk bir satırın elektriksel kaynaştırma yoluyla kalıcı olarak bilinen iyi bir satırla değiştirildiği DRAM içine yerleştirilmiş mevcut yedek satırları kullanır.
Sonraki bellek yeniden eğitimi, bellek veri yolunun en yüksek sinyal bütünlüğü düzeyinde çalışmasını sağlamak için merkez noktaları yeniden kalibre ederek "veri gözlerini" optimize eder.
Düzeltilebilir Hata Günlüğü" BIOS ayarı Etkinken düzeltilebilir eşik olayları için bellek eşiği olayları meydana gelirse Dell, zamanlanan belleğin kendi kendini onarması veya kendi kendini düzeltmesi için müşterinin düzenli bakım programında yeniden başlatmayı önerir. Yeniden başlatmadan sonra, başarılı veya başarısız kendi kendini onarma olayları ilişkili DIMM'ler için kaydedilir.
Düzeltilebilir Hata Günlüğü" BIOS ayarı etkinleştirildiğinde Dell, müşterinin düzenli bakım programında yeniden başlatmayı önerir. Yeniden başlatmanın ardından, zamanlanmış tüm kendi kendini onarma işlemleri otomatik olarak çalışır. Kendi kendini onarma/düzeltme işlemi başarısız olursa sistem bir olay (MEM0805 veya MEM7114 türü olaylar) kaydeder ve etkilenen DIMM'nin fiziksel olarak değiştirilmesini önerir.
Öneri: Dell EMC Bellek Mühendisliği, daha eski BIOS sürümlerini (Mart bloğu 2022 öncesi BIOS sürümleri) kullanan PowerEdge Sunucu müşterilerinin, "Correctable Error Logging" BIOS ayarını Disabled olarak değiştirmeyi benimsemelerini önerir. Bu, sunucu altyapılarında kendi kendini onarma veya kendi kendini düzeltmeye izin vermek için sunucunun yeniden başlatılmasını öneren ara sıra düzeltilebilir bellek eşiği olaylarını (MEM0802 veya MEM5104 türü olaylar gibi) ortadan kaldırır. Daha önce de belirtildiği gibi, zamanlanmış tüm kendi kendini onarma veya kendi kendini düzeltme işlemleri, sunucu yeniden başlatıldığında otomatik olarak çalıştırılır ve herhangi bir hata bildirilir.
Correctable Error Logging" BIOS ayarı, sunucu yeniden başlatılarak F2 Ayarlarına getirilerek veya iDRAC GUI aracılığıyla değiştirilebilir.
F2 Ayarlarını kullanarak BIOS ayarını değiştirmek için:
F2 ayarlarında durarak sunucuları yeniden başlatın
BIOS ayarını iDRAC GUI kullanarak değiştirmek için:
iDRAC GUI de oturum açın
Yapılandırma -> BIOS Ayarları altında, Bellek Ayarları bölümünü genişletin
Correctable Error Logging" ayarını disabled olarak değiştirin
Bellek Ayarlarını kaydetmek için Uygula düğmesine tıklayın
BIOS değişikliklerini uygulamak için Uygula ve Yeniden Başlat düğmesini (hemen yeniden başlatmak için) veya Bir Sonraki Yeniden Başlatmada düğmesiniseçmeyi unutmayın.
Mevcut bellekle ilgili KB makaleleri ve teknik raporları, önerilen bu değişikliği yansıtacak şekilde güncellenecektir.
NOTLAR: Onaylanan müşteriye yönelik mesaj, "Düzeltilebilir Hata Bildirimlerini Yönetme Aralık 2021 v1.pdf" başlıklı makaleye bir dosya olarak eklenmiştir.
Yeni bilgiler geldikçe bu makale güncelleştirilecektir.