Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Intel Xeon Ölçeklendirilebilir İşlemcilere Sahip Dell PowerEdge Sunucularda DDR4 Kendini Onarma Nedir?

Summary: DDR4 içeren PowerEdge Sunucuda düzeltilebilir ve düzeltilemez bellek hataları ve sorun giderme adımlarındaki değişiklikler

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

BIOS sürümü 2.1.x veya üzeri olan Intel Xeon Ölçeklenebilir İşlemcilere (birinci veya ikinci nesil) sahip Dell PowerEdge Sunucularda DDR4 "kendi kendini onarma" nedir?

Bu DDR4 "kendi kendini onarma" özellikleri (BIOS iyileştirmeleri), bir sunucuda bellek hatalarıyla karşılaşıldığında önerilen müşteri ve Teknik Destek eylemlerini nasıl değiştirir?

Yeni BIOS sürümlerindeki "kendi kendini onarma" iyileştirmeleri nelerdir?

Cause

Sunucu yeniden başlatıldığında bellek olay mesajını, hata işlemeyi ve "kendi kendini onarmayı" iyileştirmek için Dell PowerEdge BIOS'ta devam eden iyileştirmeler ve iyileştirmeler bulunmaktadır. Bu, hata olaylarını kaydeden bir DDR4 bellek DIMM'ini değiştirmek için zamanlanmış bir bakım penceresine veya yerinde bulunmaya olan ihtiyacı önler.

Resolution

BIOS 2.1.x ve daha sonraki bir sürüm çalıştıran DDR4'e sahip PowerEdge sunucularına uygulanmış, bellekle ilişkili "kendini onarma" özelliği üzerine iki temel BIOS iyileştirmesi mevcuttur. Bu geliştirmeler, bellek olayları meydana geldiğinde ve Yaşam Döngüsü günlüğüne kaydedildiğinde önerilen adımları veya eylemleri değiştirmez.

Not:
  • BIOS 2.0 veya daha önceki sürümlerde DDR4 ile bellek hatalarıyla karşılaşıyorsanız BIOS'u birçok bellek Kendi kendini onarma özelliğini ve devam eden iyileştirmeleri içeren son sürümüne güncelleştirin. En son "kendi kendini onarma" iyileştirmelerinden yararlanmak için müşterilerimizin her zaman mevcut en son BIOS sürümüne (ve iDRAC bellenimine) güncelleştirme yapmalarını öneririz.
  • Önceki bellek sorun giderme adımları, hataların DIMM'yi takip mi ettiğini, yoksa DIMM yuvasında mı kaldığını doğrulamak için başarısız olan DIMM'lerin farklı bir yuvaya taşınmasını içeriyordu. BIOS 2.1.x veya daha sonraki bir sürümünde önerilen ilk adım, (DIMM'leri farklı bir yuvaya taşımadan) tekrar başlatma işlemidir. Bu sayede yeni BIOS iyileştirmelerinin çalışması sağlanarak DIMM hataları, DIMM değişiklikleri planlanmadan kendi kendini onarma yoluyla çözülebilir.

1. Bellek yeniden eğitimi iyileştirmeleri

Önyükleme sırasında (Bellek Yapılandırma adımlarının başında) gerçekleşen bellek yeniden eğitimi, en iyi erişimi sağlamak amacıyla her DIMM/yuva için sinyal zamanlamasını ve yerleşimi en iyi duruma getirir. Bir DIMM'nin bellek sinyal zamanlaması ve marjlama özellikleri, birkaç farklı nedenden dolayı zaman içinde değişebilir:

  • Sunucu bellek yapılandırmasındaki değişiklikler
  • BIOS değişiklikleri (Bellek Referans Kodu - MRC)
  • Sunucunun veya DIMM'nin farklı çalışma sıcaklıkları
  • DIMM'in genel yaşı

Daha önceden, algılanan BIOS güncellemeleri veya bellek yapılandırma değişiklikleri, sonraki önyükleme sırasında bellek yeniden eğitimine neden oluyordu. BIOS 2.1.x sürümünden başlayarak, planlanmış yeniden eğitim için düzeltilebilir ve düzeltilemez ilave bellek hataları "tetikleyicileri" eklenmiştir:

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

SEL/LifeCycle günlüklerine kaydedilen bu hatalardan biri, sonraki yeniden başlatma (sıcak veya soğuk) için bellek yeniden eğitimi planlanmasıyla sonuçlanır. BIOS, neyin başlatıldığından bağımsız şekilde otomatik olarak soğuk yeniden başlatmaya zorlar.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
 

Bu çoklu bit hatası, işletim sisteminin hatayı düzeltememesi halinde önemli hata nedeniyle sunucunun yeniden başlatılmasına neden olabilir. Bu önyükleme sırasında bellek yeniden eğitimi otomatik olarak gerçekleştirilir. Çoklu bit hatası, işletim sisteminin düzeltebildiği kritik olmayan bir bellek konumunda oluşursa bir yeniden başlatma planlanmalıdır.

POST sırasında bellek yeniden eğitimi, sinyal zamanlamasını ve yerleşimini en iyi duruma getirerek arızalı DIMM'yi ve ilişkili yuvayı "kendi kendine onarabilir". Önyükleme sırasında bellek yeniden eğitimi (UEFI0106) başarısız olmadığı veya bu aynı hatalar gerçekleşmeye devam etmediği sürece bu hatalar için DIMM'in değiştirilmesi gerekli değildir.
 

2. Paket Sonrası Onarım (PPR)

İkinci "kendi kendini iyileştiren" hafıza geliştirme PPR'dir. PPR, donanım katmanındaki konumu veya adresi devre dışı bırakıp bunun yerine kullanılacak yedek bir bellek satırını etkinleştirerek arızalı bir bellek konumunu onarır. Mevcut yedek bellek satırlarının tam sayısı DRAM aygıtına ve DIMM boyutuna bağlıdır.

Daha önce bu işlev, üretim süreciyle sınırlıydı. Yukarıda bahsedilen bellek yeniden eğitimi iyileştirmelerinde olduğu gibi sonraki yeniden başlatmada (sıcak veya soğuk) belirli bir DIMM yuvasında PPR planlanmasına neden olacak bazı düzeltilebilir bellek hataları bulunmaktadır. BIOS, neyin başlatıldığından bağımsız şekilde otomatik olarak soğuk yeniden başlatmaya zorlar. PPR işlemi belirli bir DIMM yuvasında zamanlandığı için bu işlem çalıştırılıncaya kadar DIMM yuvası konumlarını DEĞİŞTİRMEYİN. Hatalara örnek olarak şunlar verilebilir:

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
 

Günlüklerde bu olaylardan herhangi biri, PPR'nin Bellek Yapılandırma aşamasının başlarında bir sonraki yeniden başlatma (sıcak veya soğuk) için zamanlanmasına neden olur.

Not: Aynı DIMM konumunda karşılık gelen bir MEM0005/MEM0701/MEM0702 olmadan Mesaj Kimliği MEM8000 (DIMM_XX konumundaki bir bellek aygıtı için düzeltilebilir bellek hatası kaydı devre dışı bırakılmış), bir sonraki yeniden başlatma için bir PPR planlanmasına neden olmaz.

MEM8000 etkinliği değişiklikleri ve güncelleştirilmiş sürüm 1.1 ve daha yeni teknik inceleme için 10 Temmuz 2020 güncelleştirmesine bakın.

Yeniden başlatmanın ardından PPR işleminin başarıyla gerçekleştirildiğini doğrulayın. Başarılı bir PPR işlemi örneği aşağıdaki gibidir:

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."

PPR işlemi yapılmadığı sürece bu düzeltilebilir bellek hataları için DIMM değişimi gerekli değildir. Başarısız bir kritik PPR mesajı örneği şöyledir:
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
 

Dell PowerEdge sunucu Bellekle İlgili Güvenilirlik, Kullanılabilirlik ve Servis Kolaylığı (RAS) özelliklerini açıklayan ve PowerEdge Sunucularda bulunan Bellek Hataları ve Dell EMC PowerEdge YX4X Sunucu Belleği RAS Özellikleri gibi çeşitli RAS özelliklerini açıklayan yeni bir Teknik İnceleme (sürüm 1.0) kullanıma sunuldu.

Düzeltilebilir hata eşiği olayları hakkında daha fazla bilgi için bkz . 14G Intel ve 15G Intel/AMD PowerEdge sunucuları: DDR4 bellek: Düzeltilebilir hata eşiği olaylarını yönetme (İngilizce).

Güncelleştirme tarihi: 24 Nisan 2020

Dell, "kendi kendini onarma" özelliklerini geliştirmeye devam ediyor. Aşağıdaki bölümde farklı BIOS sürümleriyle ilişkili güncelleştirmeler ve geliştirmeler listelenmektedir.

BIOS 2.1.x - BIOS 2.1.6 ve üzeri sürümlerle birlikte kullanıma sunulmaya başlanan "kendi kendini onarma" özellikleriyle ilgili ilk makale, örnek hata mesajları ve önerilen eylemleri içerecek şekilde yayınlandı.

BIOS 2.4.x ve daha yeni sürümlerdeki değişiklikler (Aralık 2019)

  • MEM0702 [Correctable error rate exceeded... (Düzeltilebilir hata durumu aşıldı)] - Mesaj, critical (kritik) durumundan warning (uyarı) durumuna güncelleştirildi. Önerilen eylemler, "kendi kendini onarma" işleminin (Paket Sonrası Onarım gibi) gerçekleşmesi için sunucunun yeniden başlatılmasını önerecek şekilde güncelleştirildi.
    • Güncelleştirilmiş mesajı almak için Aralık 2019 veya daha yeni bir iDRAC sürümü de yüklenmelidir
    • Önerilen Eylem: PPR'nin çalışmasını sağlamak için sunucuyu yeniden başlatma
  • MEM9060 - Mesaj açıklaması, "kendini onarma" işleminin başarıyla tamamlandığını gösterecek şekilde güncelleştirildi

BIOS 2.5.x ve daha yeni sürümlerdeki değişiklikler (Şubat 2020)

  • Müşterilerin düzeltilebilir hatalara ilişkin tüm LifeCycle/SEL günlük kayıtlarını devre dışı bırakmasına izin vermek için "Correctable Error Logging" (Düzeltilebilir Hataları Günlüğe Kaydetme) adlı bir BIOS seçeneği eklenmiştir. Tüm "kendi kendini onarma" özellikleri çalışmaya devam eder. Örneğin, PPR ve bellek yeniden eğitimi planlanmaya ve bir sonraki yeniden başlatma sırasında (Bellek Yapılandırma işleminin başlarında) çalıştırılmaya devam eder.
  • RDIMM'ler ve LRDIMM'ler için eklenen MEM08xx hataları mevcut hata mesajlarının ve eylemlerinin yerini aldı. Mevcut hata mesajları, "kendini onarma" özelliklerini desteklemeyen platformlarda kullanılmaya devam etmektedir.
    • Yeni mesajların günlüğe kaydedilmesi için Şubat 2020 veya daha yeni bir iDRAC sürümü gereklidir .
Not: Güncelleştirilmiş iDRAC olmadan, yeni BIOS mesajları SEL veya LifeCycle günlüklerinde "bilinmiyor" olarak kalır.
  • MEM0802 - MEM0702 - Correctable error rate exceeded (Düzeltilebilir hata oranı aşıldı) mesajının yerini aldı
    • Önerilen Eylem: PPR'nin çalışmasını sağlamak için sunucuyu yeniden başlatın. PPR'nin başarılı olduğunu doğrulayın (MEM0802)
  • MEM0804 - PPR'nin başarılı olduğunu belirten MEM9060'ın yerini aldı. Artık PPR'yi çalıştıran DIMM yuvası konumunu içermektedir
    • Önerilen Eylem: Hiçbiri. Bu olay "kendi kendini onarma" işleminin gerçekleştiğini, DIMM'in değiştirilmesi gerekmediğini gösterir.
  • MEM0805 - PPR'nin başarısız olduğunu belirten UEFI0278 mesajının yerini aldı.
    • Önerilen Eylem: Arızalı DIMM'yi değiştirin.

Güncelleştirme tarihi: 10 Temmuz 2020

BIOS 2.7.x ve daha yeni sürümlerdeki değişiklikler (Temmuz 2020 blok BIOS'u - web'de yayınlama için Temmuz ortası hedeflenmiştir)

  • MEM8000 (Düzeltilebilir hata kaydı devre dışı) - BIOS ~2.0.x sürümünden itibaren Dell Mühendislik ekibi, performansı etkileyebilecek düzeltilebilir hata algılama oranını artırmak için bir BIOS değişikliği yaptı. Bu değişiklik, DIMM arıza analizi sonuçlarıyla doğrulanmayan MEM8000 olaylarında artışa neden oldu. BIOS 2.7.x sürümünden itibaren MEM8000 ile ilişkili iki değişiklik yapılmıştır. Birincisi, MEM8000 olayının sinyalinin değiştirilmiş olmasıdır. İkincisi, BIOS'un bir sonraki yeniden başlatma için kendi kendini onarmayı (PPR) planlamasıdır. iDRAC mesajları henüz yeni eylemleri yansıtacak şekilde güncelleştirilmemiştir.
    • Önerilen Eylem: Kendini onarma/PPR'nin çalışmasını sağlamak için sunucuyu yeniden başlatın. PPR'nin başarılı olduğunu doğrulayın (MEM0804).
  • MEM0001 (Düzeltilemez hata) - Bunun sonucunda bir sonraki yeniden başlatma için kendi kendini onarmayı (PPR) planlar. iDRAC mesajları henüz yeni eylemleri yansıtacak şekilde güncelleştirilmemiştir.
    • Önerilen Eylem: MEM0001, İşletim Sisteminin kurtaramadığı kritik bir sayfayla ilişkiliyse hiçbir eylem gerekmez. Bu, yeniden başlatmaya yol açan önemli bir hatadır. MEM0001, işletim sisteminin kurtarabileceği kritik olmayan bir sayfayla ilişkili ise tüm kendi kendini onarma (PPR) işlemlerinin gerçekleşmesi için yeniden başlatma planlanması gerekir. PPR'nin başarılı olduğunu doğrulayın (MEM0804).

GÜNCELLEŞTİRME TARİHİ: 13 Ocak 2021

BIOS 2.8.2 ve daha yeni sürümlerdeki değişiklikler (Eylül 2020 blok BIOS'u)

  • MEM9072 (Bellek devriyesi temizleme işlemi tarafından belirlenen düzeltilemez hata - sayfa tüketilmedi veya kullanımda değil) - Bunun sonucunda bir sonraki yeniden başlatma için kendi kendini onarmayı (PPR) planlar.  iDRAC mesajları henüz yeni eylemleri yansıtacak şekilde güncelleştirilmemiştir.
    • Önerilen Eylem: Kısa süre içerisinde bir yeniden başlatma planlayın. Yeniden başlatmanın geciktirilmesi sayfanın kullanılmasına neden olarak, yeniden başlatmaya yol açabilecek bir MEM0001 hatasına yol açabilir.  Belleğe yönelik kendini onarma (PPR) işlemi bu yeniden başlatma sırasında çalıştırılır. PPR'nin başarılı olduğunu doğrulayın (MEM0804).
Not: Mühendislik ekibi teknik raporunun en son sürümüne (sürüm 1.3 - yayın tarihi: 20 Kasım 2020) şu adresten ulaşılabilir: https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Intel Xeon E ve AMD EPYC içeriği için şu adreste bulunan orijinal Mühendislik ekibi teknik raporuna (sürüm 1.0) başvurmaya devam edebilirsiniz: PowerEdge YX4X Sunucu Belleği RAS Özellikleriyle ilgili Teknik Rapor v1.0 (dell.com) (İngilizce)

Gelecekteki BIOS güncelleştirmelerine eklenmek üzere ek RAS özellik geliştirmeleri değerlendirilmektedir.

Not: Belirli hata kodu mesajlarına ilişkin ayrıntılı açıklama ve önerilen eylemler için şu bağlantıya başvurun: Arama (dell.com). Hata kodları (MEM0001 gibi) birden fazla sunucu ve platform nesli için geçerli olduğundan önerilen eylemler ilgili BIOS sürümü için güncel olmayabilir. Eklenen yeni hata kodları (MEM0802, MEM0804, MEM0805 vb.) yalnızca Intel Xeon Ölçeklenebilir İşlemcili (birinci veya ikinci nesil) sunucular için geçerlidir.

Yeni bilgiler geldikçe bu makale güncelleştirilecektir.

Ayrıca bakınız: Değiştirme testi ile bellek sorunlarını giderme rehberi - Değiştirme testi

ile PowerEdge sistemlerindeki bellek hatalarını gidermeİndirmeler ve Sürücüler: Sürücüler ve Yüklemeler | Dell ABD

Affected Products

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R240, OEMR R340, OEMR R740xd2, OEMR T140, OEMR T340, OEMR XL R240, OEMR XL R340, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R240 , PowerEdge R340, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R940, PowerEdge T140, PowerEdge T340, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...

Products

VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
Article Properties
Article Number: 000053203
Article Type: Solution
Last Modified: 13 Nov 2024
Version:  16
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.