Passer au contenu principal
  • Passer des commandes rapidement et facilement
  • Afficher les commandes et suivre l’état de votre expédition
  • Créez et accédez à une liste de vos produits

Serveurs PowerEdge Intel 14G et Intel 15G/AMD : Mémoire DDR4 : gestion des événements de seuil d’erreur corrigibles

Résumé: Mise à jour des recommandations pour les clients concernant la gestion des événements de seuil d’erreur corrigibles (MEM0802 ou MEM5104) sur les modules RDIMM ou LRDIMM DDR4 installés sur les serveurs PowerEdge 14G et 15G d’Intel, ainsi que sur les serveurs PowerEdge 15G basés sur AMD. Remarque : Cet article ne s’applique pas aux serveurs PowerEdge basés sur AMD 14G, tels que les plates-formes 64x5 ou 74x5, car ils ne disposent pas de cette fonctionnalité d’autoréparation/réparation post-package, même si le module DIMM lui-même la prend en charge. ...

Cet article concerne Cet article ne concerne pas Cet article n’est associé à aucun produit spécifique. Toutes les versions du produit ne sont pas identifiées dans cet article.

Symptômes

À travers l’évolution des fonctionnalités RAS (fiabilité, accessibilité et facilité de maintenance) sur l’ensemble de la mémoire d’entreprise, Dell a adopté une approche prudente en matière de création de rapports d’erreurs afin d’assurer la transparence vis-à-vis de ses clients. À mesure que cette évolution se poursuit, l’approche de Dell en matière de création de rapports d’erreurs se poursuit également, afin de permettre de se concentrer sur les avis qui nécessitent une réponse plus urgente plutôt que sur les avis principalement de nature informative.

À mesure que les géométries de mémoire DRAM continuent de diminuer, offrant aux clients les performances accrues qu’ils exigent, un nombre croissant d’erreurs corrigibles est attendu dans le cadre naturel d’une mise à l’échelle uniforme.

Cause

Au sein de l’industrie mondiale des serveurs, il est de plus en plus communément accepté, partagé par Dell, que certaines erreurs corrigibles par DIMM sont inévitables et ne justifient pas en soi un remplacement du module mémoire ou même un redémarrage immédiat pour lancer l’autoréparation.

Résolution

Le fait de continuer à utiliser un système qui signale des erreurs corrigibles sans redémarrer l’autoréparation n’augmente pas de manière significative le risque de rencontrer des erreurs non corrigibles pouvant entraîner des interruptions de service non planifiées. En fait, d’autres acteurs du secteur ont d’ailleurs communiqué publiquement que la gestion de la mémoire ne signalait pas d’erreurs corrigibles.

Dans le BIOS Intel PowerEdge 14G version 2.5.4 et versions ultérieures, un paramètre du BIOS appelé « Correctable Error Logging » a été ajouté pour permettre aux clients de désactiver les rapports d’erreurs corrigibles s’ils le souhaitent, et beaucoup l’ont fait.  Le BIOS continuera de planifier l’autoréparation pour les événements de seuil corrigibles, même sans consignation. Cette autoréparation planifiée se produira automatiquement lors du prochain redémarrage du système.

Pour être plus en phase avec le secteur et les commentaires des clients, à compter de mars 2022, les mises à jour du BIOS Dell PowerEdge modifieront le paramètre du BIOS « Correctable Error Logging » sur désactivé par défaut.  Cette option du BIOS peut être réactivée pour les clients qui souhaitent continuer à voir les événements de seuil de mémoire corrigibles. Les versions du BIOS avec cette modification des paramètres du BIOS incluses sont les suivantes :
  • Plateformes Intel 14G : BIOS version 2.13.3 ou ultérieure
  • Plateformes AMD 15G : BIOS version 2.6.5 ou ultérieure
  • Plates-formes Intel 15G : BIOS version 1.5.5 ou ultérieure.

Avantages de l’autoréparation des modules DIMM DDR4 via un redémarrage du système :
  • Permet de réparer un module DIMM DDR4 sans le retirer du système Tous les modules DIMM DDR4 provenant de Dell prennent en charge l’autoréparation de la mémoire. Remarque : Les serveurs AMD PowerEdge 14G ne disposent pas de cette fonctionnalité d’autoréparation.
  • Utilise les rangées de rechange disponibles conçues dans la mémoire DRAM où une rangée défectueuse est définitivement remplacée par une rangée dont le fonctionnement a été vérifié par fusible électrique.
  • Le recyclage ultérieur de la mémoire optimise les « yeux des données » en recalibrant les points centraux pour s’assurer que le bus mémoire fonctionne au niveau le plus élevé d’intégrité de la signalisation.


En ce qui concerne les événements de seuil corrigibles avec le paramètre BIOS « Correctable Error Logging » activé, si des événements de seuil de mémoire se produisent, Dell recommande de redémarrer selon le calendrier de maintenance régulier du client pour permettre l’autoréparation ou l’autocorrection planifiée de la mémoire. Après le redémarrage, les événements d’autoréparation réussis ou échoués sont consignés pour les modules DIMM associés.

Avec le paramètre BIOS«Correctable Error Logging » désactivé, Dell recommande de redémarrer selon le programme de maintenance standard du client. Au redémarrage, toutes les opérations d’autoréparation planifiées s’exécutent automatiquement. Le système consigne un événement (de type MEM0805 ou MEM7114) en cas d’échec de l’opération d’autoréparation/autocorrection et recommande en outre de remplacer physiquement la barrette DIMM concernée.

Recommandation :
le département des ingénieurs mémoire Dell EMC recommande aux clients des serveurs PowerEdge utilisant des versions du BIOS plus anciennes (versions du BIOS antérieures à mars 2022) de remplacer le paramètre du BIOS « Correctable Error Logging » par Désactivé. Cela permet d’éliminer les événements de seuil de mémoire corrigibles sporadiques (tels que les événements de type MEM0802 ou MEM5104) sur l’ensemble de l’infrastructure de serveurs qui recommandent des redémarrages du serveur pour permettre l’autoréparation ou l’autocorrection. Comme mentionné précédemment, toutes les opérations d’autoréparation ou d’autocorrection planifiées s’exécutent automatiquement au redémarrage du serveur et toute défaillance est signalée.
 

Le paramètre BIOS « Correctable Error Logging » peut être modifié en redémarrant le serveur sur les paramètres F2 ou via l’interface graphique de l’iDRAC.
 

Pour modifier les paramètres du BIOS à l’aide des paramètres F2 :

  • Redémarrez les serveurs en vous arrêtant aux paramètres F2
  • Dans la sélection Paramètres du BIOS -> Paramètres de mémoire, définissez l’option « Correctable Error Logging » sur Désactivé.
  • Enregistrez les paramètres du BIOS et quittez les paramètres F2

Pour modifier les paramètres du BIOS à l’aide de l’interface graphique de l’iDRAC :

  • Connectez-vous à l’interface graphique de l’iDRAC.
  • Sous Configuration -> Paramètres du BIOS, développez la section Paramètres de la mémoire
  • Définissez le paramètre « Correctable Error Logging » sur désactivé
  • Cliquez sur le bouton Appliquer pour enregistrer les paramètres de mémoire
  • N’oubliez pas de sélectionner le bouton Appliquer et redémarrer (pour redémarrer immédiatement) ou Au prochain redémarrage  pour appliquer les modifications du BIOS.


Les articles et livres blancs relatifs à la mémoire existants seront mis à jour pour refléter cette modification recommandée.

REMARQUE : Les messages destinés aux clients approuvés sont joints en tant que fichier à l’article suivant : « Gestion des avis d’erreurs corrigibles en décembre 2021 v1.pdf ».

Cet article sera mis à jour au fur et à mesure que de nouvelles informations seront disponibles.

Produits concernés

AX-6515, AX-7525, Dell EMC vSAN C6420 Ready Node, Dell EMC vSAN MX740c Ready Node, Dell EMC vSAN R440 Ready Node, Dell EMC vSAN R640 Ready Node, Dell EMC vSAN R650 Ready Node, Dell EMC vSAN R6515 Ready Node, Dell EMC vSAN R740 Ready Node , Dell EMC vSAN R740xd Ready Node ...

Produits

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, Storage Spaces Direct R440 Ready Node, Storage Spaces Direct R640 Ready Node, Storage Spaces Direct R740xd Ready Node, Storage Spaces Direct R740xd2 Ready node, OEMR R340, OEMR R440 , PowerEdge XR2, OEMR R540, OEMR R640, OEMR XL R640, OEMR R650, OEMR R650xs, OEMR R6515, OEMR R6525, OEMR R740, OEMR XL R740, OEMR R740xd, OEMR XL R740xd, OEMR R740xd2, OEMR R750, OEMR R750xa, OEMR R750xs, OEMR R7515, OEMR R7525, OEMR R840, OEMR R940, OEMR R940xa, OEMR T440, OEMR T550, OEMR T640, OEMR XL T640, OEMR XL R340, PowerEdge C6420, PowerEdge C6525, PowerEdge MX740C, PowerEdge MX840C, PowerEdge R340, PowerEdge R540, PowerEdge R640, PowerEdge R650, PowerEdge R650xs, PowerEdge R6515, PowerEdge R6525, PowerEdge R740, PowerEdge R740XD, PowerEdge R740XD2, PowerEdge R750, PowerEdge R750XA, PowerEdge R750xs, PowerEdge R7515, PowerEdge R7525, PowerEdge R840, PowerEdge R940, PowerEdge R940xa, PowerEdge T440, PowerEdge T550, PowerEdge T640, PowerFlex appliance R650, PowerFlex appliance R6525, Powerflex appliance R750, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R750, VxFlex Ready Node R640, VxFlex Ready Node R740xd, Dell EMC vSAN R750 Ready Node, Dell EMC vSAN R7515 Ready Node, Dell EMC vSAN R840 Ready Node, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R840, VxFlex Ready Node R840, Dell EMC XC Core XC7525 ...
Propriétés de l’article
Numéro d’article: 000194574
Type d’article: Solution
Dernière modification: 10 févr. 2022
Version:  2
Trouvez des réponses à vos questions auprès d’autres utilisateurs Dell
Services de support
Vérifiez si votre appareil est couvert par les services de support.