Serveurs PowerEdge Intel 14G et Intel 15G/AMD : Mémoire DDR4 : gestion des événements de seuil d’erreur corrigibles
Résumé:
Mise à jour des recommandations pour les clients concernant la gestion des événements de seuil d’erreur corrigibles (MEM0802 ou MEM5104) sur les modules RDIMM ou LRDIMM DDR4 installés
sur les serveurs PowerEdge 14G et 15G d’Intel, ainsi que sur les serveurs PowerEdge 15G basés sur AMD.
Remarque : Cet article ne s’applique pas aux serveurs PowerEdge basés sur AMD 14G, tels que les plates-formes 64x5 ou 74x5, car ils ne disposent pas de cette fonctionnalité d’autoréparation/réparation post-package, même si le module DIMM lui-même la prend en charge.
...
Sélectionnez un produit pour vérifier la pertinence de l’article
Cet article concerne Cet article ne concerne pasCet article n’est associé à aucun produit spécifique.Toutes les versions du produit ne sont pas identifiées dans cet article.
À travers l’évolution des fonctionnalités RAS (fiabilité, accessibilité et facilité de maintenance) sur l’ensemble de la mémoire d’entreprise, Dell a adopté une approche prudente en matière de création de rapports d’erreurs afin d’assurer la transparence vis-à-vis de ses clients. À mesure que cette évolution se poursuit, l’approche de Dell en matière de création de rapports d’erreurs se poursuit également, afin de permettre de se concentrer sur les avis qui nécessitent une réponse plus urgente plutôt que sur les avis principalement de nature informative.
À mesure que les géométries de mémoire DRAM continuent de diminuer, offrant aux clients les performances accrues qu’ils exigent, un nombre croissant d’erreurs corrigibles est attendu dans le cadre naturel d’une mise à l’échelle uniforme.
Cause
Au sein de l’industrie mondiale des serveurs, il est de plus en plus communément accepté, partagé par Dell, que certaines erreurs corrigibles par DIMM sont inévitables et ne justifient pas en soi un remplacement du module mémoire ou même un redémarrage immédiat pour lancer l’autoréparation.
Résolution
Le fait de continuer à utiliser un système qui signale des erreurs corrigibles sans redémarrer l’autoréparation n’augmente pas de manière significative le risque de rencontrer des erreurs non corrigibles pouvant entraîner des interruptions de service non planifiées. En fait, d’autres acteurs du secteur ont d’ailleurs communiqué publiquement que la gestion de la mémoire ne signalait pas d’erreurs corrigibles.
Dans le BIOS Intel PowerEdge 14G version 2.5.4 et versions ultérieures, un paramètre du BIOS appelé « Correctable Error Logging » a été ajouté pour permettre aux clients de désactiver les rapports d’erreurs corrigibles s’ils le souhaitent, et beaucoup l’ont fait. Le BIOS continuera de planifier l’autoréparation pour les événements de seuil corrigibles, même sans consignation. Cette autoréparation planifiée se produira automatiquement lors du prochain redémarrage du système.
Pour être plus en phase avec le secteur et les commentaires des clients, à compter de mars 2022, les mises à jour du BIOS Dell PowerEdge modifieront le paramètre du BIOS « Correctable Error Logging » sur désactivé par défaut. Cette option du BIOS peut être réactivée pour les clients qui souhaitent continuer à voir les événements de seuil de mémoire corrigibles. Les versions du BIOS avec cette modification des paramètres du BIOS incluses sont les suivantes :
Plateformes Intel 14G : BIOS version 2.13.3 ou ultérieure
Plateformes AMD 15G : BIOS version 2.6.5 ou ultérieure
Plates-formes Intel 15G : BIOS version 1.5.5 ou ultérieure.
Avantages de l’autoréparation des modules DIMM DDR4 via un redémarrage du système :
Permet de réparer un module DIMM DDR4 sans le retirer du système Tous les modules DIMM DDR4 provenant de Dell prennent en charge l’autoréparation de la mémoire. Remarque : Les serveurs AMD PowerEdge 14G ne disposent pas de cette fonctionnalité d’autoréparation.
Utilise les rangées de rechange disponibles conçues dans la mémoire DRAM où une rangée défectueuse est définitivement remplacée par une rangée dont le fonctionnement a été vérifié par fusible électrique.
Le recyclage ultérieur de la mémoire optimise les « yeux des données » en recalibrant les points centraux pour s’assurer que le bus mémoire fonctionne au niveau le plus élevé d’intégrité de la signalisation.
En ce qui concerne les événements de seuil corrigibles avec le paramètre BIOS « Correctable Error Logging » activé, si des événements de seuil de mémoire se produisent, Dell recommande de redémarrer selon le calendrier de maintenance régulier du client pour permettre l’autoréparation ou l’autocorrection planifiée de la mémoire. Après le redémarrage, les événements d’autoréparation réussis ou échoués sont consignés pour les modules DIMM associés.
Avec le paramètre BIOS«Correctable Error Logging » désactivé, Dell recommande de redémarrer selon le programme de maintenance standard du client. Au redémarrage, toutes les opérations d’autoréparation planifiées s’exécutent automatiquement. Le système consigne un événement (de type MEM0805 ou MEM7114) en cas d’échec de l’opération d’autoréparation/autocorrection et recommande en outre de remplacer physiquement la barrette DIMM concernée.
Recommandation : le département des ingénieurs mémoire Dell EMC recommande aux clients des serveurs PowerEdge utilisant des versions du BIOS plus anciennes (versions du BIOS antérieures à mars 2022) de remplacer le paramètre du BIOS « Correctable Error Logging » par Désactivé. Cela permet d’éliminer les événements de seuil de mémoire corrigibles sporadiques (tels que les événements de type MEM0802 ou MEM5104) sur l’ensemble de l’infrastructure de serveurs qui recommandent des redémarrages du serveur pour permettre l’autoréparation ou l’autocorrection. Comme mentionné précédemment, toutes les opérations d’autoréparation ou d’autocorrection planifiées s’exécutent automatiquement au redémarrage du serveur et toute défaillance est signalée.
Le paramètre BIOS « Correctable Error Logging » peut être modifié en redémarrant le serveur sur les paramètres F2 ou via l’interface graphique de l’iDRAC.
Pour modifier les paramètres du BIOS à l’aide des paramètres F2 :
Redémarrez les serveurs en vous arrêtant aux paramètres F2
Dans la sélection Paramètres du BIOS -> Paramètres de mémoire, définissez l’option « Correctable Error Logging » sur Désactivé.
Enregistrez les paramètres du BIOS et quittez les paramètres F2
Pour modifier les paramètres du BIOS à l’aide de l’interface graphique de l’iDRAC :
Connectez-vous à l’interface graphique de l’iDRAC.
Sous Configuration -> Paramètres du BIOS, développez la section Paramètres de la mémoire
Définissez le paramètre « Correctable Error Logging » sur désactivé
Cliquez sur le bouton Appliquer pour enregistrer les paramètres de mémoire
N’oubliez pas de sélectionner le bouton Appliquer et redémarrer (pour redémarrer immédiatement) ou Au prochain redémarrage pour appliquer les modifications du BIOS.
Les articles et livres blancs relatifs à la mémoire existants seront mis à jour pour refléter cette modification recommandée.
REMARQUE : Les messages destinés aux clients approuvés sont joints en tant que fichier à l’article suivant : « Gestion des avis d’erreurs corrigibles en décembre 2021 v1.pdf ».
Cet article sera mis à jour au fur et à mesure que de nouvelles informations seront disponibles.