Article Number: 000053203
Des améliorations et améliorations ont été apportées en continu au BIOS Dell PowerEdge afin d’améliorer la messagerie des événements de mémoire, la gestion des erreurs et l’autoréparation qui se produisent lors d’un redémarrage du serveur. Cela évite d’avoir à planifier une fenêtre de maintenance ou une présence sur site pour remplacer une barrette DIMM de mémoire DDR4 qui consignait des événements d’erreur.
Deux principales améliorations du BIOS impliquant une capacité « d’autodépannage » liée à la mémoire ont été mises en œuvre sur les serveurs PowerEdge équipés d’une DDR4 et fonctionnant sous un BIOS de version 2.1.x ou ultérieure. Ces améliorations modifient les étapes ou actions recommandées à effectuer si des événements de mémoire se produisent et sont consignés dans le journal Lifecycle.
Le recyclage de la mémoire, qui se produit pendant le démarrage (au début des étapes de configuration de la mémoire), optimise la synchronisation et la marginalisation des signaux pour chaque barrette DIMM/logement pour un meilleur accès. Les caractéristiques de synchronisation et de marginalisation des signaux mémoire DIMM peuvent changer au fil du temps pour différentes raisons :
Auparavant, la détection de mises à jour du BIOS ou de modifications de configuration de la mémoire aurait entraîné un recyclage de la mémoire au démarrage suivant. À partir de la version 2.1.x du BIOS, d’autres « déclencheurs » d’erreurs de mémoire corrigibles et non corrigibles ont été ajoutées pour le recyclage planifié :
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Toutes ces erreurs consignées dans les journaux SEL/LifeCycle entraînent la planification d’un nouveau recyclage de la mémoire au prochain redémarrage (à chaud ou à froid). Le BIOS déclenche automatiquement un redémarrage à froid, quelle que soit l’action initiée.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Cette sur plusieurs bits peut entraîner le redémarrage du serveur en raison d’une erreur fatale si le système d’exploitation ne parvient pas à gérer cette erreur. Le recyclage de la mémoire se produit automatiquement au cours de ce démarrage. Si l’erreur sur plusieurs bits se produit dans un emplacement de mémoire non stratégique que le système d’exploitation est en mesure de gérer, un redémarrage doit être planifié.
Le recyclage de la mémoire pendant le POST peut « autoréparer » le module DIMM défaillant et le logement associé en optimisant la synchronisation et la marginalisation des signaux. Avec ces erreurs, il n’est pas nécessaire de remplacer la barrette DIMM, à moins que le recyclage de la mémoire échoue (UEFI0106) au cours du démarrage ou que les mêmes erreurs se produisent.
La deuxième amélioration de la mémoire « auto-réparatrice » est la PPR. PPR répare un emplacement de mémoire défaillant en désactivant l’emplacement ou l’adresse au niveau de la couche matérielle, ce qui permet d’utiliser une ligne de mémoire de secours à la place. Le nombre exact de lignes de mémoire de secours disponibles dépend de la DRAM et de la taille de la DIMM.
Auparavant, cette fonctionnalité se limitait au processus de fabrication. Comme pour les améliorations apportées au recyclage de la mémoire mentionnées précédemment, il existe certaines erreurs de mémoire corrigibles qui entraînent la planification d’une PPR sur un logement DIMM spécifique pour le prochain redémarrage (à chaud ou à froid). Le BIOS déclenche automatiquement un redémarrage à froid, quelle que soit l’action initiée. Étant donné que l’opération PPR est planifiée sur un logement de DIMM spécifique, NE modifiez PAS les emplacements des logements DIMM tant que l’opération PPR n’a pas été exécutée. Voici des exemples d’erreurs :
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Tous ces événements dans les journaux entraînent la planification de PPR pour le prochain redémarrage (à chaud ou à froid) au début de la phase de configuration de la mémoire.
Après le redémarrage, vérifiez que l’opération PPR a bien été exécutée. Lorsqu’une opération PPR aboutit, vous obtenez un message semblable à ce qui suit :
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Un livre blanc (version 1.0) récemment publié décrivant les fonctionnalités de fiabilité, de disponibilité et de facilité de maintenance (RAS) liées à la mémoire des serveurs Dell PowerEdge est désormais disponible. Il décrit les différentes fonctionnalités et capacités RAS disponibles sur les serveurs PowerEdge : erreurs de mémoire et fonctionnalités RAS de mémoire du serveur Dell EMC PowerEdge YX4X.
Pour plus d’informations sur les événements de seuil d’erreur corrigibles, voir l’article Serveurs PowerEdge Intel 14G et Intel/AMD 15G : mémoire DDR4 : gestion des événements de seuil d’erreur corrigibles (en anglais).Mis à jour le 24 avril 2020
Dell continue d’améliorer ses fonctionnalités d’autodépannage. La section suivante répertorie les mises à jour et améliorations associées aux différentes versions du BIOS.
BIOS 2.1.x : publication initiale de l’article consacré aux fonctionnalités d’autodépannage disponibles à partir de la version 2.1.6 du BIOS, contenant des exemples de messages d’erreur et des actions recommandées.
Modifications du BIOS versions 2.4.x et supérieures (décembre 2019)
Modifications du BIOS 2.5.x et ultérieures (février 2020)
Mis à jour le 10 juillet 2020
Modifications apportées au BIOS 2.7.x et versions supérieures (BIOS en mode bloc de juillet 2020 - ciblé mi-juillet pour la publication sur le Web)
MISE À JOUR : 13 janvier 2021
Modifications apportées au BIOS 2.8.2 et versions supérieures (BIOS en mode bloc, septembre 2020)
Des améliorations supplémentaires apportées aux fonctions RAS sont évaluées pour être incluses dans les futures mises à jour du BIOS.
Cet article sera mis à jour au fur et à mesure que de nouvelles informations seront disponibles.
Voir aussi : Conseils sur le dépannage de la mémoire à l’aide des tests d’échange : Dépannage des erreurs de mémoire sur les systèmes PowerEdge à l’aide des tests
d’échange Téléchargements et pilotes : Pilotes et téléchargements | Dell États-Unis
VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F
19 Apr 2024
15
Solution