Le BIOS Dell PowerEdge présente des améliorations continues qui améliorent la messagerie des événements de mémoire, la gestion des erreurs et l’autodépannage déclenché au redémarrage du serveur. Cela permet d’éviter la nécessité d’une fenêtre de maintenance planifiée ou d’une présence sur place pour remplacer un module DIMM de mémoire DDR4 qui enregistrait les événements d’erreur.
Deux principales améliorations du BIOS impliquant une capacité « d’autodépannage » liée à la mémoire ont été mises en œuvre sur les serveurs PowerEdge équipés d’une DDR4 et fonctionnant sous un BIOS de version 2.1.x ou ultérieure. Ces améliorations modifient les étapes/actions qu’il est recommandé de suivre si des événements de mémoire se produisent et sont consignées dans le journal LifeCycle.
Le recyclage de la mémoire, qui se produit au cours du démarrage (au début des étapes de configuration de la mémoire), permet d’optimiser la synchronisation et les marges des signaux pour chaque barrette DIMM/logement afin de garantir un accès optimal. Les caractéristiques de synchronisation et des marges des signaux de la mémoire d’une barrette DIMM peuvent changer pour différentes raisons :
Auparavant, la détection de mises à jour du BIOS ou de modifications de configuration de la mémoire aurait entraîné un recyclage de la mémoire au démarrage suivant. À partir de la version 2.1.x du BIOS, d’autres « déclencheurs » d’erreurs de mémoire corrigibles et non corrigibles ont été ajoutées pour le recyclage planifié :
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Toutes ces erreurs consignées dans les journaux SEL/LifeCycle entraînent la planification d’un nouveau recyclage de la mémoire au prochain redémarrage (à chaud ou à froid). Le BIOS déclenche automatiquement un redémarrage à froid, quelle que soit l’action initiée.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Cette sur plusieurs bits peut entraîner le redémarrage du serveur en raison d’une erreur fatale si le système d’exploitation ne parvient pas à gérer cette erreur. Le recyclage de la mémoire se produit automatiquement au cours de ce démarrage. Si l’erreur sur plusieurs bits se produit dans un emplacement de mémoire non stratégique que le système d’exploitation est en mesure de gérer, un redémarrage doit être planifié.
Le réentraînement de la mémoire pendant l’autotest de démarrage (POST) peut « réparer automatiquement » le module DIMM défaillant et le logement associé en optimisant la synchronisation et les marges des signaux. Avec ces erreurs, il n’est pas nécessaire de remplacer la barrette DIMM, à moins que le recyclage de la mémoire échoue (UEFI0106) au cours du démarrage ou que les mêmes erreurs se produisent.
La deuxième amélioration apportée à la capacité d’autodépannage de la mémoire est la PPR. La PPR répare un emplacement de mémoire défectueux en désactivant l’emplacement ou l’adresse sur la couche matérielle, ce qui permet d’utiliser à la place une ligne de mémoire de réserve. Le nombre exact de lignes de mémoire de secours disponibles dépend de la DRAM et de la taille de la DIMM.
Auparavant, cette fonctionnalité se limitait au processus de fabrication. Tout comme les améliorations apportées au recyclage de la mémoire mentionnées précédemment, il existe certaines erreurs de mémoire corrigibles qui déclenchent la planification d’une PPR sur un logement DIMM spécifique lors du prochain redémarrage (à chaud ou à froid). Le BIOS déclenche automatiquement un redémarrage à froid, quelle que soit l’action initiée. Étant donné que l’opération PPR est planifiée sur un logement de DIMM spécifique, NE modifiez PAS les emplacements des logements DIMM tant que l’opération PPR n’a pas été exécutée. Voici des exemples d’erreurs :
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX." Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Tout événement de ce type dans les journaux entraîne la planification d’une PPR pour le prochain redémarrage (à chaud ou à froid) au début de la phase de configuration de la mémoire.
Après le redémarrage, vérifiez que l’opération PPR a bien été exécutée. Lorsqu’une opération PPR aboutit, vous obtenez un message semblable à ce qui suit :
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
Il n’est pas nécessaire de remplacer la barrette DIMM si vous rencontrez ces erreurs de mémoire corrigibles, sauf si l’opération PPR échoue. Exemple de message en cas d’échec critique de l’opération PPR :
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Un livre blanc (version 1.0) récemment publié décrivant les fonctions de fiabilité, de disponibilité et de facilité de maintenance (RAS) associées aux mémoires des serveurs Dell PowerEdge est désormais disponible. Ce livre blanc décrit les diverses fonctions et fonctionnalités RAS disponibles sur les serveurs PowerEdge : Erreurs de mémoire et fonctionnalités RAS pour les mémoires des serveurs Dell PowerEdge YX4X.
Pour plus d’informations sur les événements de seuil d’erreur corrigibles, voir l’article Serveurs PowerEdge équipés de processeurs Intel 14G et 15G/AMD : mémoire DDR4 : gestion des événements de seuil d’erreur corrigibles (en anglais).
Mis à jour le 24 avril 2020
Dell continue d’améliorer ses fonctionnalités d’autodépannage. La section suivante répertorie les mises à jour et améliorations associées aux différentes versions du BIOS.
BIOS 2.1.x : publication initiale de l’article consacré aux fonctionnalités d’autodépannage disponibles à partir de la version 2.1.6 du BIOS, contenant des exemples de messages d’erreur et des actions recommandées.
Modifications du BIOS versions 2.4.x et supérieures (décembre 2019)
Modifications du BIOS 2.5.x et ultérieures (février 2020)
Mis à jour le vendredi 10 juillet 2020
Modifications apportées au BIOS 2.7.x et versions supérieures (BIOS en mode bloc de juillet 2020 - ciblé mi-juillet pour la publication sur le Web)
MISE À JOUR : 13 janvier 2021
Modifications apportées au BIOS 2.8.2 et versions supérieures (BIOS en mode bloc, septembre 2020)
Des améliorations supplémentaires apportées aux fonctions RAS sont évaluées pour être incluses dans les futures mises à jour du BIOS.
Cet article sera mis à jour lorsque de nouvelles informations seront disponibles.
Téléchargements et pilotes : Pilotes et téléchargements | Dell États-Unis