Des améliorations et améliorations ont été apportées en continu au BIOS Dell PowerEdge afin d’améliorer la messagerie des événements de mémoire, la gestion des erreurs et l’autoréparation qui se produisent lors d’un redémarrage du serveur. Cela évite d’avoir à planifier une fenêtre de maintenance ou une présence sur site pour remplacer une barrette DIMM de mémoire DDR4 qui consignait des événements d’erreur.
Deux principales améliorations du BIOS impliquant une capacité « d’autodépannage » liée à la mémoire ont été mises en œuvre sur les serveurs PowerEdge équipés d’une DDR4 et fonctionnant sous un BIOS de version 2.1.x ou ultérieure. Ces améliorations modifient les étapes ou actions recommandées à effectuer si des événements de mémoire se produisent et sont consignés dans le journal Lifecycle.
Remarque :
- Si vous rencontrez des erreurs de mémoire avec DDR4 sur le BIOS 2.0 ou version antérieure, mettez à jour le BIOS vers la dernière révision qui inclut de nombreuses fonctionnalités d’autoréparation de la mémoire et des améliorations continues. Nous encourageons toujours les clients à effectuer une mise à jour vers la dernière version du BIOS disponible (et celle du firmware iDRAC) afin de bénéficier des dernières améliorations d’autodépannage.
- Les étapes précédentes de dépannage de la mémoire comprenaient le déplacement des barrettes DIMM défectueuses vers un autre logement pour vérifier si les erreurs étaient liées à la barrette DIMM ou restaient sur le logement DIMM. Avec le BIOS version 2.1.x ou supérieure, la première étape recommandée consiste à effectuer un redémarrage (sans déplacer les barrettes DIMM vers un autre logement), Cela permet de laisser les nouvelles améliorations du BIOS s’exécuter de manière à pouvoir éventuellement résoudre les erreurs de DIMM (grâce à la fonction d’autodépannage) sans planifier le remplacement des barrettes DIMM.
1. Améliorations du recyclage de la mémoire
Le recyclage de la mémoire, qui se produit pendant le démarrage (au début des étapes de configuration de la mémoire), optimise la synchronisation et la marginalisation des signaux pour chaque barrette DIMM/logement pour un meilleur accès. Les caractéristiques de synchronisation et de marginalisation des signaux mémoire DIMM peuvent changer au fil du temps pour différentes raisons :
- Modifications apportées à la configuration de la mémoire du serveur
- Modifications du BIOS (code de référence de mémoire - MRC)
- Différentes températures de fonctionnement du serveur ou de la barrette DIMM
- Âge global de la DIMM
Auparavant, la détection de mises à jour du BIOS ou de modifications de configuration de la mémoire aurait entraîné un recyclage de la mémoire au démarrage suivant. À partir de la version 2.1.x du BIOS, d’autres « déclencheurs » d’erreurs de mémoire corrigibles et non corrigibles ont été ajoutées pour le recyclage planifié :
Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Toutes ces erreurs consignées dans les journaux SEL/LifeCycle entraînent la planification d’un nouveau recyclage de la mémoire au prochain redémarrage (à chaud ou à froid). Le BIOS déclenche automatiquement un redémarrage à froid, quelle que soit l’action initiée.
Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."
Cette sur plusieurs bits peut entraîner le redémarrage du serveur en raison d’une erreur fatale si le système d’exploitation ne parvient pas à gérer cette erreur. Le recyclage de la mémoire se produit automatiquement au cours de ce démarrage. Si l’erreur sur plusieurs bits se produit dans un emplacement de mémoire non stratégique que le système d’exploitation est en mesure de gérer, un redémarrage doit être planifié.
Le recyclage de la mémoire pendant le POST peut « autoréparer » le module DIMM défaillant et le logement associé en optimisant la synchronisation et la marginalisation des signaux. Avec ces erreurs, il n’est pas nécessaire de remplacer la barrette DIMM, à moins que le recyclage de la mémoire échoue (UEFI0106) au cours du démarrage ou que les mêmes erreurs se produisent.
2. Réparation post-package (PPR)
La deuxième amélioration de la mémoire « auto-réparatrice » est la PPR. PPR répare un emplacement de mémoire défaillant en désactivant l’emplacement ou l’adresse au niveau de la couche matérielle, ce qui permet d’utiliser une ligne de mémoire de secours à la place. Le nombre exact de lignes de mémoire de secours disponibles dépend de la DRAM et de la taille de la DIMM.
Auparavant, cette fonctionnalité se limitait au processus de fabrication. Comme pour les améliorations apportées au recyclage de la mémoire mentionnées précédemment, il existe certaines erreurs de mémoire corrigibles qui entraînent la planification d’une PPR sur un logement DIMM spécifique pour le prochain redémarrage (à chaud ou à froid). Le BIOS déclenche automatiquement un redémarrage à froid, quelle que soit l’action initiée. Étant donné que l’opération PPR est planifiée sur un logement de DIMM spécifique, NE modifiez PAS les emplacements des logements DIMM tant que l’opération PPR n’a pas été exécutée. Voici des exemples d’erreurs :
Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."
Tous ces événements dans les journaux entraînent la planification de PPR pour le prochain redémarrage (à chaud ou à froid) au début de la phase de configuration de la mémoire.
Remarque : Un MEM8000 d’ID de message (Correctable memory error logging disabled for a memory device at location DIMM_XX.), sans MEM0005/MEM0701/MEM0702 correspondant sur le même emplacement DIMM, n’entraîne pas la planification d’une PPR au prochain redémarrage.
Consultez la mise à jour du 10 juillet 2020 pour connaître les modifications apportées à l’événement MEM8000, ainsi que la version 1.1 mise à jour et le livre blanc plus récent.
Après le redémarrage, vérifiez que l’opération PPR a bien été exécutée. Lorsqu’une opération PPR aboutit, vous obtenez un message semblable à ce qui suit :
MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."
Le remplacement d’un module DIMM pour ces erreurs de mémoire corrigibles n’est pas nécessaire, sauf si l’opération PPR est effectuée. Voici un exemple de message PPR critique défaillant :
UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."
Un livre blanc (version 1.0) récemment publié décrivant les fonctionnalités de fiabilité, de disponibilité et de facilité de maintenance (RAS) liées à la mémoire des serveurs Dell PowerEdge est désormais disponible. Il décrit les différentes fonctionnalités et capacités RAS disponibles sur les serveurs PowerEdge : erreurs de mémoire et fonctionnalités RAS de mémoire du serveur Dell EMC PowerEdge YX4X.
Pour plus d’informations sur les événements de seuil d’erreur corrigibles, voir
l’article Serveurs PowerEdge Intel 14G et Intel/AMD 15G : mémoire DDR4 : gestion des événements de seuil d’erreur corrigibles (en anglais).
Mis à jour le 24 avril 2020
Dell continue d’améliorer ses fonctionnalités d’autodépannage. La section suivante répertorie les mises à jour et améliorations associées aux différentes versions du BIOS.
BIOS 2.1.x : publication initiale de l’article consacré aux fonctionnalités d’autodépannage disponibles à partir de la version 2.1.6 du BIOS, contenant des exemples de messages d’erreur et des actions recommandées.
Modifications du BIOS versions 2.4.x et supérieures (décembre 2019)
- MEM0702 (Correctable error rate exceeded…) : mise à jour du niveau de gravité du message de « critique » à « avertissement ». Mise à jour des actions recommandées pour redémarrer le serveur afin de permettre l’autodépannage, c’est-à-dire la réparation PPR.
- Version de décembre 2019 ou une version plus récente de l’iDRAC à installer pour obtenir le message mis à jour
- Action recommandée : Redémarrez le serveur pour permettre à la PPR de s’exécuter.
- MEM9060 - Description du message mise à jour pour indiquer que l’autodépannage a été effectué avec succès
Modifications du BIOS 2.5.x et ultérieures (février 2020)
- Une option de « Journalisation des erreurs corrigibles » du BIOS a été ajoutée pour permettre aux clients de désactiver toutes les journalisations LifeCycle/SEL liées aux erreurs corrigibles. Toutes les fonctionnalités d’autoréparation continuent de fonctionner, c’est-à-dire que la PPR et le recyclage de la mémoire sont toujours planifiés et exécutés lors du prochain redémarrage (début du processus de configuration de la mémoire).
- Ajout d’erreurs MEM08xx pour les modules RDIMM et LRDIMM en remplacement des messages d’erreur et des actions existants. Les messages d’erreur existants sont toujours utilisés pour les plates-formes qui ne prennent pas en charge les fonctionnalités d’autodépannage.
- Février 2020 ou une version plus récente de l’iDRAC est requis pour la journalisation des nouveaux messages.
Remarque : Sans la mise à jour de l’iDRAC, les nouveaux messages du BIOS sont « inconnus » dans le journal SEL ou le journal LifeCycle.
- MEM0802 - Remplacement de MEM0702 - Correctable error rate exceeded
- Action recommandée : Redémarrez le serveur pour permettre à la PPR de s’exécuter. Confirmez que la PPR a réussi (MEM0802).
- MEM0804 - Remplacement de MEM9060 indiquant que la PPR a réussi. Inclut désormais l’emplacement des logements DIMM qui exécutaient la PPR.
- Action recommandée : Aucune. Cet événement indique qu’une « autoréparation » s’est produite, aucun remplacement de DIMM n’est nécessaire.
- MEM0805 - Remplacement de UEFI0278 indiquant l’échec de la PPR
- Action recommandée : Remettre en place le DIMM en échec
Mis à jour le 10 juillet 2020
Modifications apportées au BIOS 2.7.x et versions supérieures (BIOS en mode bloc de juillet 2020 - ciblé mi-juillet pour la publication sur le Web)
- MEM8000 (journalisation des erreurs corrigibles désactivée) : à partir du BIOS ~2.0.x, les ingénieurs Dell ont modifié le BIOS pour améliorer le taux de détection des erreurs corrigibles susceptibles d’avoir un impact sur les performances. Ce changement a entraîné une augmentation des événements de MEM8000 qui n’ont pas été corroborés par les résultats de l’analyse des défaillances de DIMM. À partir du BIOS 2.7.x, deux modifications sont liées à MEM8000. La première est que la signalisation de l’événement MEM8000 a été modifiée. Deuxièmement, le BIOS planifie l’autodépannage (PPR) pour le prochain redémarrage. Les messages iDRAC ne sont pas encore mis à jour pour refléter les nouvelles actions.
- Action recommandée : Redémarrez le serveur pour permettre l’exécution de l’autodépannage/la PPR. Confirmez que la PPR a réussi (MEM0804).
- MEM0001 (erreur non corrigible) : entraîne la planification de l’autodépannage (PPR) au prochain redémarrage. Les messages iDRAC ne sont pas encore mis à jour pour refléter les nouvelles actions.
- Action recommandée : aucune n’est nécessaire si MEM0001 est associé à une page critique que le système d’exploitation ne parvient pas à restaurer. Il s’agit toujours d’une erreur fatale entraînant un redémarrage. Si le MEM0001 est associé à une page non critique à partir de laquelle le système d’exploitation peut effectuer une restauration, un redémarrage doit être planifié pour que tous les autodépannages (PPR) s’effectuent. Confirmez que la PPR a réussi (MEM0804).
MISE À JOUR : 13 janvier 2021
Modifications apportées au BIOS 2.8.2 et versions supérieures (BIOS en mode bloc, septembre 2020)
- MEM9072 (Erreur non corrigible identifiée par le processus de nettoyage de la mémoire cohérente ; la page n’est pas consommée ou en cours d’utilisation) : entraîne une planification de l’autodépannage (PPR) au prochain redémarrage. Les messages iDRAC ne sont pas encore mis à jour pour refléter les nouvelles actions.
- Action recommandée : planifiez un redémarrage prochainement. Retarder le redémarrage peut entraîner la consommation de la page et ainsi une erreur MEM0001 qui peut conduire à un redémarrage. L’autodépannage de la mémoire (PPR) s’exécute pendant ce redémarrage. Confirmez que la PPR a réussi (MEM0804).
Des améliorations supplémentaires apportées aux fonctions RAS sont évaluées pour être incluses dans les futures mises à jour du BIOS.
Remarque : pour obtenir une description détaillée et les actions recommandées pour des messages de code d’erreur spécifiques, voir le lien suivant :
Recherche (dell.com). Étant donné que les codes d’erreur (tels que MEM0001) s’appliquent à plusieurs générations de serveurs et de plates-formes, les actions recommandées peuvent ne pas être à jour pour la version du BIOS en question. Les nouveaux codes d’erreur ajoutés (tels que MEM0802, MEM0804, MEM0805, etc.) ne s’appliquent qu’aux serveurs équipés de processeurs Intel Xeon Scalable (première ou deuxième génération).
Cet article sera mis à jour au fur et à mesure que de nouvelles informations seront disponibles.
Voir aussi : Conseils sur le dépannage de la mémoire à l’aide des tests d’échange : Dépannage des erreurs de mémoire sur les systèmes PowerEdge à l’aide des tests
d’échange Téléchargements et pilotes : Pilotes et téléchargements | Dell États-Unis