メイン コンテンツに進む

Qu’est-ce que l’autodépannage de la mémoire DDR4 sur les serveurs Dell PowerEdge équipés de processeurs Intel Xeon évolutifs

概要: Erreurs de mémoire corrigibles et non corrigibles sur le serveur PowerEdge avec DDR4 et modifications apportées aux étapes de dépannage

この記事は次に適用されます: この記事は次には適用されません: この記事は、特定の製品に関連付けられていません。 すべての製品パージョンがこの記事に記載されているわけではありません。

現象

En quoi consiste « l’autodépannage » de la mémoire DDR4 sur les serveurs Dell PowerEdge équipés de processeurs Intel Xeon Scalable (première ou deuxième génération) avec un BIOS de version 2.1.x ou ultérieure ?

Comment ces fonctions d’autodépannage de la mémoire DDR4 (améliorations du BIOS) modifient-elles les actions recommandées pour le client et le support technique en cas d’erreurs de mémoire survenant sur un serveur ?

Quelles sont les améliorations d’autodépannage dans les versions plus récentes du BIOS ?

原因

Le BIOS Dell PowerEdge présente des améliorations continues qui améliorent la messagerie des événements de mémoire, la gestion des erreurs et l’autodépannage déclenché au redémarrage du serveur. Cela permet d’éviter la nécessité d’une fenêtre de maintenance planifiée ou d’une présence sur place pour remplacer un module DIMM de mémoire DDR4 qui enregistrait les événements d’erreur.

解決方法

Deux principales améliorations du BIOS impliquant une capacité « d’autodépannage » liée à la mémoire ont été mises en œuvre sur les serveurs PowerEdge équipés d’une DDR4 et fonctionnant sous un BIOS de version 2.1.x ou ultérieure. Ces améliorations modifient les étapes/actions qu’il est recommandé de suivre si des événements de mémoire se produisent et sont consignées dans le journal LifeCycle.

Remarque :
  • si vous rencontrez des erreurs de mémoire avec votre DDR4 sur une version 2.0 ou inférieure du BIOS, mettez à jour le BIOS vers la dernière version pour y intégrer les nombreuses fonctionnalités et améliorations d’autodépannage de la mémoire. Nous encourageons toujours les clients à effectuer une mise à jour vers la dernière version du BIOS disponible (et celle du firmware iDRAC) afin de bénéficier des dernières améliorations d’autodépannage.
  • Les étapes de dépannage de la mémoire précédentes consistaient à déplacer les barrettes DIMM défectueuses vers un autre logement pour vérifier si les erreurs étaient liées à la barrette DIMM ou au logement DIMM. Avec le BIOS version 2.1.x ou supérieure, la première étape recommandée consiste à effectuer un redémarrage (sans déplacer les barrettes DIMM vers un autre logement), Cela permet de laisser les nouvelles améliorations du BIOS s’exécuter de manière à pouvoir éventuellement résoudre les erreurs de DIMM (grâce à la fonction d’autodépannage) sans planifier le remplacement des barrettes DIMM.

1. Améliorations du recyclage de la mémoire

Le recyclage de la mémoire, qui se produit au cours du démarrage (au début des étapes de configuration de la mémoire), permet d’optimiser la synchronisation et les marges des signaux pour chaque barrette DIMM/logement afin de garantir un accès optimal. Les caractéristiques de synchronisation et des marges des signaux de la mémoire d’une barrette DIMM peuvent changer pour différentes raisons :

  • Modifications apportées à la configuration de la mémoire du serveur
  • Modifications du BIOS (code de référence de mémoire - MRC)
  • Différentes températures de fonctionnement du serveur ou de la barrette DIMM
  • Âge global de la DIMM

Auparavant, la détection de mises à jour du BIOS ou de modifications de configuration de la mémoire aurait entraîné un recyclage de la mémoire au démarrage suivant. À partir de la version 2.1.x du BIOS, d’autres « déclencheurs » d’erreurs de mémoire corrigibles et non corrigibles ont été ajoutées pour le recyclage planifié :

Warning - MEM0701 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Toutes ces erreurs consignées dans les journaux SEL/LifeCycle entraînent la planification d’un nouveau recyclage de la mémoire au prochain redémarrage (à chaud ou à froid). Le BIOS déclenche automatiquement un redémarrage à froid, quelle que soit l’action initiée.

Critical - MEM0001 - "Multi-bit memory errors detected on memory device at location DIMM_XX."

 

Cette sur plusieurs bits peut entraîner le redémarrage du serveur en raison d’une erreur fatale si le système d’exploitation ne parvient pas à gérer cette erreur. Le recyclage de la mémoire se produit automatiquement au cours de ce démarrage. Si l’erreur sur plusieurs bits se produit dans un emplacement de mémoire non stratégique que le système d’exploitation est en mesure de gérer, un redémarrage doit être planifié.

Le réentraînement de la mémoire pendant l’autotest de démarrage (POST) peut « réparer automatiquement » le module DIMM défaillant et le logement associé en optimisant la synchronisation et les marges des signaux. Avec ces erreurs, il n’est pas nécessaire de remplacer la barrette DIMM, à moins que le recyclage de la mémoire échoue (UEFI0106) au cours du démarrage ou que les mêmes erreurs se produisent.
 

2. PPR (Post Package Repair)

La deuxième amélioration apportée à la capacité d’autodépannage de la mémoire est la PPR. La PPR répare un emplacement de mémoire défectueux en désactivant l’emplacement ou l’adresse sur la couche matérielle, ce qui permet d’utiliser à la place une ligne de mémoire de réserve. Le nombre exact de lignes de mémoire de secours disponibles dépend de la DRAM et de la taille de la DIMM.

Auparavant, cette fonctionnalité se limitait au processus de fabrication. Tout comme les améliorations apportées au recyclage de la mémoire mentionnées précédemment, il existe certaines erreurs de mémoire corrigibles qui déclenchent la planification d’une PPR sur un logement DIMM spécifique lors du prochain redémarrage (à chaud ou à froid). Le BIOS déclenche automatiquement un redémarrage à froid, quelle que soit l’action initiée. Étant donné que l’opération PPR est planifiée sur un logement de DIMM spécifique, NE modifiez PAS les emplacements des logements DIMM tant que l’opération PPR n’a pas été exécutée. Voici des exemples d’erreurs :

Warning - MEM0701- "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0702 - "Correctable memory error rate exceeded for DIMM_XX."
Critical - MEM0005 - "Persistent correctable memory error limit reached for a memory device at location XX."

 

Tout événement de ce type dans les journaux entraîne la planification d’une PPR pour le prochain redémarrage (à chaud ou à froid) au début de la phase de configuration de la mémoire.

Remarque : Un ID de message MEM8000 (journalisation des erreurs de mémoire corrigibles désactivée pour un appareil de mémoire à l’emplacement DIMM_XX.), sans MEM0005/MEM0701/MEM0702 correspondant sur le même emplacement DIMM, n’entraîne pas la planification d’une PPR pour le prochain redémarrage.

Reportez-vous à la mise à jour du 10 juillet 2020 pour connaître les modifications concernant l’événement MEM8000 et la mise à jour de la version 1.1 et du livre blanc le plus récent.

Après le redémarrage, vérifiez que l’opération PPR a bien été exécutée. Lorsqu’une opération PPR aboutit, vous obtenez un message semblable à ce qui suit :

MEM9060 - "The Post Package Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier."


Il n’est pas nécessaire de remplacer la barrette DIMM si vous rencontrez ces erreurs de mémoire corrigibles, sauf si l’opération PPR échoue. Exemple de message en cas d’échec critique de l’opération PPR :

UEFI0278 - "Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X."

 

Un livre blanc (version 1.0) récemment publié décrivant les fonctions de fiabilité, de disponibilité et de facilité de maintenance (RAS) associées aux mémoires des serveurs Dell PowerEdge est désormais disponible. Ce livre blanc décrit les diverses fonctions et fonctionnalités RAS disponibles sur les serveurs PowerEdge : Erreurs de mémoire et fonctionnalités RAS pour les mémoires des serveurs Dell PowerEdge YX4X.

Pour plus d’informations sur les événements de seuil d’erreur corrigibles, voir l’article Serveurs PowerEdge équipés de processeurs Intel 14G et 15G/AMD : mémoire DDR4 : gestion des événements de seuil d’erreur corrigibles (en anglais).

Mis à jour le 24 avril 2020

Dell continue d’améliorer ses fonctionnalités d’autodépannage. La section suivante répertorie les mises à jour et améliorations associées aux différentes versions du BIOS.

BIOS 2.1.x : publication initiale de l’article consacré aux fonctionnalités d’autodépannage disponibles à partir de la version 2.1.6 du BIOS, contenant des exemples de messages d’erreur et des actions recommandées.

Modifications du BIOS versions 2.4.x et supérieures (décembre 2019)

  • MEM0702 (Correctable error rate exceeded…) : mise à jour du niveau de gravité du message de « critique » à « avertissement ». Mise à jour des actions recommandées pour redémarrer le serveur afin de permettre l’autodépannage, c’est-à-dire la réparation PPR.
    • Version de décembre 2019 ou une version plus récente de l’iDRAC à installer pour obtenir le message mis à jour
    • Action recommandée : Redémarrez le serveur pour permettre à la PPR de s’exécuter.
  • MEM9060 - Description du message mise à jour pour indiquer que l’autodépannage a été effectué avec succès

Modifications du BIOS 2.5.x et ultérieures (février 2020)

  • Une option de « Journalisation des erreurs corrigibles » du BIOS a été ajoutée pour permettre aux clients de désactiver toutes les journalisations LifeCycle/SEL liées aux erreurs corrigibles. Toutes les fonctionnalités d’autodépannage continuent de fonctionner, c’est-à-dire que la PPR et le recyclage de la mémoire sont toujours planifiés et exécutés lors du prochain redémarrage (début du processus de configuration de la mémoire).
  • Ajout d’erreurs MEM08xx pour les modules RDIMM et LRDIMM en remplacement des messages d’erreur et des actions existants. Les messages d’erreur existants sont toujours utilisés pour les plates-formes qui ne prennent pas en charge les fonctionnalités d’autodépannage.
    • La version de février 2020 ou version ultérieure d’iDRAC est requise pour les nouveaux messages à journaliser.
Remarque : si l’iDRAC n’est pas mis à jour, les nouveaux messages du BIOS indiquent la mention « unknown » dans les journaux SEL/LifeCycle.
  • MEM0802 - Remplacement de MEM0702 - Correctable error rate exceeded
    • Action recommandée : Redémarrez le serveur pour permettre à la PPR de s’exécuter. Confirmez que la PPR a réussi (MEM0802).
  • MEM0804 - Remplacement de MEM9060 indiquant que la PPR a réussi. Inclut désormais l’emplacement des logements DIMM qui exécutaient la PPR.
    • Action recommandée : Aucune, l’événement indique qu’un « autodépannage » s’est produit, aucun remplacement de module DIMM n’est nécessaire.
  • MEM0805 - Remplacement de UEFI0278 indiquant l’échec de la PPR
    • Action recommandée : Remettre en place le DIMM en échec

Mis à jour le vendredi 10 juillet 2020

Modifications apportées au BIOS 2.7.x et versions supérieures (BIOS en mode bloc de juillet 2020 - ciblé mi-juillet pour la publication sur le Web)

  • MEM8000 (Journalisation des erreurs corrigibles désactivée) - À partir du BIOS ~2.0.x, les services techniques Dell ont modifié le BIOS pour améliorer le taux de détection des erreurs corrigibles susceptibles d’affecter les performances. Cette modification a entraîné une augmentation des événements MEM8000 qui n’étaient pas corroborés par les résultats de l’analyse de défaillance de barrette DIMM. À partir du BIOS 2.7.x, deux modifications sont liées à MEM8000. La première est que le signal de l’événement MEM8000 a été modifié. Deuxièmement, le BIOS planifie l’autodépannage (PPR) pour le prochain redémarrage. Les messages iDRAC ne sont pas encore mis à jour pour refléter les nouvelles actions.
    • Action recommandée : Redémarrez le serveur pour permettre l’exécution de l’autodépannage/la PPR. Confirmez que la PPR a réussi (MEM0804).
  • MEM0001 (erreur non corrigible) : entraîne une planification de l’autodépannage (PPR) au prochain redémarrage. Les messages iDRAC ne sont pas encore mis à jour pour refléter les nouvelles actions.
    • Action recommandée : aucune n’est nécessaire si MEM0001 est associé à une page critique que le système d’exploitation ne parvient pas à restaurer. Il s’agit toujours d’une erreur fatale entraînant un redémarrage. Si le MEM0001 est associé à une page non critique à partir de laquelle le système d’exploitation peut effectuer une restauration, un redémarrage doit être planifié pour que tous les autodépannages (PPR) s’effectuent. Confirmez que la PPR a réussi (MEM0804).

MISE À JOUR : 13 janvier 2021

Modifications apportées au BIOS 2.8.2 et versions supérieures (BIOS en mode bloc, septembre 2020)

  • MEM9072 (Erreur non corrigible identifiée par le processus de nettoyage de la mémoire. La page n’est pas consommée ou en cours d’utilisation) : entraîne une planification de l’autodépannage (PPR) au prochain redémarrage. Les messages iDRAC ne sont pas encore mis à jour pour refléter les nouvelles actions.
    • Action recommandée : planifiez un redémarrage prochainement. Retarder le redémarrage peut entraîner la consommation de la page et ainsi une erreur MEM0001 qui peut conduire à un redémarrage.  L’autodépannage de la mémoire (PPR) s’exécute pendant ce redémarrage. Confirmez que la PPR a réussi (MEM0804).
Remarque : la dernière version du livre blanc technique (version 1.3 - date de publication le 20 novembre 2020) est disponible à l’adresse suivante :  https://downloads.dell.com/manuals/common/dellemc_poweredge_yx4x_memoryras.pdf
Pour du contenu Intel Xeon E et AMD EPYC, voir le livre blanc technique d’origine (version 1.0), disponible à l’adresse suivante : Livre blanc RAS sur la mémoire serveur PowerEdge YX4X v1.0 (dell.com)

Des améliorations supplémentaires apportées aux fonctions RAS sont évaluées pour être incluses dans les futures mises à jour du BIOS.

 
Remarque : pour obtenir une description détaillée et les actions recommandées pour des messages de code d’erreur spécifiques, voir le lien suivant : Recherche (dell.com). Étant donné que les codes d’erreur (tels que MEM0001) s’appliquent à plusieurs générations de serveurs et de plateformes, les actions recommandées peuvent ne pas être à jour pour la version du BIOS concernée. Les nouveaux codes d’erreur ajoutés (tels que MEM0802, MEM0804, MEM0805, etc.) s’appliquent uniquement aux serveurs équipés de processeurs Intel Xeon Scalable (première ou deuxième génération).

 

Cet article sera mis à jour lorsque de nouvelles informations seront disponibles.


Téléchargements et pilotes : Pilotes et téléchargements | Dell États-Unis

対象製品

Dell EMC XC Series XC6420 Appliance, Dell EMC XC Core 6420 System, OEMR R640, OEMR R740xd2, PowerEdge C6420, PowerEdge FC640, PowerEdge M640, PowerEdge MX740C, PowerEdge R440, PowerEdge R540, PowerEdge R640, PowerEdge R740, PowerEdge R740XD , PowerEdge R740XD2, PowerEdge R940, PowerEdge T440, Dell EMC vSAN C6420 Ready Node ...

製品

PowerFlex rack, VxFlex Ready Nodes, PowerFlex Appliance, PowerFlex custom node, ScaleIO, PowerFlex appliance Intelligent Catalog Software, PowerFlex appliance R650, PowerFlex appliance R6525, PowerFlex appliance R660, PowerFlex appliance R6625 , Powerflex appliance R750, PowerFlex appliance R760, PowerFlex appliance R7625, PowerFlex custom node, PowerFlex custom node R650, PowerFlex custom node R6525, PowerFlex custom node R660, PowerFlex custom node R6625, PowerFlex custom node R750, PowerFlex custom node R760, PowerFlex custom node R7625, PowerFlex rack connectivity, PowerFlex rack HW, PowerFlex rack RCM Software, PowerFlex Software, VxFlex Ready Node, VxFlex Ready Node R640, VxFlex Ready Node R740xd, PowerFlex appliance R640, PowerFlex appliance R740XD, PowerFlex appliance R7525, PowerFlex appliance R840, VxFlex Ready Node R840, VxRail 460 and 470 Nodes, VxRail E560F, VxRail P570, VxRail P570F, VxRail S570, VxRail V570F ...
文書のプロパティ
文書番号: 000053203
文書の種類: Solution
最終更新: 03 2月 2025
バージョン:  21
質問に対する他のDellユーザーからの回答を見つける
サポート サービス
お使いのデバイスがサポート サービスの対象かどうかを確認してください。