VxFlex-IR : erreurs de mémoire ECC corrigibles sur les modules DIMM des serveurs PowerEdge

摘要: Le serveur Dell 13G/14G publie des erreurs MEMXXXX dans le journal des événements iDRAC. Cet événement peut être à l’origine du blocage du nœud ou d’une exception MCE. Que devez-vous faire ? ...

本文适用于本文不适用于本文并非针对某种特定的产品。本文并非包含所有产品版本。

症状

Votre nœud 13G ou 14G signale des erreurs MEM dans le journal des événements iDRAC.

Que pouvez-vous faire pour résoudre le problème sans effectuer de remplacement matériel ou planifier une visite CE ?

Qu’est-ce que la fonction d’auto-dépannage DDR4 ?
Comment ces fonctions d’auto-réparation DDR4 (améliorations du BIOS) modifient-elles les actions recommandées du client et de support technique en cas d’erreurs de mémoire sur un serveur ?

Deux principales améliorations du BIOS ont été introduites dans les serveurs PowerEdge équipés d’une mémoire DDR4 exécutant les versions 2.1.x et ultérieures du BIOS. Ces améliorations portent sur la fonction d’auto-dépannage de la mémoire. Elles modifient les étapes/actions qu’il est recommandé de suivre si des erreurs de mémoire se produisent et sont consignées dans le journal vCenter, VxFM, Dial Home ou LifeCycle.

Remarque : si vous rencontrez des erreurs de mémoire avec votre DDR4 alors que vous utilisez une version 2.0 ou antérieure du BIOS, veuillez mettre à jour le BIOS vers la dernière version pour y intégrer les améliorations d’auto-dépannage de la mémoire. Redémarrez ensuite votre nœud pour passer à l’étape de la PPR. Reportez-vous à la section Résolution pour plus d’informations

.Remarque : Les procédures actuelles de dépannage de la mémoire supposent de déplacer les barrettes DIMM défectueuses vers un autre logement afin de vérifier si les erreurs de DIMM suivent ou non le logement DIMM.

Si le nœud 13G exécute le BIOS version 2.8.x ou ultérieure, la première étape recommandée consiste à effectuer un redémarrage (sans déplacer les barrettes de mémoire DIMM vers un autre emplacement) en laissant les nouvelles améliorations du BIOS s’exécuter de manière à pouvoir éventuellement résoudre les erreurs de DIMM (grâce à la fonction d’auto-dépannage) sans avoir à remplacer les barrettes DIMM.

Si le nœud 14G exécute le BIOS version 2.4.8 ou ultérieure, la première étape recommandée consiste à effectuer un redémarrage (sans déplacer les barrettes DIMM vers un autre emplacement) en laissant les nouvelles améliorations du BIOS s’exécuter de manière à pouvoir éventuellement résoudre les erreurs de DIMM (grâce à la fonction d’autodépannage) sans avoir à remplacer les barrettes DIMM.

原因

Les erreurs de mémoire ECC sont, dans la plupart des cas, provoquées par un bombardement aléatoire de particules alpha. Les particules alpha font partie des rayonnements habituels observés quotidiennement. Mais il arrive parfois qu’une particule alpha entraîne l’éjection d’un électron hors d’un module mémoire, provoquant ainsi une corruption des données. Les modules mémoire modernes sont conçus pour identifier ces phénomènes et les réparer. Chaque module conserve un compteur interne qui indiquant le nombre de fois où une erreur de mémoire a été réparée. Dans le BIOS, un certain seuil est défini ; une fois ce seuil atteint, le système signale au serveur que le nombre d’événements mémoire a dépassé ce seuil.

解决方案

Mettez à niveau le BIOS (à la version 2.8.x ou supérieure pour des systèmes 13G ou à la version 2.1.x ou supérieure pour des systèmes 14G) afin d’activer les améliorations de recyclage de la mémoire pour les serveurs équipés d’une RAM DDR4. Le recyclage de la mémoire qui intervient au moment du démarrage permet d’optimiser la synchronisation/la marge de signaux pour chaque DIMM/logement afin d’en améliorer l’accès. Les caractéristiques de synchronisation d’un module DIMM peuvent varier pour différentes raisons.

Par exemple :
1. Modifications apportées à la configuration de la mémoire du serveur
2. Modifications du BIOS
3. Différentes températures de fonctionnement du serveur ou du module DIMM
4. Âge général du module DIMM

Auparavant, la détection de mises à jour du BIOS ou de modifications de configuration de la mémoire aurait entraîné un recyclage de la mémoire au démarrage suivant. À partir des versions 2.1.x (14G) et 2.8.x (13G) du BIOS, d’autres « déclencheurs » d’erreurs de mémoire corrigibles et non corrigibles ont été ajoutées pour les nouveaux recyclages planifiés :

Avertissement - MEM0701 - « Correctable memory error rate exceeded for DIMM_XX ».
Critique - MEM0702 - « Correctable memory error rate exceeded for DIMM_XX ».
Critique - MEM0005 - « Persistent correctable memory error limit reached for a memory device at location(s) XX ».

Si l’une des erreurs ci-dessus est consignée dans les journaux des événements VC/Dial Home/SEL/LifeCycle, un recyclage de la mémoire sera planifié au prochain redémarrage (à chaud ou à froid). Le BIOS lancera automatiquement un redémarrage à froid, quel que soit le mode de déclenchement.

Critique - MEM0001 - « Multi-bit memory errors detected on memory device at location(s) DIMM_XX ».

MEM0001 entraîne le redémarrage du serveur en raison d’une erreur fatale. Un recyclage de la mémoire est automatiquement effectué au cours de ce redémarrage.

Avec ces erreurs de mémoire (sur plusieurs bits), qu’elles soient corrigibles ou non, le recyclage de mémoire qui intervient lors du redémarrage peut contribuer à réparer automatiquement la barrette DIMM défectueuse en optimisant la synchronisation/les marges des signaux pour chaque barrette DIMM/logement. Avec ces erreurs, il n’est pas nécessaire de remplacer la barrette DIMM, à moins que le recyclage de la mémoire échoue (UEFI0106) au cours du démarrage ou que les mêmes erreurs se produisent.

2. Réparation post-package (PPR) : la deuxième amélioration apportée à la capacité d’auto-dépannage de la mémoire permet de réparer un emplacement de mémoire défectueux sur une barrette DIMM en désactivant l’emplacement/l’adresse sur la couche matérielle, ce qui permet d’utiliser à la place une ligne de mémoire de réserve. Le nombre exact de lignes de mémoire de secours disponibles dépend du périphérique DRAM et de la taille de la barrette DIMM.
Auparavant, cette fonctionnalité était limitée au processus de fabrication. Tout comme les améliorations apportées au recyclage de mémoire mentionnées précédemment, il existe certaines erreurs de mémoire corrigibles qui déclenchent la planification d’une PPR sur un logement DIMM spécifique lors du prochain redémarrage (à chaud ou à froid). Le BIOS déclenchera automatiquement un redémarrage à froid, quelle que soit l’action initiée. Étant donné que l’opération PPR est planifiée sur un logement de DIMM spécifique, NE modifiez PAS les emplacements des logements DIMM tant que l’opération PPR n’a pas été exécutée. Vous trouverez ci-dessous des exemples d’erreurs :

Avertissement - MEM0701 - « Correctable memory error rate exceeded for DIMM_XX. »
Critique - MEM0702 - « Correctable memory error rate exceeded for DIMM_XX ».
Critique - MEM0005 - « Persistent correctable memory error limit reached for a memory device at location(s) XX ».

Si l’une des erreurs ci-dessus est consignée dans les journaux des événements VC/Dial Home/SEL/LifeCycle, une réparation post-package (PPR) sera planifiée au prochain redémarrage (à chaud ou à froid).

Après le redémarrage, vérifiez que l’opération PPR a bien été effectuée. Exemple d’opération PPR réussie :

ID de message MEM9060 - « The PostPackage Repair operation is successfully completed on the Dual In-line Memory Module (DIMM) device that was failing earlier ».
Pour ces erreurs de mémoire corrigibles, il n’est pas nécessaire de remplacer la barrette DIMM, sauf si l’opération PPR échoue après le redémarrage. Exemple de message d’échec de l’opération PPR :
Critical - ID de message UEFI0278 - « Unable to complete the Post Package Repair (PPR) operation because of an issue in the DIMM memory slot X ».

其他信息

Remarque : si vous rencontrez le message MEM8000 (la journalisation des erreurs de mémoire corrigibles est désactivée pour un périphérique de mémoire à l’emplacement DIMM_XX) de façon isolée (c’est-à-dire, à un autre moment) par rapport aux messages MEM0005/MEM0701/MEM0702 correspondants, aucune PPR ne sera planifiée au prochain redémarrage.

L’ID de message MEM8000, lorsqu’il est isolé ou associé à une MCE (Machine Check Exception) correspondante, indique une défaillance générale du module DIMM, et non un débordement des buckets corrigibles ou non corrigibles. Ce type d’événement de mémoire doit être traité comme une défaillance du module DIMM, lequel doit être remplacé dans les meilleurs délais par le client.

受影响的产品

VxFlex Product Family

产品

VxFlex Product Family

文章编号: 000058157

文章类型: Solution

上次修改时间: 02 12月 2024

版本: 5

VxFlex-IR : erreurs de mémoire ECC corrigibles sur les modules DIMM des serveurs PowerEdge

摘要: Le serveur Dell 13G/14G publie des erreurs MEMXXXX dans le journal des événements iDRAC. Cet événement peut être à l’origine du blocage du nœud ou d’une exception MCE. Que devez-vous faire ? ...

症状

原因

解决方案

其他信息

受影响的产品

产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

欢迎

欢迎访问戴尔

VxFlex-IR : erreurs de mémoire ECC corrigibles sur les modules DIMM des serveurs PowerEdge

摘要: Le serveur Dell 13G/14G publie des erreurs MEMXXXX dans le journal des événements iDRAC. Cet événement peut être à l’origine du blocage du nœud ou d’une exception MCE. Que devez-vous faire ? ... 扩大查看范围 缩小查看范围

详细文章

症状

原因

解决方案

其它信息

受影响的产品

症状

原因

解决方案

其他信息

受影响的产品

产品

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

文章属性

从其他戴尔用户那里查找问题的答案

支持服务

摘要: Le serveur Dell 13G/14G publie des erreurs MEMXXXX dans le journal des événements iDRAC. Cet événement peut être à l’origine du blocage du nœud ou d’une exception MCE. Que devez-vous faire ? ...