Symptômes
Le bilan de santé vSAN révèle une panne de disque ou vmware-vsan-health-summary-result.log find physdiskoverall health est en rouge/jaune.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red
Group physicaldisks health : red
Test physdiskoverall health : red
DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid
(Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times.
INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
La fonctionnalité DDH (Dying Disk Handling) de VSAN diagnostique l’intégrité du disque/groupe de disques en détectant une latence d’IO excessive pour un disque vSAN ou une congestion maximale des journaux que vSAN détermine comme due à des problèmes de fuite de journal dans un groupe de disques vSAN sur une période prolongée.
Les disques/groupes de disques défectueux sont marqués comme tels et à ce stade, les disques/groupes de disques ne sont plus utilisés pour le nouveau positionnement des données.
Lorsque DDH détecte qu’un disque a dépassé le seuil de latence d’IO au cours de l’intervalle de surveillance, vSAN génère une observation VMkernel (VOB) et consigne un message dans le fichier vsandevicemonitord.log dans le répertoire /var/run/log. L’entrée de journal ci-dessous est un exemple de disque qui doit être remplacé une fois que l’évacuation des données requise est terminée et que le disque est à l’état « évacué » :
WARNING - WRITE Average Latency on VSAN device has exceeded threshold value us times.
Lorsque DDH détecte qu’un niveau de mise en cache présente une congestion excessive des journaux pendant l’intervalle de surveillance, vSAN génère une VOB et se connecte au fichier vsandevicemonitord.log. Les messages de congestion excessifs des journaux sont au format suivant :
WARNING - Maximum log congestion on VSAN device /
Dans les deux cas, vSAN déclenche l’évacuation de certaines ou de toutes les données des disques/groupes de disques concernés. La section « Intégrité globale des disques » de l’interface utilisateur de surveillance de l’intégrité vSAN indique l’un des états opérationnels suivants pour les disques/groupes de disques concernés, ainsi que les recommandations pour l’utilisateur. Les recommandations une fois l’évacuation terminée varient selon que vSAN a détecté des latences d’IO excessives ou une congestion excessive des journaux.
Résolution
Reportez-vous à l’article de la base de connaissances VMware :
https://kb.vmware.com/s/article/2148358?lang=en_us
Ne supprimez pas/ne remplacez pas le disque dans les situations décrites ci-dessous lorsque la resynchronisation vSAN est en cours. Si vous le faites, vous pouvez perdre des données.
Panne imminente de disque permanent, échec de l’évacuation des données en raison de ressources insuffisantes (état d’intégrité - rouge)
Ou
Panne imminente de disque permanent, échec de l’évacuation des données en raison d’objets inaccessibles (état d’intégrité - rouge)
Ne supprimez pas/ne remplacez pas le disque lorsque l’objet n’est pas accessible.
L’objet inaccessible signifie que toutes les copies de l’objet sont manquantes si vous supprimez/remplacez un disque susceptible d’entraîner une DL.
Solution de contournement :
- Contactez VMware.
- Si une latence d’IO excessive a causé un état défectueux du disque de capacité, restaurez le disque en le remontant. Le remontage du disque ne modifie pas l’UUID vSAN du disque.
esxcli vsan storage diskgroup unmount -d
esxcli vsan storage diskgroup mount -d
Produits concernés
VMware VSAN