Le bilan de santé du VSAN détecte une défaillance de disque, ou vmware-vsan-health-summary-result.log
L’intégrité globale de PhysDisk est rouge ou jaune.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
La fonction DDH (Dying Disk Handled) de VSAN diagnostique l’intégrité des disques/groupes de disques en détectant soit une latence d’E/S excessive pour un disque vSAN, soit une congestion maximale des logs que vSAN détermine comme étant due à des problèmes de fuite de journaux dans un groupe de disques vSAN sur une période prolongée.
Les disques/groupes de disques défectueux sont marqués comme tels. À ce stade, les disques/groupes de disques ne sont plus utilisés pour le nouveau positionnement des données.
Lorsque DDH détecte qu’un disque a dépassé le seuil de latence d’E/S au cours de l’intervalle de surveillance, vSAN génère une observation VMkernel (VOB) et consigne un message sur vsandevicemonitord.log
dans le fichier /var/run/log
. L’entrée de journal ci-dessous est un exemple de disque qui doit être remplacé une fois que l’évacuation des données requise est terminée et que le disque est à l’état « évacué » :
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
Lorsque DDH détecte qu’un niveau de mise en cache présente un encombrement excessif des logs pendant l’intervalle de surveillance, vSAN génère un VOB et le consigne sur vsandevicemonitord.log
. Les messages de congestion excessifs des journaux sont au format suivant :
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
Dans ces deux situations, vSAN déclenche l’évacuation d’une partie ou de la totalité des données du ou des groupes de disques concernés. La section « Overall disks health » de l’interface utilisateur de surveillance de l’intégrité de vSAN signale l’un des états opérationnels suivants pour les disques/groupes de disques concernés, ainsi que des recommandations pour l’utilisateur. Une fois l’évacuation terminée, les recommandations diffèrent selon que vSAN a détecté des latences d’E/S excessives ou un encombrement excessif des logs.
Consultez l’article de la base de connaissances VMware : https://knowledge.broadcom.com/external/article?legacyId=2148358
Ne retirez pas/ne remplacez pas le disque dans les situations ci-dessous lorsque la resynchronisation vSAN est en cours. Dans le cas contraire, une perte de données peut survenir.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
ou
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Ne retirez pas/ne remplacez pas le disque lorsqu’un objet est inaccessible.
« Objet inaccessible » signifie que toutes les copies de l’objet sont manquantes, si vous retirez/remplacez le disque, cela peut provoquer une perte de données.
Solution de contournement :
Impliquer VMware
Si une latence d’E/S excessive a provoqué un dysfonctionnement du disque capacitif, restaurez le disque en le remontant. Le remontage du disque ne modifie pas l’UUID vSAN du disque.
esxcli vsan storage diskgroup unmount -d <identifier> esxcli vsan storage diskgroup mount -d <identifier>