Cet article s’applique aux versions VxRail 7.x et VxRail 8.x.
Le bilan de santé vSAN détecte une défaillance du disque, ou vmware-vsan-health-summary-result.log
Trouve physdiskoverall
La santé est rouge ou jaune.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log reports:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
La fonction DDH (Dying Disk Handing) de vSAN diagnostique l’intégrité du disque ou du groupe de disques en détectant une latence d’E/S excessive pour un disque vSAN ou une congestion maximale des logs que vSAN détermine comme étant due à des problèmes de fuite de log dans un groupe de disques vSAN sur une période prolongée. Les disques ou groupes de disques défectueux sont marqués comme tels, et le ou les groupes de disques ne sont plus utilisés pour le nouveau positionnement des données.
Lorsque DDH détecte qu’un disque a dépassé le seuil de latence d’E/S au cours de l’intervalle de surveillance, vSAN génère une observation VMkernel (VOB) et consigne un message sur vsandevicemonitord.log
dans le fichier /var/run/log
. L’entrée de journal ci-dessous est un exemple de disque qui doit être remplacé une fois que l’évacuation des données requise est terminée et que le disque est à l’état d’évacuation :
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
Lorsque DDH détecte qu’un niveau de mise en cache présente un encombrement excessif des logs au cours de l’intervalle de surveillance, vSAN génère un VOB et le consigne sur vsandevicemonitord.log
. Les messages de congestion excessifs des journaux sont au format suivant :
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
Dans ces deux situations, vSAN déclenche l’évacuation d’une partie ou de la totalité des données du ou des groupes de disques concernés. La section Intégrité globale des disques de l’interface utilisateur de surveillance de l’intégrité vSAN signale l’un des états opérationnels suivants pour le ou les groupes de disques concernés, ainsi que des recommandations pour l’utilisateur. Une fois l’évacuation terminée, les recommandations diffèrent selon que vSAN a détecté des latences d’E/S excessives ou un encombrement excessif des logs.
Reportez-vous à l’article VMware 326878, Dead Disk Handling (DDH) in vSAN
Ne retirez pas ou ne remplacez pas un disque dans les situations ci-dessous lorsque la resynchronisation vSAN est en cours. Dans le cas contraire, une perte de données peut survenir.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
ou
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Ne retirez ou ne remplacez pas un disque lorsque l’objet est inaccessible.
« Objet inaccessible » signifie que toutes les copies de l’objet sont manquantes. Si vous retirez ou remplacez un disque, cela peut entraîner une perte de données.
Solution de contournement :
esxcli vsan storage diskgroup unmount -u <disk group UUID> esxcli vsan storage diskgroup mount -u <disk group UUID>