Symptômes
Il controllo integrità vSAN individua un guasto del disco oppure il file vmware-vsan-health-summary-result.log indica che il valore di physdiskoverall health è red/yellow.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red
Group physicaldisks health : red
Test physdiskoverall health : red
DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid
(Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times.
INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
La funzione Dying Disk Handling (DDH) di vSAN diagnostica l'integrità dei dischi o dei gruppi di dischi rilevando una latenza di IO eccessiva per un disco vSAN o la congestione massima del registro che vSAN riconduce a problemi di perdita del registro in un gruppo di dischi vSAN per un periodo prolungato.
I dischi/gruppi di dischi non integri vengono contrassegnati come tali e a questo punto non vengono più utilizzati per il posizionamento dei nuovi dati.
Quando DDH rileva che un disco ha superato la soglia di latenza di IO durante l'intervallo di monitoraggio, vSAN genera un evento VOB (VMkernel Observation) e registra un messaggio nel file vsandevicemonitord.log all'interno della directory /var/run/log. La voce di registro riportata di seguito è un esempio di un disco che deve essere sostituito quando viene completata l'evacuazione dei dati richiesta e il disco si trova in uno stato "evacuated":
WARNING - WRITE Average Latency on VSAN device has exceeded threshold value us times.
Quando DDH rileva che un tier di memorizzazione nella cache presenta una congestione eccessiva del registro durante l'intervallo di monitoraggio, vSAN genera un evento VOB e registra un messaggio nel file vsandevicemonitord.log. I messaggi di congestione del registro eccessivi sono in questo formato:
WARNING - Maximum log congestion on VSAN device /
In entrambi gli scenari, vSAN attiva l'evacuazione di alcuni o tutti i dati dai dischi/gruppi di dischi interessati. La sezione "overall disks health" nell'interfaccia utente di monitoraggio dell'integrità di vSAN riporta uno dei seguenti stati operativi per i dischi/gruppi di dischi interessati, insieme ad alcuni suggerimenti per l'utente. I suggerimenti dopo il completamento dell'evacuazione variano a seconda che vSAN abbia rilevato troppe latenze di IO o un'eccessiva congestione del registro.
Résolution
Fare riferimento all'articolo della KB di VMware:
https://kb.vmware.com/s/article/2148358?lang=en_us
Non rimuovere/sostituire il disco nelle situazioni riportate di seguito quando la risincronizzazione di vSAN è in corso. In caso contrario, potrebbe verificarsi una perdita di dati.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
Or
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Non rimuovere/sostituire il disco quando l'oggetto non è accessibile.
Object inaccessible means all copies of the object missing, if you remove/replace disk that may cause DL.
Soluzione alternativa:
- Contattare VMware
- Se un'eccessiva latenza di IO ha causato lo stato di non integrità del disco di capacità, ripristinare il disco eseguendo nuovamente il mount. Il nuovo mount del disco non ne modificherà l'UUID vSAN.
esxcli vsan storage diskgroup unmount -d
esxcli vsan storage diskgroup mount -d
Produits concernés
VMware VSAN