Bij VSAN-healthcheck wordt een schijffout gevonden, of vmware-vsan-health-summary-result.log
Zoek of de algehele status van physdisk rood of geel is.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
De DDH-functie (Dying Disk Handling) van VSAN diagnosticeert de status van de schijf/schijfgroep door overmatige I/O-latentie voor een vSAN-schijf te detecteren of maximale logcongestie die volgens vSAN te wijten is aan loglekproblemen in een vSAN-schijfgroep gedurende een langere periode.
Beschadigde schijven/schijfgroepen zijn als zodanig gemarkeerd en op dit moment worden de schijven/schijfgroepen niet meer gebruikt voor nieuwe dataplaatsing.
Wanneer DDH detecteert dat een schijf de I/O-latentiedrempel heeft overschreden tijdens het bewakingsinterval, genereert vSAN een VMkernel Observation (VOB) en registreert een bericht op de vsandevicemonitord.log
bestand in de /var/run/log
map. De onderstaande logboekvermelding is een voorbeeld van een schijf die moet worden vervangen zodra de vereiste data-evacuatie is voltooid en de schijf zich in de status "geëvacueerd" bevindt:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
Wanneer DDH detecteert dat een cachinglaag tijdens het bewakingsinterval overmatige logdrukte heeft, genereert vSAN een VOB en logboek naar de vsandevicemonitord.log
bestand. Berichten over overmatige logoverbelasting hebben deze indeling:
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
In beide situaties activeert vSAN de evacuatie van sommige of alle data van de betreffende schijf/schijfgroepen. Het gedeelte 'algehele schijfstatus' in de gebruikersinterface voor vSAN-statuscontrole rapporteert een van de volgende operationele statussen voor de betreffende schijven/schijfgroepen, samen met aanbevelingen voor de gebruiker. De aanbevelingen nadat de evacuatie is voltooid, verschillen afhankelijk van of vSAN overmatige I/O-latentie of overmatige logcongestie heeft gedetecteerd.
Zie VMware KB: https://knowledge.broadcom.com/external/article?legacyId=2148358
Verwijder/vervang de schijf niet tijdens de onderstaande situaties waarin vSAN resync bezig is. Als u dat doet, kan er gegevensverlies optreden.
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
Of
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
Verwijder/vervang de schijf niet wanneer het object niet toegankelijk is.
Object ontoegankelijk betekent dat alle kopieën van het object ontbreken. Als u schijf verwijdert/vervangt, kan dat DL veroorzaken.
Tijdelijke oplossing:
Neem contact op met VMware
Als overmatige I/O-latentie ervoor zorgt dat de capaciteitsschijf niet goed werkt, herstelt u de schijf door deze opnieuw te koppelen. Het opnieuw koppelen van de schijf verandert niets aan de vSAN UUID van de schijf.
esxcli vsan storage diskgroup unmount -d <identifier> esxcli vsan storage diskgroup mount -d <identifier>