Symptômes
A verificação de integridade do VSAN encontra uma falha do disco ou o arquivo vmware-vsan-health-summary-result.log encontra a integridade de physdiskoverall em vermelho/amarelo.
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red
Group physicaldisks health : red
Test physdiskoverall health : red
DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid
(Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times.
INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
Cause
O recurso Dying Disk Handling (DDH) da VSAN diagnostica a integridade do disco/grupo de discos detectando latência excessiva de E/S para um disco do vSAN ou congestionamento máximo de logs que o vSAN determina como devido a problemas de vazamento de log em um grupo de discos do vSAN por um longo período.
Discos/grupos de discos degradados são marcados como tal e, neste ponto, os discos/grupos de discos não são mais usados para novo posicionamento de dados.
Quando o DDH detecta que um disco excedeu o limite de latência de E/S durante o intervalo de monitoramento, o vSAN gera uma observação do VMkernel (VOB) e registra uma mensagem para o arquivo vsandevicemonitord.log no diretório /var/run/log. A entrada do log abaixo é um exemplo de disco que precisa ser substituído quando a evacuação de dados obrigatória é concluída e o disco está em um estado "evacuated":
WARNING - WRITE Average Latency on VSAN device has exceeded threshold value us times.
Quando o DDH detecta que um nível de armazenamento em cache tem congestionamento excessivo de logs durante o intervalo de monitoramento, o vSAN gera uma VOB e registra no arquivo vsandevicemonitord.log. Mensagens excessivas de congestionamento de log estão nesse formato:
WARNING - Maximum log congestion on VSAN device /
Em ambas essas situações, o vSAN aciona a evacuação de alguns ou todos os dados dos discos/grupos de discos afetados. A seção "Overall Disks Health" na IU de monitoramento de integridade do vSAN relata qualquer um dos seguintes estados operacionais para os discos/grupos de discos afetados, juntamente com recomendações para o usuário. As recomendações após a conclusão da evacuação serão diferentes, dependendo se o vSAN detectou latências excessivas de E/S ou congestionamento excessivo do log.
Résolution
Consulte a KB da VMware:
https://kb.vmware.com/s/article/2148358?lang=en_us
Não remova/substitua o disco durante as situações abaixo quando a ressincronização do vSAN estiver em andamento. Se você fizer isso, poderá ocorrer perda de dados.
Falha do disco permanente iminente, falha na evacuação de dados devido a recursos insuficientes (estado de integridade — vermelho)
Ou
Falha do disco permanente iminente, falha na evacuação de dados devido a objetos inacessíveis (estado de integridade — vermelho)
Não remova/substitua o disco quando o objeto estiver inacessível.
Objeto inacessível significa todas as cópias do objeto estão ausentes, se você remover/substituir o disco, isso poderá causar DL.
Solução temporária:
- Acione a VMware
- Se a latência excessiva de E/S resultou em degradação na capacidade de disco, recupere o disco remontando-o. Remontar o disco não alterará o UUID do vSAN do disco.
esxcli vsan storage diskgroup unmount -d
esxcli vsan storage diskgroup mount -d
Produits concernés
VMware VSAN