VSAN 运行状况检查查找磁盘故障,或 vmware-vsan-health-summary-result.log
查找 PhysDisk整体运行状况为红色或黄色。
VxRail-Virtual-SAN-Cluster-xxxxxxxxx Overall Health : red Group physicaldisks health : red Test physdiskoverall health : red DisksWithIssues: Host Disk OverallOperationHealth Metadata Operational InCmmds/Vsi OperationalState Recommendation Uuid (Host-10, LocalToshibaDisk(Naa.50000xxxxxxxxxx), Red, Green, Red, Yes/Yes, ImpendingPermanentDiskFailure,EvacuationFailedDueToInaccessibleObjects, PleaseReferTo'Data'HealthCheckAndResolveTheInaccessibleObjects
vsandevicemonitord.log
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy
VSAN 的消亡磁盘处理 (DDH) 功能通过检测 vSAN 磁盘的过多 I/O 延迟或 vSAN 确定的长时间日志泄漏问题导致的最大日志拥塞来诊断磁盘/磁盘组运行状况。
不正常的磁盘/磁盘组被标记为此类,此时磁盘/磁盘组不再用于新数据放置。
当 DDH 检测到磁盘在监视间隔期间超出 I/O 延迟阈值时,vSAN 会生成 VMkernel 观察 (VOB) 并将消息记录到 vsandevicemonitord.log
文件中的 /var/run/log
目录。下面的日志条目是在完成所需的数据疏散且磁盘处于“已疏散”状态后必须更换的磁盘的示例:
WARNING - WRITE Average Latency on VSAN device <NAA disk name> has exceeded threshold value <IO latency threshold for disk> us <# of intervals with excessive IO latency> times.
当 DDH 在监视间隔期间检测到高速缓存层出现过度日志拥塞时,vSAN 会生成 VOB 并将日志保存到 vsandevicemonitord.log
文件中的命名冲突。日志拥塞过度的消息采用以下格式:
WARNING - Maximum log congestion on VSAN device <NAA disk name> <current intervals with excessive log congestion>/<intervals required to be unhealthy>
在这两种情况下,vSAN 都会触发从受影响的磁盘/磁盘组中撤出部分或全部数据。vSAN 运行状况监视 UI 中的“overall disks health”部分报告受影响磁盘/磁盘组的以下任何操作状态以及针对用户的建议。疏散完成后的建议会有所不同,具体取决于 vSAN 是否检测到过多的 I/O 延迟或过多的日志拥塞。
请参阅 VMware 知识库文章: https://knowledge.broadcom.com/external/article?legacyId=2148358
在以下情况下,当 vSAN 重新同步正在进行时,请勿移除/更换磁盘。如果这样做,可能会发生数据丢失。
Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red)
或
Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red)
当对象无法访问时,请勿卸下/更换磁盘。
对象不可访问意味着,如果您卸下/更换可能导致 DL 的磁盘,则该对象的所有拷贝都将丢失。
解决办法:
与 VMware 接洽
如果过多的 I/O 延迟导致容量磁盘运行状况不佳,请通过重新装载来恢复磁盘。重新装载磁盘不会更改磁盘的 vSAN UUID。
esxcli vsan storage diskgroup unmount -d <identifier> esxcli vsan storage diskgroup mount -d <identifier>