Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

vSAN物理ディスク トラブルシューティング ガイド

Summary: これは、vSANクラスター内の物理ディスクに問題があるかどうかを特定するのに役立つ一般的なトラブルシューティング ガイドです。

This article applies to   This article does not apply to 

Instructions

Web UIからのvSAN物理ディスク ステータスの確認:

vCenter Server Web Clientに接続し、次からディスク ステータスを確認します。

在庫 >ホストとクラスター vSANクラスター >> vSANディスク管理の構成 > 画像1:vSANディスク管理ビュー 影響を受けるホストを選択し、[ディスクの表示]セクションを展開します:画像2:vSAN>ディスク グループ ビュー



vSANディスク管理ビュー vSANディスク グループ ビューここでは、ディスクが次のように検出されているかどうかを確認できます。





Unmounted, 0, Capacity, Permanent Capacity Permanent Disk Failure, Disk Down, Disk Absent, Unhealthy
Unmounted
0 Capacity, Permanent Disk Failure
, Disk Down
,
Disk Absent

, また、vSAN Skyline Healthセクションからトリガーされたディスク関連のアラームを確認します。 
 
在庫 >ホストとクラスター vSANクラスター vSAN>スカイ>ラインの稼働状態>の監視 > 物理ディスク 画像3:>

[Skyline Health]ビュー
スカイライン正常性ビュー
ここでは、次のアラームのいずれかがトリガーされているかどうかを確認できます。

差し迫った永続的なディスク障害です。データを退避させています(正常性状態 - 黄色)。
恒久的なディスク障害の兆候です。リソース不足のためデータ退避に失敗しました(正常性状態 - 赤)。
差し迫った永続的なディスク障害。オブジェクトにアクセスできないため、データ退避に失敗しました(正常性状態 - 赤)。
差し迫った永続的なディスク障害、データ退避の完了(正常性状態 - 黄)
 
また、影響を受けるホストのストレージ デバイス リストからディスク ステータスを確認することもできます。

在庫 >ホストとクラスター vSANクラスター >>が影響を受けたvSAN ESXiホスト > ストレージ ストレージ > デバイスの>

構成 図4: ホスト ストレージ デバイス ビュー
ホスト ストレージ デバイス ビュー
ここでは、ディスク ステータスが次のようになっているかどうかを確認できます。

0 Capacity Disk Absent, Disk

Unmounted

再同期が発生しているかどうかを確認します。 
 
在庫 >ホストおよびクラスターvSAN>クラスター > モニターvSAN >>再同期オブジェクト:画像5:

[Resyncing Objects]ビュー
[Resyncing Objects]ビュー
メモ: 再同期は、影響を受けるディスクまたはディスク グループからデータが退避中であることを示している可能性があります。影響を受けたディスクを取り外しまたは交換する準備ができているかどうかを判断するには、さらに調査する必要があります。

 
vSANオブジェクトのステータスを確認します。

在庫 >ホストとクラスター vSANクラスター >>の監視 > vSAN > Skyline稼働状態>データ >vSANオブジェクトの稼働状態 図6:vSANオブジェクトの稼働

状態ビュー
vSANオブジェクトの稼働状態ビュー
メモ: アクセスできないオブジェクトがないことを確認することが重要です。オブジェクトにアクセスできないとは、「オブジェクトのすべてのコピーが欠落している」ことを意味します。DLの原因となる可能性のあるディスクを取り外したり交換したりする場合。

 
次の手順では、CLIを使用して問題に関する詳細情報を収集し、ログを確認します。CLIからvSAN物理ディスクのステータスを確認する:

影響を受けるホストにSSH経由で接続し、次のコマンドを実行します。


 
vdq -qH
「IsPDL」(永続的なデバイス損失)パラメーターを確認します。1の場合、ディスクは失われます。

Example:
 
DiskResults:
 DiskResult[0]:
 Name: naa.600508b1001c4b820b4d80f9f8acfa95
 VSANUUID: 5294bbd8-67c4-c545-3952-7711e365f7fa
 State: In-use for VSAN
 ChecksumSupport: 0
 Reason: Non-local disk
 IsSSD?: 0
IsCapacityFlash?: 0
 IsPDL?: 0
 <<truncated>>
 DiskResult[18]:
 Name:
 VSANUUID: 5227c17e-ec64-de76-c10e-c272102beba7
 State: In-use for VSAN
 ChecksumSupport: 0
 Reason: None
 IsSSD?: 0
IsCapacityFlash?: 0
 IsPDL?: 1
 
vdq -iH
ディスク グループから欠落しているディスクがあるかどうかを確認します。

Example:
 
Mappings:
DiskMapping[0]:
SSD: naa.58ce38ee2016ffe5
MD: naa.5002538a4819e3e0
 
DiskMapping[2]:
SSD: naa.58ce38ee2016fe55
MD: naa.5002538a48199ca0
MD: naa.5002538a48199e20
MD: naa.5002538a48199e00
 
esxcli vsan storage list
「CMMDS内」パラメーターを確認します。false の場合、ディスクへの通信が失われます。

Example:
 
Device: Unknown
Display Name: Unknown
Is SSD: false
VSAN UUID: 529cadbc-acd1-b588-8643-68336d5512d6
VSAN Disk Group UUID:
VSAN Disk Group Name:
Used by this host: false
In CMMDS: false
On-disk format version: <Unknown>
Deduplication: false
Compression: false
Checksum:
Checksum OK: false
Is Capacity Tier: false
 
for i in `esxcli  storage core device list | grep ^naa` ; do echo $i; esxcli storage core device smart get -d $i; done.
smart getコマンドで読み取り/書き込みエラーを確認します。

Example:
 
naa.55cd2e404c1f35a1
Parameter                   Value  Threshold  Worst  Raw
--------------------------  -----  ---------  -----  ---
Health Status               OK     N/A        N/A    N/A
Media Wearout Indicator     100    0          100    86
Read Error Count            130    39         130    133
Power-on Hours              100    0          100    110
Power Cycle Count           100    0          100    106
Drive Temperature           100    0          100    26
Uncorrectable Sector Count  100    0          100    0
naa.55cd2e404c1f35a5
Parameter                   Value  Threshold  Worst  Raw
--------------------------  -----  ---------  -----  ---
Health Status               OK     N/A        N/A    N/A
Media Wearout Indicator     100    0          100    10
Read Error Count            130    39         130    53
Power-on Hours              100    0          100    110
Power Cycle Count           100    0          100    106
Drive Temperature           100    0          100    27
Uncorrectable Sector Count  100    0          100    0
 
esxcli vsan storage list | grep "VSAN Disk Group UUID:" | sort | uniq -c
使用可能なディスク グループを確認します。

Example:
 
      2    VSAN Disk Group UUID: 5203424c-ee56-497d-75d1-fcf73ae997cb
      2    VSAN Disk Group UUID: 52af8e5c-77d1-b552-3310-ec5fef09edf4
 
while true;do echo " ****************************************** "; echo "" > /tmp/resyncStats.txt ;cmmds-tool find -t DOM_OBJECT -f json |grep uuid |awk -F \" '{print $4}' |while read i;do pendingResync=$(cmmds-tool  find -t DOM_OBJECT -f json -u $i|grep -o "\"bytesToSync\": [0-9]*,"|awk -F " |," '{sum+=$2} END{print sum / 1024 / 1024 / 1024;}');if [ ${#pendingResync} -ne 1 ]; then echo "$i: $pendingResync GiB";fi;done |tee -a /tmp/resyncStats.txt;total=$(cat /tmp/resyncStats.txt |awk '{sum+=$2} END{print sum}');echo "Total: $total GiB" |tee -aa /tmp/resyncStats.txt;total=$(cat /tmp/resyncStats.txt  |grep Total);totalObj=$(cat /tmp/resyncStats.txt|grep -vE " 0 GiB|Total"|wc -l);echo "`date +%Y-%m-%dT%H:%M:%SZ` $total ($totalObj objects)" >> /tmp/totalHistory.txt; echo `date `; sleep 60; done
再同期操作が進行中か停止しているかを確認します。

Example:
 
Total: 0 GiB
Mon Feb 13 17:32:06 UTC 2023

Ctrl+Cを押してコマンドを停止します。
 
cmmds-tool find -f python | grep CONFIG_STATUS -B 4 -A 6 | grep 'uuid\|content' | grep -o 'state\\\":\ [0-9]*' | sort | uniq -c
コンポーネントの状態を確認します。

正常 -- 状態 7
アクセス不可 -- 状態 13
不在または劣化 -- 状態 15
 
例:
 
    425 state\": 7
 
CLIを使用して障害が発生したSSDまたはハード ドライブの場所を特定する方法:
 
使用可能なすべてのデバイスを一覧表示します。
esxcli storage core device list | grep "naa" | awk '{print $1}' | grep "naa"

Example:
 
naa.5000c500852df8d3
naa.55cd2e404c1f35a1
naa.55cd2e404c1f35a5
naa.5000c500852dd5e7

リストから各ディスクnaaを使用して場所を確認します。
esxcli storage core device physical get -d
 
Example:
 
esxcli storage core device physical get -d naa.5000c500852df8d3
esxcli storage core device physical get -d naa.55cd2e404c1f35a1
esxcli storage core device physical get -d naa.55cd2e404c1f35a5
esxcli storage core device physical get -d naa.5000c500852dd5e7
 
   Physical Location: enclosure 65535 slot 0
   Physical Location: enclosure 65535 slot 1
   Physical Location: enclosure 65535 slot 2
   Physical Location: enclosure 65535 slot 3

デバイス名がない場合に障害が発生したハード ドライブまたはSSDを特定する方法:

障害が発生したディスクが検出されず、対応するnaaを使用して識別できない可能性があります。このシナリオでは、すべてのディスクを見つける必要があり、物理的に配置されていないディスクが障害発生ディスクになります。

タスクを少し速く実行するために使用できるスクリプトを次に示します。
echo "=============Physical disks placement=============="
echo ""
esxcli storage core device list | grep "naa" | awk '{print $1}' | grep "naa" | while read in; do
echo "$in"
esxcli storage core device physical get -d "$in"
sleep 1
echo "===================================================="
done

ストレージ関連の問題に関するvSAN関連ログ:
 
/var/log/vmkernel.log
vSANディスク、vSANホストのハートビート、PDL、SCSIセンス コードとI/O要求(読み取り/書き込み)、クラスター メンバーシップ情報の読み取りと書き込みに関する問題。

Example:
 
2021-06-22T12:02:08.408Z cpu30:1001397101)ScsiDeviceIO: PsaScsiDeviceTimeoutHandlerFn:12834: TaskMgmt op to cancel IO succeeded for device naa.55cd2e404b7736d0 and the IO did not complete. WorldId 0, Cmd 0x28, CmdSN = 0x428.Cancelling of IO will be
2021-06-22T12:02:08.408Z cpu30:1001397101)retried.

/var/log/vobd.log
ディスクの健全性、永続的なデバイス喪失ディスク(PDL)、ディスク レイテンシーについてレポートし、ホストがメンテナンス モードを開始および終了したタイミングに関するレポートを作成します。

Example:
 
2022-05-31T11:42:46.065Z: [vSANCorrelator] 10605891965954us: [vob.vsan.lsom.devicerepair] vSAN device 521a74ce-c980-c16c-ff3d-38a036233daf is being repaired due to I/O failures, and will be out of service until the repair is complete. If the device is part of a dedup disk group, the entire disk group will be out of service until the repair is complete.
2022-05-31T11:42:46.065Z: [vSANCorrelator] 10606062774178us: [esx.problem.vob.vsan.lsom.devicerepair] Device 521a74ce-c980-c16c-ff3d-38a036233daf is in offline state and is getting repaired

/var/log/vsandevicemonitord.log
これは、過度のログ輻輳または I/O レイテンシが原因でディスクが異常とマークされたかどうかを判断するのに役立ちます。

Example:
 
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times.
INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy

Affected Products

VMware ESXi 7.x, VMware VSAN

Products

VMware, VMware ESXi 6.7.X