Перевірка стану фізичного диска vSAN з веб-інтерфейсу:
Підключіться до веб-клієнта vCenter Server і перевірте стан диска з:
Інвентаризації > Хост і кластери > vSAN Cluster > Налаштування > керування дисками vSAN >Виберіть уражений хост, а потім розгорніть розділ диска перегляду:
Тут ви можете перевірити, чи виявлено диск як:
Нездоровий
Демонтований
0 Місткість
Постійна відмова
диска
Диск вниз
Диск відсутній
Також перевірте, чи не спрацьовують сигнали тривоги, пов'язані з диском, із розділу vSAN Skyline Health:
Інвентаризації > Хост і кластери > vSAN Cluster > Monitor > vSAN > Skyline Health > Фізичний диск
Тут ви можете перевірити, чи спрацьовує будь-яка з наведених нижче тривог:
Насувається постійна відмова диска, дані евакуюються (Стан здоров'я - Жовтий).
Насувається постійна відмова диска, не вдалося евакуювати дані через нестачу ресурсів (стан здоров'я - червоний).
Насувається постійна відмова диска, не вдалося евакуювати дані через недоступні об'єкти (стан здоров'я - червоний).
Насувається постійна відмова диска, евакуація даних завершена (стан здоров'я - жовтий)
Крім того, ви можете перевірити стан диска зі списку пристроїв зберігання даних відповідного хоста:
Інвентаризації > Хост і кластери vSAN Впливає на кластер >> vSAN Хост > ESXi Налаштуйте > пристрої >
зберігання даних
Тут ви можете перевірити, чи є стан диска:
0 Місткість
Диск відсутній
Диск демонтовано
Перевірте, чи відбувається повторна синхронізація.
Інвентаризації > Хост і кластери > vSAN Cluster > Monitor > vSAN > Повторна синхронізація об'єктів:Примітка:
Повторна синхронізація може вказувати на те, що дані евакуюються з ураженого диска або групи дисків. Необхідне подальше дослідження, щоб визначити, чи готовий уражений диск до видалення/заміни.
Перевірте статус об'єктів vSAN:
Інвентаризації > Хост і кластери > vSAN Cluster > Monitor > vSAN Skyline Health Data > vSAN Здоров'я > об'єкта vSAN >Примітка.
Важливо переконатися, що немає недоступних об'єктів. Об'єкт недоступний означає «відсутні всі копії об'єкта». Якщо ви видалите/заміните диск, це може спричинити DL.
Наступним кроком є збір додаткової інформації про проблему через CLI та перевірку журналів:
Перевірка стану фізичного диска vSAN за командним рядком:
Підключіться через SSH до ураженого хоста та виконайте такі команди:
vdq -qH
Перевірте параметр «IsPDL» (постійна втрата пристрою). Якщо вона дорівнює 1, диск втрачається.
Приклад:
Результати роботи на диску:
DiskResult[0]:
Назва: naa.600508b1001c4b820b4d80f9f8acfa95
VSANUUID: 5294bbd8-67c4-c545-3952-7711e365f7fa
Стан: Використовується для VSAN
ChecksumSupport:
0
Причина: Нелокальний диск
IsSSD?:
0
IsCapacityFlash?:
0
IsPDL?:
0
<<усічений>>
результат диска[18]:
Ім'я:
VSANUUID: 5227C17E-EC64-DE76-C10E-C272102Beba7
Стан: Використовується для VSAN
ChecksumSupport:
0
Причина: Ніхто
IsSSD?:
0
IsCapacityFlash?:
0
IsPDL?:
1
vdq -iH
Перевірити, чи немає диска в групі дисків.
Приклад:
Зіставлення:
DiskMapping[0]:
SSD: naa.58ce38ee2016ffe5
Доктор медичних наук: naa.5002538a4819e3e0
DiskMapping[2]:
SSD: naa.58ce38ee2016fe55
Доктор медичних наук: naa.5002538a48199ca0
Доктор медичних наук: naa.5002538a48199e20
Доктор медичних наук: naa.5002538a48199e00
Список
сховищ ESXCLI VSANПеревірте параметр "In CMMDS". Якщо false, то зв'язок з диском втрачено.
Приклад:
Пристрій: Невідомий
Відображуване ім'я: Невідомий
Чи є SSD: false
VSAN UUID: 529cadbc-acd1-b588-8643-68336d5512d6
UUID групи дисків VSAN:
Ім'я групи дисків VSAN:
Використовується цим хостом: false
У CMMDS: false
Версія формату на диску: <Невідома>
дедуплікація: false
Стиснення: false
Контрольна сума:
Контрольна сума OK: false
Is Capacity Tier:
false
для i в 'esxcli Storage Core Device List | grep ^naa' ; Зробіть відлуння $i; Ядро запам'ятовувального пристрою ESXCLI Smart Get -D $i; done.
Перевірте наявність помилок читання/запису за допомогою команди smart get.
Приклад:
NAA.55CD2E404C1F35A1
Поріг значення параметра Найгірший необроблений
-------------------------- ----- --------- ----- ---
Стан здоров'я OK N/A N/A N/A
Індикатор зносу носіїв 100 0 100 86
Кількість помилок зчитування 130 39 130 133
Годин увімкнення 100 0 100 110
Кількість циклів живлення 100 0 100 106
Температура приводу 100 0 100 26
Кількість секторів, які неможливо виправити: 100 0 100 0
NAA.55CD2E404C1F35A5
Поріг значення параметра Найгірший необроблений
-------------------------- ----- --------- ----- ---
Стан здоров'я OK N/A N/A N/A
Індикатор зносу носіїв 100 0 100 10
Кількість помилок зчитування 130 39 130 53
Годин увімкнення 100 0 100 110
Кількість циклів живлення 100 0 100 106
Температура приводу 100 0 100 27
Кількість секторів, які неможливо виправити: 100 0 100 0
esxcli vsan список сховищ | grep "UUID групи дисків VSAN:" | сортувати | uniq -c
Перевірте наявність доступних груп дисків.
Приклад:
2 UUID групи дисків VSAN: 5203424c-ee56-497d-75d1-fcf73ae997cb
2 UUID групи дисків VSAN: 52af8e5c-77d1-b552-3310-ec5fef09edf4
поки що вірно; робити відлуння « ****************************************** »; echo "" > /tmp/resyncStats.txt ; cmmds-tool find -t DOM_OBJECT -f json |grep uuid |awk -F \" '{print $4}' |while read i;do pendingResync=$(cmmds-tool find -t DOM_OBJECT -f json -u $i|grep -o "\"bytesToSync\": [0-9]*,"|awk -F " |," '{sum+=$2} END{надрукувати суму / 1024 / 1024 / 1024;}'); if [ ${#pendingResync} -ne 1 ]; потім лунає «$i: $pendingResync ГіБ»; фі; done |tee -a /tmp/resyncStats.txt; total=$(cat /tmp/resyncStats.txt |awk '{sum+=$2} END{print sum}'); відлуння "Всього: $total GiB" |tee -aa /tmp/resyncStats.txt; total=$(cat /tmp/resyncStats.txt |grep Total); totalObj=$(cat /tmp/resyncStats.txt|grep -vE " 0 GiB|Всього"|wc -l); echo "'date +%Y-%m-%dT%H:%M:%SZ' $total ($totalObj об'єкти)" >> /tmp/totalHistory.txt; echo 'дата'; сон 60; done
Перевірте, чи є поточні/застряглі операції повторної синхронізації.
Приклад:
Підсумок: 0 ГіБ
Пн лютого 13 17:32:06 UTC 2023
Натисніть комбінацію клавіш Ctrl+C , щоб зупинити команду.
cmmds-tool find -f python | grep CONFIG_STATUS -B 4 -A 6 | grep 'uuid\|content' | grep -o 'стан\\\":\ [0-9]*' | сортувати | uniq -c
Перевірте стан компонентів.
Здоровий -- стан 7
Недоступний -- стан 13
Відсутній/деградований -- стан 15
Приклад:
425 КУпАП України:
7
Як визначити, де знаходиться несправний SSD/HDD через CLI:
Перерахуйте всі доступні пристрої:
Список основних пристроїв сховища ESXCLI | grep "naa" | awk '{print $1}' | grep "naa"
Перевірте розташування за допомогою кожного диска зі списку:
Фізичний пристрій ядра сховища esxcli get -d
Приклад:
NAA.5000C500852DF8D3
NAA.55CD2E404C1F35A1
NAA.55CD2E404C1F35A5
NAA.5000C500852DD5E7
Фізичне розташування: корпус 65535 слот 0
Фізичне розташування: корпус 65535 слот 1
Фізичне розташування: корпус 65535 слот 2
Фізичне розташування: корпус 65535 слот 3
Відповідні журнали vSAN для проблем, пов'язаних зі зберіганням:
/
var/log/vmkernel.log
Проблеми з читанням і записом на диски vSAN, серцебиттям хоста vSAN, PDL, кодами відчуттів SCSI та запитами вводу/виводу (читання/запис), а також інформацією про членство в кластері.
Приклад:
2021-06-22T12:02:08.408Z cpu30:1001397101)ScsiDeviceIO: PsaScsiDeviceTimeoutHandlerFn:12834: TaskMgmt операція по скасуванню вводу-виводу успішна для пристрою naa.55cd2e404b7736d0 і IO не завершився. WorldId 0, Cmd 0x28, CmdSN = 0x428. Скасування IO буде2021-06-22T12
:
02:08.408Z cpu30:1001397101)повторено.
/
var/log/vobd.log
Звіти про справність диска, постійні втрачені диски пристрою (PDL), затримку диска та звіти про те, коли хост переходить у режим обслуговування та виходить із нього.
Приклад:
2022-05-31T11:42:46.065Z: [vSANCorrelator] 10605891965954us: [vob.vsan.lsom.devicerepair] Пристрій vSAN 521a74ce-c980-c16c-ff3d-38a036233daf ремонтується через несправності вводу/виводу та не працюватиме до завершення ремонту. Якщо пристрій належить до групи дисків, уся група дисків не працюватиме до завершення відновлення.
2022-05-31T11:42:46.065Z: [vSANCorrelator] 10606062774178us: [esx.problem.vob.vsan.lsom.devicerepair] Пристрій 521a74ce-c980-c16c-ff3d-38a036233daf перебуває в автономному стані та ремонтується
/var/
log/vsandevicemonitord.log
Це допоможе визначити, чи не було диск позначено несправним через надмірне перевантаження журналу або затримки введення-виведення.
Приклад:
INFO vsandevicemonitord ПОПЕРЕДЖЕННЯ - WRITE Середня затримка на пристрої VSAN naa.50000xxxxxxxx перевищила порогове значення 2000000 us 2 рази.
INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) як нездоровий