Посібник з усунення несправностей фізичного диска vSAN
Це загальний посібник з усунення несправностей, який допоможе визначити, чи є проблема з фізичним диском у кластерах vSAN.
Summary:Це загальний посібник з усунення несправностей, який допоможе визначити, чи є проблема з фізичним диском у кластерах vSAN.
This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.
Article Content
Instructions
Перевірка стану фізичного диска vSAN з веб-інтерфейсу:
Підключіться до веб-клієнта vCenter Server і перевірте стан диска з: Інвентаризації > Хост і кластери > vSAN Cluster > Налаштування > керування дисками vSAN >Виберіть уражений хост, а потім розгорніть розділ диска перегляду:Тут ви можете перевірити, чи виявлено диск як:
Нездоровий Демонтований 0 Місткість Постійна відмова дискаДиск вниз Диск відсутній Також перевірте, чи не спрацьовують сигнали тривоги, пов'язані з диском, із розділу vSAN Skyline Health: Інвентаризації > Хост і кластери > vSAN Cluster > Monitor > vSAN > Skyline Health > Фізичний диск
Тут ви можете перевірити, чи спрацьовує будь-яка з наведених нижче тривог: Насувається постійна відмова диска, дані евакуюються (Стан здоров'я - Жовтий). Насувається постійна відмова диска, не вдалося евакуювати дані через нестачу ресурсів (стан здоров'я - червоний). Насувається постійна відмова диска, не вдалося евакуювати дані через недоступні об'єкти (стан здоров'я - червоний). Насувається постійна відмова диска, евакуація даних завершена (стан здоров'я - жовтий) Крім того, ви можете перевірити стан диска зі списку пристроїв зберігання даних відповідного хоста: Інвентаризації > Хост і кластери vSAN Впливає на кластер >> vSAN Хост > ESXi Налаштуйте > пристрої >
зберігання данихТут ви можете перевірити, чи є стан диска: 0 Місткість Диск відсутній Диск демонтовано Перевірте, чи відбувається повторна синхронізація. Інвентаризації > Хост і кластери > vSAN Cluster > Monitor > vSAN > Повторна синхронізація об'єктів:Примітка:
Повторна синхронізація може вказувати на те, що дані евакуюються з ураженого диска або групи дисків. Необхідне подальше дослідження, щоб визначити, чи готовий уражений диск до видалення/заміни. Перевірте статус об'єктів vSAN: Інвентаризації > Хост і кластери > vSAN Cluster > Monitor > vSAN Skyline Health Data > vSAN Здоров'я > об'єкта vSAN >Примітка.
Важливо переконатися, що немає недоступних об'єктів. Об'єкт недоступний означає «відсутні всі копії об'єкта». Якщо ви видалите/заміните диск, це може спричинити DL. Наступним кроком є збір додаткової інформації про проблему через CLI та перевірку журналів:
Перевірка стану фізичного диска vSAN за командним рядком:
Підключіться через SSH до ураженого хоста та виконайте такі команди: vdq -qH Перевірте параметр «IsPDL» (постійна втрата пристрою). Якщо вона дорівнює 1, диск втрачається. Приклад: Результати роботи на диску: DiskResult[0]: Назва: naa.600508b1001c4b820b4d80f9f8acfa95 VSANUUID: 5294bbd8-67c4-c545-3952-7711e365f7fa Стан: Використовується для VSAN ChecksumSupport: 0 Причина: Нелокальний диск IsSSD?: 0IsCapacityFlash?: 0 IsPDL?: 0<<усічений>> результат диска[18]: Ім'я: VSANUUID: 5227C17E-EC64-DE76-C10E-C272102Beba7 Стан: Використовується для VSAN ChecksumSupport: 0 Причина: Ніхто IsSSD?: 0IsCapacityFlash?: 0 IsPDL?: 1 vdq -iH Перевірити, чи немає диска в групі дисків. Приклад: Зіставлення: DiskMapping[0]: SSD: naa.58ce38ee2016ffe5 Доктор медичних наук: naa.5002538a4819e3e0 DiskMapping[2]: SSD: naa.58ce38ee2016fe55 Доктор медичних наук: naa.5002538a48199ca0 Доктор медичних наук: naa.5002538a48199e20 Доктор медичних наук: naa.5002538a48199e00 Список
сховищ ESXCLI VSANПеревірте параметр "In CMMDS". Якщо false, то зв'язок з диском втрачено. Приклад: Пристрій: Невідомий Відображуване ім'я: Невідомий Чи є SSD: false VSAN UUID: 529cadbc-acd1-b588-8643-68336d5512d6 UUID групи дисків VSAN: Ім'я групи дисків VSAN: Використовується цим хостом: false У CMMDS: false Версія формату на диску: <Невідома> дедуплікація: falseСтиснення: falseКонтрольна сума:Контрольна сума OK: falseIs Capacity Tier: false
для i в 'esxcli Storage Core Device List | grep ^naa' ; Зробіть відлуння $i; Ядро запам'ятовувального пристрою ESXCLI Smart Get -D $i; done.
Перевірте наявність помилок читання/запису за допомогою команди smart get. Приклад: NAA.55CD2E404C1F35A1 Поріг значення параметра Найгірший необроблений -------------------------- ----- --------- ----- ---Стан здоров'я OK N/A N/A N/A Індикатор зносу носіїв 100 0 100 86 Кількість помилок зчитування 130 39 130 133 Годин увімкнення 100 0 100 110 Кількість циклів живлення 100 0 100 106 Температура приводу 100 0 100 26 Кількість секторів, які неможливо виправити: 100 0 100 0 NAA.55CD2E404C1F35A5 Поріг значення параметра Найгірший необроблений -------------------------- ----- --------- ----- ---Стан здоров'я OK N/A N/A N/A Індикатор зносу носіїв 100 0 100 10 Кількість помилок зчитування 130 39 130 53 Годин увімкнення 100 0 100 110 Кількість циклів живлення 100 0 100 106 Температура приводу 100 0 100 27 Кількість секторів, які неможливо виправити: 100 0 100 0 esxcli vsan список сховищ | grep "UUID групи дисків VSAN:" | сортувати | uniq -c Перевірте наявність доступних груп дисків. Приклад: 2 UUID групи дисків VSAN: 5203424c-ee56-497d-75d1-fcf73ae997cb 2 UUID групи дисків VSAN: 52af8e5c-77d1-b552-3310-ec5fef09edf4 поки що вірно; робити відлуння « ****************************************** »; echo "" > /tmp/resyncStats.txt ; cmmds-tool find -t DOM_OBJECT -f json |grep uuid |awk -F \" '{print $4}' |while read i;do pendingResync=$(cmmds-tool find -t DOM_OBJECT -f json -u $i|grep -o "\"bytesToSync\": [0-9]*,"|awk -F " |," '{sum+=$2} END{надрукувати суму / 1024 / 1024 / 1024;}'); if [ ${#pendingResync} -ne 1 ]; потім лунає «$i: $pendingResync ГіБ»; фі; done |tee -a /tmp/resyncStats.txt; total=$(cat /tmp/resyncStats.txt |awk '{sum+=$2} END{print sum}'); відлуння "Всього: $total GiB" |tee -aa /tmp/resyncStats.txt; total=$(cat /tmp/resyncStats.txt |grep Total); totalObj=$(cat /tmp/resyncStats.txt|grep -vE " 0 GiB|Всього"|wc -l); echo "'date +%Y-%m-%dT%H:%M:%SZ' $total ($totalObj об'єкти)" >> /tmp/totalHistory.txt; echo 'дата'; сон 60; done Перевірте, чи є поточні/застряглі операції повторної синхронізації. Приклад: Підсумок: 0 ГіБ Пн лютого 13 17:32:06 UTC 2023 Натисніть комбінацію клавіш Ctrl+C , щоб зупинити команду. cmmds-tool find -f python | grep CONFIG_STATUS -B 4 -A 6 | grep 'uuid\|content' | grep -o 'стан\\\":\ [0-9]*' | сортувати | uniq -c Перевірте стан компонентів. Здоровий -- стан 7 Недоступний -- стан 13 Відсутній/деградований -- стан 15 Приклад: 425 КУпАП України: 7Як визначити, де знаходиться несправний SSD/HDD через CLI: Перерахуйте всі доступні пристрої: Список основних пристроїв сховища ESXCLI | grep "naa" | awk '{print $1}' | grep "naa" Перевірте розташування за допомогою кожного диска зі списку: Фізичний пристрій ядра сховища esxcli get -d Приклад: NAA.5000C500852DF8D3 NAA.55CD2E404C1F35A1 NAA.55CD2E404C1F35A5 NAA.5000C500852DD5E7 Фізичне розташування: корпус 65535 слот 0 Фізичне розташування: корпус 65535 слот 1 Фізичне розташування: корпус 65535 слот 2 Фізичне розташування: корпус 65535 слот 3 Відповідні журнали vSAN для проблем, пов'язаних зі зберіганням: /var/log/vmkernel.log Проблеми з читанням і записом на диски vSAN, серцебиттям хоста vSAN, PDL, кодами відчуттів SCSI та запитами вводу/виводу (читання/запис), а також інформацією про членство в кластері. Приклад: 2021-06-22T12:02:08.408Z cpu30:1001397101)ScsiDeviceIO: PsaScsiDeviceTimeoutHandlerFn:12834: TaskMgmt операція по скасуванню вводу-виводу успішна для пристрою naa.55cd2e404b7736d0 і IO не завершився. WorldId 0, Cmd 0x28, CmdSN = 0x428. Скасування IO буде2021-06-22T12
:02:08.408Z cpu30:1001397101)повторено. /var/log/vobd.log Звіти про справність диска, постійні втрачені диски пристрою (PDL), затримку диска та звіти про те, коли хост переходить у режим обслуговування та виходить із нього. Приклад: 2022-05-31T11:42:46.065Z: [vSANCorrelator] 10605891965954us: [vob.vsan.lsom.devicerepair] Пристрій vSAN 521a74ce-c980-c16c-ff3d-38a036233daf ремонтується через несправності вводу/виводу та не працюватиме до завершення ремонту. Якщо пристрій належить до групи дисків, уся група дисків не працюватиме до завершення відновлення. 2022-05-31T11:42:46.065Z: [vSANCorrelator] 10606062774178us: [esx.problem.vob.vsan.lsom.devicerepair] Пристрій 521a74ce-c980-c16c-ff3d-38a036233daf перебуває в автономному стані та ремонтується
/var/log/vsandevicemonitord.log Це допоможе визначити, чи не було диск позначено несправним через надмірне перевантаження журналу або затримки введення-виведення. Приклад: INFO vsandevicemonitord ПОПЕРЕДЖЕННЯ - WRITE Середня затримка на пристрої VSAN naa.50000xxxxxxxx перевищила порогове значення 2000000 us 2 рази. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) як нездоровий