Article Number: 000209262

Посібник з усунення несправностей фізичного диска vSAN

Summary: Це загальний посібник з усунення несправностей, який допоможе визначити, чи є проблема з фізичним диском у кластерах vSAN.

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Instructions

Перевірка стану фізичного диска vSAN з веб-інтерфейсу:

Підключіться до веб-клієнта vCenter Server і перевірте стан диска з:

Інвентаризації > Хост і кластери > vSAN Cluster > Налаштування > керування дисками vSAN >Виберіть уражений хост, а потім розгорніть розділ диска перегляду:Тут ви можете перевірити, чи виявлено диск як: зображення.png

Нездоровий
Демонтований
0 Місткість
Постійна відмова
дискаДиск вниз
Диск відсутній

Також перевірте, чи не спрацьовують сигнали тривоги, пов'язані з диском, із розділу vSAN Skyline Health:

Інвентаризації > Хост і кластери > vSAN Cluster > Monitor > vSAN > Skyline Health > Фізичний диск
зображення.png

Тут ви можете перевірити, чи спрацьовує будь-яка з наведених нижче тривог:

Насувається постійна відмова диска, дані евакуюються (Стан здоров'я - Жовтий).
Насувається постійна відмова диска, не вдалося евакуювати дані через нестачу ресурсів (стан здоров'я - червоний).
Насувається постійна відмова диска, не вдалося евакуювати дані через недоступні об'єкти (стан здоров'я - червоний).
Насувається постійна відмова диска, евакуація даних завершена (стан здоров'я - жовтий)

Крім того, ви можете перевірити стан диска зі списку пристроїв зберігання даних відповідного хоста:

Інвентаризації > Хост і кластери vSAN Впливає на кластер >> vSAN Хост > ESXi Налаштуйте > пристрої >
зображення.png

зберігання данихТут ви можете перевірити, чи є стан диска:

0 Місткість
Диск відсутній
Диск демонтовано

Перевірте, чи відбувається повторна синхронізація.

Інвентаризації > Хост і кластери > vSAN Cluster > Monitor > vSAN > Повторна синхронізація об'єктів:Примітка:
зображення.png

Повторна синхронізація може вказувати на те, що дані евакуюються з ураженого диска або групи дисків. Необхідне подальше дослідження, щоб визначити, чи готовий уражений диск до видалення/заміни.

Перевірте статус об'єктів vSAN:

Інвентаризації > Хост і кластери > vSAN Cluster > Monitor > vSAN Skyline Health Data > vSAN Здоров'я > об'єкта vSAN >Примітка.
зображення.png

Важливо переконатися, що немає недоступних об'єктів. Об'єкт недоступний означає «відсутні всі копії об'єкта». Якщо ви видалите/заміните диск, це може спричинити DL.

Наступним кроком є збір додаткової інформації про проблему через CLI та перевірку журналів:

Перевірка стану фізичного диска vSAN за командним рядком:

Підключіться через SSH до ураженого хоста та виконайте такі команди:

vdq -qH
Перевірте параметр «IsPDL» (постійна втрата пристрою). Якщо вона дорівнює 1, диск втрачається.

Приклад:

Результати роботи на диску:
DiskResult[0]:
Назва: naa.600508b1001c4b820b4d80f9f8acfa95
VSANUUID: 5294bbd8-67c4-c545-3952-7711e365f7fa
Стан: Використовується для VSAN
ChecksumSupport:
0 Причина: Нелокальний диск
IsSSD?:
0IsCapacityFlash?:
0 IsPDL?:
0<<усічений>>
результат диска[18]:
Ім'я:
VSANUUID: 5227C17E-EC64-DE76-C10E-C272102Beba7
Стан: Використовується для VSAN
ChecksumSupport:
0 Причина: Ніхто
IsSSD?:
0IsCapacityFlash?:
0 IsPDL?:

1 vdq -iH
Перевірити, чи немає диска в групі дисків.

Приклад:

Зіставлення:
DiskMapping[0]:
SSD: naa.58ce38ee2016ffe5
Доктор медичних наук: naa.5002538a4819e3e0

DiskMapping[2]:
SSD: naa.58ce38ee2016fe55
Доктор медичних наук: naa.5002538a48199ca0
Доктор медичних наук: naa.5002538a48199e20
Доктор медичних наук: naa.5002538a48199e00

Список
сховищ ESXCLI VSANПеревірте параметр "In CMMDS". Якщо false, то зв'язок з диском втрачено.

Приклад:

Пристрій: Невідомий
Відображуване ім'я: Невідомий
Чи є SSD: false
VSAN UUID: 529cadbc-acd1-b588-8643-68336d5512d6
UUID групи дисків VSAN:
Ім'я групи дисків VSAN:
Використовується цим хостом: false
У CMMDS: false
Версія формату на диску: <Невідома>
дедуплікація: falseСтиснення: falseКонтрольна сума:Контрольна сума OK: falseIs Capacity Tier:
false

для i в 'esxcli Storage Core Device List | grep ^naa' ; Зробіть відлуння $i; Ядро запам'ятовувального пристрою ESXCLI Smart Get -D $i; done.

Перевірте наявність помилок читання/запису за допомогою команди smart get.

Приклад:

NAA.55CD2E404C1F35A1
Поріг значення параметра Найгірший необроблений

-------------------------- ----- --------- ----- ---Стан здоров'я OK N/A N/A N/A
Індикатор зносу носіїв 100 0 100 86
Кількість помилок зчитування 130 39 130 133
Годин увімкнення 100 0 100 110
Кількість циклів живлення 100 0 100 106
Температура приводу 100 0 100 26
Кількість секторів, які неможливо виправити: 100 0 100 0

NAA.55CD2E404C1F35A5
Поріг значення параметра Найгірший необроблений

-------------------------- ----- --------- ----- ---Стан здоров'я OK N/A N/A N/A
Індикатор зносу носіїв 100 0 100 10
Кількість помилок зчитування 130 39 130 53
Годин увімкнення 100 0 100 110
Кількість циклів живлення 100 0 100 106
Температура приводу 100 0 100 27
Кількість секторів, які неможливо виправити: 100 0 100 0

esxcli vsan список сховищ | grep "UUID групи дисків VSAN:" | сортувати | uniq -c
Перевірте наявність доступних груп дисків.

Приклад:

      2 UUID групи дисків VSAN: 5203424c-ee56-497d-75d1-fcf73ae997cb
2 UUID групи дисків VSAN: 52af8e5c-77d1-b552-3310-ec5fef09edf4

поки що вірно; робити відлуння « ****************************************** »; echo "" > /tmp/resyncStats.txt ; cmmds-tool find -t DOM_OBJECT -f json |grep uuid |awk -F \" '{print $4}' |while read i;do pendingResync=$(cmmds-tool find -t DOM_OBJECT -f json -u $i|grep -o "\"bytesToSync\": [0-9]*,"|awk -F " |," '{sum+=$2} END{надрукувати суму / 1024 / 1024 / 1024;}'); if [ ${#pendingResync} -ne 1 ]; потім лунає «$i: $pendingResync ГіБ»; фі; done |tee -a /tmp/resyncStats.txt; total=$(cat /tmp/resyncStats.txt |awk '{sum+=$2} END{print sum}'); відлуння "Всього: $total GiB" |tee -aa /tmp/resyncStats.txt; total=$(cat /tmp/resyncStats.txt |grep Total); totalObj=$(cat /tmp/resyncStats.txt|grep -vE " 0 GiB|Всього"|wc -l); echo "'date +%Y-%m-%dT%H:%M:%SZ' $total ($totalObj об'єкти)" >> /tmp/totalHistory.txt; echo 'дата'; сон 60; done
Перевірте, чи є поточні/застряглі операції повторної синхронізації.

Приклад:

Підсумок: 0 ГіБ
Пн лютого 13 17:32:06 UTC 2023

Натисніть комбінацію клавіш Ctrl+C , щоб зупинити команду.

cmmds-tool find -f python | grep CONFIG_STATUS -B 4 -A 6 | grep 'uuid\|content' | grep -o 'стан\\\":\ [0-9]*' | сортувати | uniq -c
Перевірте стан компонентів.

Здоровий -- стан 7
Недоступний -- стан 13
Відсутній/деградований -- стан 15

Приклад:

    425 КУпАП України:

7Як визначити, де знаходиться несправний SSD/HDD через CLI:

Перерахуйте всі доступні пристрої:
Список основних пристроїв сховища ESXCLI | grep "naa" | awk '{print $1}' | grep "naa"

Перевірте розташування за допомогою кожного диска зі списку:
Фізичний пристрій ядра сховища esxcli get -d

Приклад:

NAA.5000C500852DF8D3
NAA.55CD2E404C1F35A1
NAA.55CD2E404C1F35A5
NAA.5000C500852DD5E7

Фізичне розташування: корпус 65535 слот 0
Фізичне розташування: корпус 65535 слот 1
Фізичне розташування: корпус 65535 слот 2
Фізичне розташування: корпус 65535 слот 3

Відповідні журнали vSAN для проблем, пов'язаних зі зберіганням:

/var/log/vmkernel.log
Проблеми з читанням і записом на диски vSAN, серцебиттям хоста vSAN, PDL, кодами відчуттів SCSI та запитами вводу/виводу (читання/запис), а також інформацією про членство в кластері.

Приклад:

2021-06-22T12:02:08.408Z cpu30:1001397101)ScsiDeviceIO: PsaScsiDeviceTimeoutHandlerFn:12834: TaskMgmt операція по скасуванню вводу-виводу успішна для пристрою naa.55cd2e404b7736d0 і IO не завершився. WorldId 0, Cmd 0x28, CmdSN = 0x428. Скасування IO буде2021-06-22T12
:02:08.408Z cpu30:1001397101)повторено.

/var/log/vobd.log
Звіти про справність диска, постійні втрачені диски пристрою (PDL), затримку диска та звіти про те, коли хост переходить у режим обслуговування та виходить із нього.

Приклад:

2022-05-31T11:42:46.065Z: [vSANCorrelator] 10605891965954us: [vob.vsan.lsom.devicerepair] Пристрій vSAN 521a74ce-c980-c16c-ff3d-38a036233daf ремонтується через несправності вводу/виводу та не працюватиме до завершення ремонту. Якщо пристрій належить до групи дисків, уся група дисків не працюватиме до завершення відновлення.
2022-05-31T11:42:46.065Z: [vSANCorrelator] 10606062774178us: [esx.problem.vob.vsan.lsom.devicerepair] Пристрій 521a74ce-c980-c16c-ff3d-38a036233daf перебуває в автономному стані та ремонтується


/var/log/vsandevicemonitord.log
Це допоможе визначити, чи не було диск позначено несправним через надмірне перевантаження журналу або затримки введення-виведення.

Приклад:

INFO vsandevicemonitord ПОПЕРЕДЖЕННЯ - WRITE Середня затримка на пристрої VSAN naa.50000xxxxxxxx перевищила порогове значення 2000000 us 2 рази.
INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) як нездоровий

Посібник з усунення несправностей фізичного диска vSAN

Summary: Це загальний посібник з усунення несправностей, який допоможе визначити, чи є проблема з фізичним диском у кластерах vSAN.

Article Content

Instructions

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

Посібник з усунення несправностей фізичного диска vSAN

Summary: Це загальний посібник з усунення несправностей, який допоможе визначити, чи є проблема з фізичним диском у кластерах vSAN.

Article Content

Instructions

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type