PowerScale, Isilon, OneFS: Як правильно заглушити кластер

Summary: Найкращі практики для правильного вимкнення кластера PowerScale та містить інформацію про ризики, пов'язані з неправильним вимкненням кластера. Покрокові процедури для правильного вимкнення кластера. Деякі кроки слід виконати за 4-8 тижнів до запланованого оновлення. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

Введення

У цій статті описано процедуру правильного вимкнення кластера Dell Isilon та наведено інформацію про ризики, пов'язані з неправильним вимкненням кластера.

Обережність: Неправильне вимкнення кластера може призвести до проблем із доступністю та цілісністю даних.

Вузли, які неправильно вимикаються в кластері, не повинні залишатися без живлення системи довше, ніж термін служби батареї NVRAM, який становить приблизно від 3 до 5 днів, залежно від типу вузла. Якщо дані все ще зберігаються в журналі вузла, а вузол залишається без живлення системи довше, ніж час автономної роботи NVRAM, дані втрачаються, і кластер необхідно перебудувати.

Зверніться до служби технічної підтримки Dell Isilon за допомогою, якщо у вас виникнуть запитання щодо процедур або інформації, наведеної в цій статті.

Процедура

Процедура вимкнення кластера вимагає облікових даних root та послідовного консольного доступу до вузлів кластера. Процедура ділиться на п'ять етапів.

Фаза 1: Виконуйте профілактичне обслуговування
2 етап: Вимкніть кожен вузол у кластері
Етап 3: Переконайтеся, що вузли успішно завершили роботу
Етап 4: Від'єднайте джерело живлення
Етап 5: Живлення кожного вузла в кластері
Етап 6: Запустіть перевірку працездатності кластера

Прочитайте всю процедуру перед початком процесу вимкнення. Це гарантує, що ви розумієте контекст і порядок виконання кожного кроку.

Обережність: Якщо ви використовуєте версію OneFS, термін служби якої закінчився (EOSL), оновіться до підтримуваної версії OneFS.

Фаза 1: Проводьте профілактичне обслуговування.
Ці дії виконуються приблизно за 4-8 тижнів до планового відключення. Метою цього етапу є виявлення невідомих або прихованих проблем з апаратним забезпеченням або мікропрограмою, які можуть перешкоджати процедурі вимкнення.

Обережність: Dell настійно рекомендує виконати всі кроки у фазі 1, перш ніж закривати кластер Isilon.

Якщо обставини вимагають негайного завершення роботи всього кластера, ви можете вимкнути всі вузли одночасно за допомогою інтерфейсу командного рядка OneFS або веб-інтерфейсу адміністрування OneFS.

Dell настійно рекомендує дотримуватися всіх кроків фази 3 , щоб зберегти цілісність даних у разі аварійної процедури відключення.

За потреби завантажте журнали для історичної довідки.

# isi_gather_info

Виконайте або надішліть запит на перевірку стану здоров'я Isilon.
- При цьому оцінюється працездатність кластера, щоб переконатися, що він знаходиться в хорошому підтримуваному робочому стані.
- Він може бути виконаний замовником за допомогою PowerScale: Як запустити інструмент кластерного аналізу IOCA
- Це може виконувати команда Remote Reactive (Customer Support). Це доступно для всіх клієнтів, які мають активну угоду про технічне обслуговування кластерів на підтримуваних версіях коду. Якщо ви відповідаєте цим вимогам, відкрийте запит на обслуговування (SR) на сайті онлайн-підтримки Dell із запитом на «Перевірку стану здоров'я Isilon». І надайте повні журнали для перевірки працездатності, виконавши цю команду

# isi_gather_info

* Перевірка працездатності не призначена для вирішення проблем із кластером або оцінки конфігурації, продуктивності чи робочого процесу кластера.

Виконайте «холодне перезавантаження» кожного вузла, виконавши наступні дії. Для цієї діяльності слід запланувати вікно технічного обслуговування.

Примітка: Цей процес дозволяє виявити будь-які помилки пам'яті або режими відмови накопичувача, які виявляються лише при повторному включенні вузла.

Примітка: Цей процес порушує роботу всіх з'єднань, крім NFSv3. Зверніться до служби підтримки Isilon за допомогою з інструкціями щодо більш тривалого процесу, який не порушує активність клієнта під час перезавантаження вузлів для цього тесту обслуговування.

Вимкніть кожен вузол у вашому кластері по черзі. Щоб вимкнути кожен вузол:
1. Відкрийте SSH-з'єднання з будь-яким вузлом. Вимкніть кожен вузол, виконавши наступну команду

isi config
shutdown <node_lnn>

Переконайтеся, що кожен вузол вимкнено живлення, переконавшись, що зелений світлодіодний індикатор живлення на задній панелі вузла більше не світиться.
Натисніть кнопку живлення, щоб знову ввімкнути вузол.
Переконайтеся, що вузол знову приєднався до кластера і працює здорово, запустивши isi status -q і шукаємо OK у стовпці Health DASR виводу.
Якщо вузол стикається з проблемами, зазначеними в стовпці Health DASR, або не може повторно приєднатися до кластера, вирішіть ці проблеми, перш ніж вимикати наступний вузол.

Вибирається приклад проблеми. Вузол 1 успішно приєднався до кластера, але стовпець Health DASR вказує на те, що він потребує уваги.

mycluster-1# isi status -q

Cluster Name: mycluster
Cluster Health:     [ ATTN]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-A-- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

Двічі перевірте працездатність всього кластера після перезавантаження кожного вузла. Відкрийте SSH-з'єднання з будь-яким вузлом і виконайте наведену нижче команду:

 isi status -q

Переконайтеся, що в стовпці Health DASR кожного вузла написано OK.

Примітка: Якщо час не дозволяє підійти до холодного перезавантаження для кожного вузла, ви можете завчасно виявити деякі приховані проблеми з обладнанням, виконавши замість цього послідовне перезавантаження або «тепле перезавантаження», виконавши наступну команду для кожного вузла:

isi config
reboot <node_lnn>

Однак Dell настійно рекомендує використовувати підхід холодного перезавантаження для більш ефективного виявлення прихованих проблем з обладнанням.

2 етап: Вимкніть кожен вузол у кластері.
Ці кроки мають бути виконані в день вимкнення кластера Isilon. Під час вимкнення в масштабах кластера деякі фактори можуть впливати на процес вимкнення або затримувати його. Наприклад, невиконаний запис даних на вузол може вплинути на вимкнення. Мета кроків 1-2 полягає в тому, щоб переконатися, що всі клієнти відключені від кластера, а дані з журналів вузлів належним чином збережені у файловій системі перед виконанням команди вимкнення. Якщо у вас є клієнти iSCSI, переконайтеся, що ви закрили клієнти, перш ніж службу iSCSI буде вимкнено.

Крок 3 описує, як послідовно вимкнути кожен вузол у вашому кластері за допомогою послідовної консолі. Цей метод є рекомендованим, оскільки він дозволяє перевірити, чи кожен вузол належним чином вимкнено, перш ніж перейти до наступного вузла, і внести корективи або вирішити проблеми, якщо це необхідно, щоб забезпечити належне вимкнення кластера. Однак цей метод може зайняти багато часу, оскільки він вимагає підключення послідовної консолі до кожного вузла для виконання команди вимкнення. У розділі Вимкнути всі вузли у вашому кластері одночасно описано, як використовувати інтерфейс командного рядка OneFS або веб-інтерфейс вебадміністрування OneFS для завершення роботи кластера. Цей метод менш трудомісткий, ніж крок 3, але ускладнює виявлення вузлів, які стикаються з проблемами під час процесу вимкнення.

Ісілон рекомендує ізолювати кластер від клієнтів, щоб гарантувати, що клієнти з великим обсягом запису не перешкоджатимуть процедурі завершення роботи. Ви можете зробити це, вимкнувши клієнтські служби, запущені на вашому кластері. Виконайте наведену нижче процедуру, щоб вимкнути послуги, орієнтовані на клієнта:
1. Визначте клієнтські служби або протоколи, які працюють у вашому кластері, виконавши такі команди для кожної служби, орієнтованої на клієнта:

isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd

Б. Задокументуйте служби, які «ввімкнено» у вашому кластері на основі виводу для кожної команди. У наведеному нижче прикладі службу SMB увімкнено, а службу NFS вимкнено:

mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#

Вимкніть клієнтські служби. Після цього кроку всі клієнти відразу втрачають зв'язок з кластером. Щоб вимкнути службу, запустіть наведену нижче команду, пов'язану зі службою, яку ви включили.

isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable

Якщо у вас є клієнти iSCSI, переконайтеся, що клієнти iSCSI демонтували свої LUN перед виконанням кроку 2. Запустіть файл isi iscsi list для підтвердження того, що всі клієнти iSCSI відключені від кластера.

Примітка: Якщо ви відключаєте службу iSCSI, переконайтеся, що ви вимкнули клієнти iSCSI, перш ніж запускати isi_iscsi_d disable команда. Збій у роботі змонтованого iSCSI LUN може призвести до пошкодження клієнта, що зазвичай вимагає відновлення з резервного копіювання.

Перемістіть записи даних, що зберігаються в журналах вузлів, у файлову систему, виконавши команду isi_for_array isi_flush команда. Виведення, подібне до наступного, з'являється на кожному вузлі:

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.

Примітка: На великому кластері з великою кількістю невиконаних записів цей крок може зайняти кілька хвилин.

Якщо вузол не може очистити свої дані, ви отримуєте вихідні дані, подібні до наведеного нижче, де вузол 1 і вузол 2 не виконують свою команду очищення:

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty

Запустіть файл isi_for_array isi_flush знову командувати. Якщо будь-який вузол не вдається промити, зверніться до служби технічної підтримки Dell Isilon. Всі вузли повинні успішно промитися, перш ніж приступити до наступного кроку.

Примітка: Якщо видалити джерело живлення з вузла, який не скинув дані зі свого журналу у файлову систему, ризик втрати даних суттєво зростає. Зверніться до служби технічної підтримки Dell Isilon, якщо вам потрібна допомога з процедурою вимкнення.

Послідовно вимкніть кожен вузол у кластері та стежте за виходом. Цей підхід є рекомендованим, оскільки він дозволяє виявити та вирішити будь-які проблеми, перш ніж вимкнути наступний вузол у кластері. Вимкніть кожен вузол, виконавши наступні дії:

Обережність: НЕ запускайте isi_for_array shutdown -p команду для вимкнення кластера.

Будь-який вузол, який панікує або перезавантажується на цьому кроці, є вузлом, який потребує подальшого дослідження. Зокрема, всі вузли повинні видалити дані з журналу вузла до файлової системи, перш ніж продовжити.

Попередження: Якщо видалити джерело живлення з вузла, який не скинув дані зі свого журналу у файлову систему, ризик втрати даних суттєво зростає. Зверніться до служби технічної підтримки Dell Isilon, якщо вам потрібна допомога з процедурою вимкнення.

Прикріпіть послідовну консоль до кожного вузла.
Виконайте наступну команду:

isi config
shutdown

При успішному вимкненні вузла з'являється вихід, аналогічний наступному:

Powering the system off using ACPI

Примітка: Якщо у вас немає доступу до своїх вузлів через перемикач клавіатури, відео, миші (KVM) і замість цього вам потрібно використовувати ноутбук, цей крок може зайняти кілька годин.

бл. Слідкуйте за консоллю та шукайте події збою, пов'язані з обладнанням. Успішні збереження журналу вузлів вибираються в наступних варіантах виведення:

2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully

2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.

An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:

Якщо ви отримали помилку, яку журнал вузла не зберігав, ви можете зберегти журнал вручну, виконавши кроки у фазі 3.

Вимкніть усі вузли в кластері одночасно.

Якщо виникне аварійна ситуація, ви можете вимкнути всі вузли в кластері одночасно. Однак цей метод не рекомендується, оскільки він не дозволяє відстежувати стан і вихід кожного вузла в разі виникнення проблеми. Якщо ви вирішите виконати ці кроки, Dell настійно рекомендує виконати всі кроки у фазі 3 , щоб переконатися, що всі вузли належним чином вимкнулися після виконання наведених нижче процедур.

Примітка: Будь-який вузол, який панікує або перезавантажується на цьому кроці, є вузлом, який потребує подальшого дослідження. Зокрема, всі вузли повинні видалити дані з журналу вузла до файлової системи, перш ніж продовжити.

Щоб вимкнути всі вузли у вашому кластері, використовуйте інтерфейс командного рядка OneFS або веб-інтерфейс адміністрування OneFS.

В інтерфейсі командного рядка OneFS запустіть таку команду:

# isi config shutdown all

Примітка: НЕ запускайте isi_for_array shutdown -p команду для завершення роботи кластера з інтерфейсу веб-адміністрування OneFS, у OneFS 8.0 і пізніших версіях.

Етап 3: Переконайтеся, що вузли успішно вимкнулися.
Переконайтеся, що вузли належним чином вимкнулися, подивившись на світловий діод (LED) індикатора живлення (LED) на задній панелі вузла. Усі світлодіоди індикатора живлення повинні виглядати темними або вимкненими. Це свідчить про те, що вузол успішно вимкнувся.

Попередження: Якщо вузол не успішно вимкнувся, і ви відключили джерело живлення від вузла, ймовірність втрати даних значно зростає. Відновлення даних вимагає тривалої процедури відновлення, а іноді і повної перебудови кластера.

Попередження: Зверніться до служби технічної підтримки Dell, якщо у вас виникли сумніви щодо успішності операції вимкнення, наприклад, якщо вузол не вимикається або журнал не зберігається.

Якщо індикатор живлення на задній панелі вузла все ще світиться, вузол не вимкнувся. Якщо вузол не вимкнувся, або якщо ви отримуєте консольний вихід із повідомленням про те, що журнал вузла не зберігався належним чином (з фази 2, крок 3C), ви повинні вручну зберегти журнал, щоб переконатися, що ці дані зберігаються на диску, перш ніж вимикати вузол.

Щоб зберегти журнал вручну та вимкнути вузол, виконайте наступні дії:
1. Якщо вузол реагує на інтерфейс командного рядка, перезавантажте вузол, виконавши наступну команду:

# isi config reboot

Якщо вузол не реагує на інтерфейс командного рядка, вручну перезавантажте вузол, натиснувши та утримуючи кнопку живлення на задній панелі вузла. Це призводить до відключення живлення. Зачекайте 30 секунд, а потім натисніть кнопку живлення один раз, щоб знову завантажити резервну копію вузла. Переходимо до наступного кроку.

Попередження: Перезавантаження вузла вручну рекомендується лише для цього кроку. Не вимикайте вузол вручну за будь-яких інших умов. Це може призвести до втрати даних.

Після перезавантаження вузла увійдіть знову і виконайте наступні дії для збереження журналу:
1. Спробуйте знову коректно вимкнути вузол, виконавши наступну команду:

# isi config shutdown

Якщо вихідні дані все ще вказують, що журнал не зберігався, збережіть журнал вручну, виконавши наступну команду:

# isi_save_journal

Якщо журнал все ще не зберігається, демонтуйте файлову систему, /ifs, а потім примусово збережіть журнал, виконавши такі команди:

# isi_kill_busy && umount /ifs

Переконайтеся, що журнал збережено, виконавши команду isi_checkjournal.

# isi_checkjournal

Не переходьте до наступного кроку, доки вихідні дані не вкажуть, що журнал успішно збережено.

За потреби зверніться до служби технічної підтримки Dell .

Етап 4: Від'єднайте джерело живлення.
Після того, як ваш кластер успішно вимкнеться, а вузли будуть вимкнені, лише тоді джерело живлення можна відключити від кластера.

Попередження: Якщо вузол не був успішно вимкнений, не відключайте джерело живлення вузла. Це може призвести до втрати даних, тривалої процедури відновлення, а іноді й до повної перебудови кластера.

Акумулятори
NVRAMКоли клієнт записує файл на вузол, записи спочатку зберігаються в енергонезалежній оперативній пам'яті (NVRAM), розміщеній на картці журналу вузла. Через деякий час OneFS зафіксує ці записи на диск. Для захисту даних, що зберігаються в NVRAM, у разі позапланового відключення електроенергії, кожен вузол оснащений батареями NVRAM (дві для резервування). Вузол, який вимкнений, але залишається підключеним до джерела живлення, продовжує оновлювати свої батареї NVRAM. Коли джерело живлення відключається від вузла, акумулятори NVRAM починають розряджатися. Час автономної роботи в поточному поколінні вузлів (X200, S200, X400 і NL400) становить приблизно п'ять днів. У попередньому поколінні вузлів час автономної роботи NVRAM становить приблизно три дні.

Dell Technologies рекомендує належним чином вимикати вузли, щоб не покладатися на батареї NVRAM протягом значного періоду часу під час відключення електроенергії.

Примітка: Для отримання додаткової інформації про те, як Isilon використовує NVRAM для збереження цілісності даних, дивіться розділ «Структура файлової системи» в посібниках з веб-адміністрування OneFS і адміністрування CLI.

Якщо батареї NVRAM на вузлі повністю розряджаються, вузол завантажується в режим лише для читання та залишається в режимі лише для читання приблизно 30 хвилин, доки батареї NVRAM повністю не заряджаться. Коли акумулятори заряджаються, вузол автоматично повертається у звичайний режим читання/запису.

Попередження: Якщо дані все ще зберігаються в NVRAM через неправильне вимкнення, а вузол залишається без живлення системи довше, ніж час автономної роботи NVRAM, ви зіткнулися з втратою даних, тривалою процедурою відновлення, а іноді і повною перебудовою кластера.

Етап 5: Увімкніть живлення кожного вузла кластера.
Ці кроки слід виконати, коли ви будете готові перезапустити кластер Isilon.

Відновіть джерело живлення кожного вузла.
Натисніть кнопку живлення на передній панелі або задній частині кожного вузла, щоб завантажити їх.
Після того, як усі вузли будуть увімкнені, запустіть файл isi status -q для перевірки стану вашого кластера. Перш ніж продовжити, переконайтеся, що всі вузли в порядку в стовпці Health DASR і не перебувають у режимі лише читання (R). Для здорового кластера повинні з'явитися результати, аналогічні наступному:

Cluster Name: mycluster
Cluster Health:     [ OK ]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-OK- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

Перегляньте список увімкнених служб, створений на етапі 2, крок 1b, і включіть служби, які було вимкнено, виконавши одну або кілька з наступних команд:

isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable

Переконайтеся, що ваші клієнти можуть підключатися до кластера та виконувати свої звичайні робочі процеси. Ваш кластер повинен функціонувати нормально.

Етап 6: POST CHECK - Запустіть перевірку працездатності кластера.

Upload a full log collect

# isi_gather_info --esrs

Виконайте або запросіть перевірку працездатності Isilon командою віддаленої реактивності (підтримка клієнтів).

Кроки для виконання перевірок працездатності.

PowerScale: Як запустити інструмент кластерного аналізу IOCA.

Надішліть запит на перевірку стану за допомогою віддаленої реактивної команди підтримки

Це доступно для всіх клієнтів, які мають активну угоду про технічне обслуговування кластерів на підтримуваних версіях коду.

Якщо ви відповідаєте цим вимогам, відкрийте запит на обслуговування (SR) на сайті онлайн-підтримки Dell із запитом на «Перевірку стану здоров'я Isilon».

* Перевірка працездатності не призначена для вирішення проблем із кластером або оцінки конфігурації, продуктивності чи робочого процесу кластера.

Additional Information

Ось кілька рекомендованих ресурсів, пов'язаних з цією темою, які можуть зацікавити:

Affected Products

PowerScale, Isilon

Products

Isilon

Article Number: 000018989

Article Type: How To

Last Modified: 26 Jul 2024

Version: 15

Check if your device is covered by Support Services.

PowerScale, Isilon, OneFS: Як правильно заглушити кластер

Instructions

Введення

Процедура

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

PowerScale, Isilon, OneFS: Як правильно заглушити кластер

Detailed Article

Instructions

Additional Info

Affected Products

Instructions

Введення

Процедура

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services