Article Number: 000018989

PowerScale, Isilon, OneFS: Як правильно заглушити кластер

Summary: Найкращі практики для правильного вимкнення кластера PowerScale і містить інформацію про ризики, пов'язані з неправильним вимкненням кластера. Покрокові процедури для правильного вимкнення кластера. Деякі кроки слід виконати за 4-8 тижнів до запланованого оновлення. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Instructions

Введення

У цій статті наведено процедуру правильного завершення роботи кластера Dell Isilon і наведено інформацію про ризики, пов'язані з неправильним вимкненням кластера.

Обережність: Неправильне вимкнення кластера може призвести до проблем із доступністю та цілісністю даних.

Вузли, які неправильно вимикаються в кластері, не повинні залишатися без живлення системи довше, ніж термін служби батареї NVRAM, який становить приблизно від 3 до 5 днів, залежно від типу вузла. Якщо дані все ще зберігаються в журналі вузла, а вузол залишається без живлення системи довше, ніж час автономної роботи NVRAM, дані втрачаються, і кластер необхідно перебудувати.

Зверніться по допомогу до служби технічної підтримки Dell Isilon за допомогою, якщо у вас виникнуть запитання щодо процедур або інформації, наведеної в цій статті.

Процедура

Процедура завершення роботи кластера вимагає облікових даних root та послідовного консольного доступу до вузлів кластера. Процедура ділиться на п'ять етапів.

Етап 1: Виконуйте профілактичне обслуговування
Етап 2: Вимкніть кожен вузол у кластері
Етап 3: Переконайтеся, що вузли успішно завершили роботу
Етап 4: Від'єднайте джерело живлення
Етап 5: Живлення кожного вузла в кластері
Етап 6: Запустіть перевірку працездатності кластера

Прочитайте всю процедуру перед початком процесу вимкнення. Це гарантує, що ви розумієте контекст і порядок виконання кожного кроку.

Обережність: Якщо ви використовуєте версію OneFS, термін служби якої закінчився (EOSL), оновіть її до підтримуваної версії.

Етап 1: Виконуйте профілактичне обслуговування.
Ці дії виконуються приблизно за 4-8 тижнів до планового відключення. Метою цього етапу є виявлення невідомих або прихованих проблем з апаратним забезпеченням або прошивкою, які можуть перешкоджати процедурі вимкнення.

Обережність: Dell настійно рекомендує виконати всі кроки фази 1, перш ніж закривати кластер Isilon.

Якщо обставини вимагають негайного завершення роботи всього кластера, ви можете вимкнути всі вузли одночасно за допомогою інтерфейсу командного рядка OneFS або веб-інтерфейсу адміністрування OneFS.

Dell настійно рекомендує виконати всі кроки фази 3 , щоб зберегти цілісність даних, якщо є процедура аварійного відключення.

За потреби завантажте журнали для історичної довідки.

# isi_gather_info

Проведіть або надішліть запит на перевірку стану здоров'я Isilon.
- При цьому оцінюється стан кластера, щоб переконатися, що він знаходиться в хорошому підтримуваному робочому стані.
- Вона може бути виконана замовником за допомогою PowerScale: Як запустити інструмент аналізу на кластері
- Віддаленою реактивною командою (служба підтримки клієнтів). Це доступно всім клієнтам, які мають активну угоду про технічне обслуговування кластерів на підтримуваних версіях коду. Якщо ви відповідаєте цим вимогам, відкрийте запит на обслуговування (SR) на сайті онлайн-підтримки Dell із запитом на перевірку стану здоров'я Isilon. І надайте повні журнали для перевірки працездатності, виконавши цю команду

# isi_gather_info

* Перевірка працездатності не призначена для виправлення проблем із кластером або оцінки конфігурації, продуктивності чи робочого процесу кластера.

Виконайте «холодне перезавантаження» кожного вузла, виконавши наступні дії. Для цієї діяльності має бути заплановане вікно технічного обслуговування.

Примітка: Цей процес дозволяє виявити будь-які помилки пам'яті або режими відмови накопичувача, які виявляються лише при повторному включенні вузла.

Примітка: Цей процес порушує роботу всіх з'єднань, окрім NFSv3. Зверніться до служби підтримки Isilon за допомогою з інструкціями щодо довшого процесу, який не порушує активність клієнта під час перезавантаження вузлів для цього тесту обслуговування.

Вимкніть кожен вузол у кластері по одному. Щоб вимкнути кожен вузол:
1. Відкрийте SSH-з'єднання з будь-яким вузлом. Вимкніть кожен вузол, виконавши наступну команду

isi config
shutdown <node_lnn>

Переконайтеся, що кожен вузол вимкнено, переконавшись, що зелений світлодіодний індикатор живлення на задній панелі вузла більше не світиться.
Натисніть кнопку живлення, щоб знову ввімкнути вузол.
Переконайтеся, що вузол знову приєднався до кластера та здоровий, виконавши команду isi status -q і шукаємо OK у стовпці Health DASR виводу.
Якщо вузол стикається з проблемами, зазначеними в стовпці Health DASR, або не може повторно приєднатися до кластера, вирішіть ці проблеми, перш ніж вимикати наступний вузол.

Вибирається приклад проблеми. Вузол 1 успішно повернувся до кластера, але стовпець Health DASR вказує на те, що він потребує уваги.

mycluster-1# isi status -q

Cluster Name: mycluster
Cluster Health:     [ ATTN]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-A-- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

Двічі перевірте справність всього кластера після перезавантаження кожного вузла. Відкрийте SSH-з'єднання з будь-яким вузлом і виконайте наведену нижче команду:

 isi status -q

Переконайтеся, що в стовпці Health DASR кожного вузла написано OK.

Примітка: Якщо час не дозволяє підійти до холодного перезавантаження для кожного вузла, ви можете завчасно виявити деякі приховані апаратні проблеми, виконавши замість цього послідовне перезавантаження або «тепле перезавантаження», виконавши наступну команду для кожного вузла:

isi config
reboot <node_lnn>

Однак Dell настійно рекомендує використовувати підхід холодного перезавантаження для більш ефективного виявлення прихованих апаратних проблем.

Етап 2: Вимкніть кожен вузол у кластері.
Ці кроки слід виконати в день, коли ви закрили кластер Isilon. Під час завершення роботи в масштабах кластера деякі фактори можуть впливати на процес вимкнення або затримувати його. Наприклад, невиконаний запис даних на вузол може вплинути на завершення роботи. Мета кроків 1-2 полягає в тому, щоб переконатися, що всі клієнти відключені від кластера, а дані належним чином збережені з журналів вузлів у файловій системі перед виконанням команди завершення роботи. Якщо у вас є клієнти iSCSI, переконайтеся, що ви закрили клієнти, перш ніж службу iSCSI буде вимкнено.

Крок 3 описує, як послідовно завершити роботу кожного вузла у вашому кластері за допомогою послідовної консолі. Цей метод рекомендований, оскільки він дозволяє перевірити, чи кожен вузол належним чином вимкнено, перш ніж перейти до наступного вузла, і внести корективи або виправити проблеми, якщо це необхідно, щоб забезпечити належне вимкнення кластера. Однак цей метод може зайняти багато часу, оскільки він вимагає підключення послідовної консолі до кожного вузла для виконання команди вимкнення. У розділі Завершити роботу всіх вузлів кластера одночасно описано, як використовувати інтерфейс командного рядка OneFS або веб-інтерфейс адміністрування OneFS для завершення роботи кластера. Цей метод менш трудомісткий, ніж крок 3, але ускладнює ідентифікацію вузлів, які стикаються з проблемами під час процесу вимкнення.

Ісілон рекомендує ізолювати кластер від клієнтів, щоб гарантувати, що клієнти з великою кількістю запису не перешкоджатимуть процедурі завершення роботи. Ви можете зробити це, вимкнувши клієнтські служби, запущені у вашому кластері. Виконайте наведену нижче процедуру, щоб вимкнути клієнтські служби.
1. Визначте клієнтські служби або протоколи, які виконуються у вашому кластері, виконавши такі команди для кожної клієнтської служби:

isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd

Б. Задокументуйте служби, які «ввімкнено» у вашому кластері, на основі виведених даних для кожної команди. У наведеному нижче прикладі службу SMB буде ввімкнено, а службу NFS вимкнено:

mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#

Вимкніть клієнтські служби. Після цього кроку всі клієнти відразу втрачають зв'язок з кластером. Щоб вимкнути службу, виконайте наведену нижче команду, пов'язану зі службою, яку ви ввімкнули.

isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable

Якщо у вас є клієнти iSCSI, переконайтеся, що клієнти iSCSI демонтували свої LUN перед виконанням кроку 2. Запустіть команду isi iscsi list для підтвердження того, що всі клієнти iSCSI відключені від кластера.

Примітка: Якщо ви вимикаєте службу iSCSI, переконайтеся, що ви вимкнули клієнти iSCSI, перш ніж запускати isi_iscsi_d disable команда. Порушення роботи змонтованого iSCSI LUN може призвести до пошкодження клієнта, що зазвичай вимагає відновлення з резервного копіювання.

Перемістіть записи даних, що зберігаються в журналах вузлів, до файлової системи, виконавши команду isi_for_array isi_flush команда. Вихідні дані, подібні до наведених нижче, з'являються на кожному вузлі:

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.

Примітка: У великому кластері з великою кількістю невиконаних записів цей крок може зайняти кілька хвилин.

Якщо вузол не може спорожнити свої дані, ви отримуєте вихідні дані, подібні до наведених нижче, де вузли 1 і вузли 2 не виконують свою команду змиву:

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty

Запустіть команду isi_for_array isi_flush командуйте ще раз. Якщо будь-який вузол не вдається промити, зверніться до служби технічної підтримки Dell Isilon. Всі вузли повинні успішно промитися, перш ніж приступити до наступного кроку.

Примітка: Якщо видалити джерело живлення з вузла, який не скинув дані зі свого журналу у файлову систему, ризик втрати даних значно зростає. Зверніться до служби технічної підтримки Dell Isilon, якщо вам потрібна допомога з процедурою вимкнення.

Послідовно вимкніть кожен вузол у кластері та стежте за виходом. Цей підхід є рекомендованим, оскільки він дозволяє виявити та вирішити будь-які проблеми до завершення роботи наступного вузла кластера. Вимкніть кожен вузол, виконавши такі дії:

Обережність: Не запускайте isi_for_array shutdown -p команда, щоб завершити роботу кластера.

Будь-який вузол, який панікує або перезавантажується на цьому кроці, є вузлом, який потребує подальшого дослідження. Зокрема, всі вузли повинні скинути дані з журналу вузлів у файлову систему, перш ніж продовжити.

Попередження: Якщо видалити джерело живлення з вузла, який не скинув дані зі свого журналу у файлову систему, ризик втрати даних значно зростає. Зверніться до служби технічної підтримки Dell Isilon, якщо вам потрібна допомога з процедурою вимкнення.

Прикріпіть послідовну консоль до кожного вузла.
Виконайте наступну команду:

isi config
shutdown

При успішному завершенні роботи вузла з'являється вихід, подібний до наступного:

Powering the system off using ACPI

Примітка: Якщо ви не маєте доступу до своїх вузлів через перемикач клавіатури, відео, миші (KVM) і замість цього повинні використовувати ноутбук, цей крок може зайняти години.

бл. Слідкуйте за консоллю та шукайте події збоїв, пов'язаних з обладнанням. Успішні збереження журналу вузлів вибираються в наступних варіантах виведення:

2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully

2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.

An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:

Якщо ви отримали помилку, яку журнал вузла не зберігав, ви можете зберегти журнал вручну, виконавши кроки у фазі 3.

Вимкніть усі вузли кластера одночасно.

При виникненні аварійної ситуації можна відключити всі вузли в кластері одночасно. Однак цей метод не рекомендується, оскільки він не дозволяє відстежувати стан і вихід кожного вузла в разі виникнення проблеми. Якщо ви вирішите виконати ці кроки, Dell настійно рекомендує виконати всі кроки на етапі 3 , щоб переконатися, що всі вузли належним чином вимкнулися після виконання наведених нижче процедур.

Примітка: Будь-який вузол, який панікує або перезавантажується на цьому кроці, є вузлом, який потребує подальшого дослідження. Зокрема, всі вузли повинні скинути дані з журналу вузлів у файлову систему, перш ніж продовжити.

Щоб вимкнути всі вузли кластера, скористайтеся інтерфейсом командного рядка OneFS або веб-інтерфейсом адміністрування OneFS.

В інтерфейсі командного рядка OneFS запустіть таку команду:

# isi config shutdown all

Примітка: НЕ запускайте isi_for_array shutdown -p команда, щоб завершити роботу кластера З інтерфейсу веб-адміністрування OneFS, у OneFS 8.0 і пізніших версіях.

Етап 3: Переконайтеся, що вузли успішно завершили роботу.
Переконайтеся, що вузли належним чином вимкнулися, подивившись на світлодіод (LED) індикатора живлення на задній панелі вузла. Усі світлодіоди індикатора живлення повинні світитися темними або вимкненими. Це свідчить про успішне завершення роботи вузла.

Попередження: Якщо вузол не вимкнувся, і ви відключили джерело живлення від вузла, ймовірність втрати даних значно зростає. Відновлення даних вимагає тривалої процедури відновлення, а іноді і повної перебудови кластера.

Зверніться до служби технічної підтримки Dell , якщо у вас є сумніви щодо успішності завершення роботи, наприклад, якщо вузол не вимикається або журнал не зберігається.

Якщо індикатор живлення на задній панелі вузла все ще світиться, це означає, що вузол не вимкнувся. Якщо вузол не вимкнувся, або якщо ви отримуєте консольний вихід, який вказує на те, що журнал вузла не зберігався належним чином (починаючи з фази 2, крок 3C), ви повинні вручну зберегти журнал, щоб переконатися, що ці дані зберігаються на диску, перш ніж вимикати вузол.

Щоб вручну зберегти журнал і завершити роботу вузла, виконайте наступні дії:
1. Якщо вузол реагує на інтерфейс командного рядка, перезавантажте вузол, виконавши наступну команду:

# isi config reboot

Якщо вузол не реагує на інтерфейс командного рядка, вручну перезавантажте вузол, натиснувши та утримуючи кнопку живлення на задній панелі вузла. Це призводить до того, що вузол вимикається. Зачекайте 30 секунд, а потім натисніть кнопку живлення один раз, щоб знову завантажити резервну копію вузла. Переходимо до наступного кроку.

Попередження: Перезавантаження вузла вручну рекомендується лише для цього кроку. Не вимикайте вузол вручну за будь-яких інших умов. Це може призвести до втрати даних.

Після перезавантаження вузла знову увійдіть в систему і виконайте наступні кроки для збереження журналу:
1. Спробуйте знову коректно вимкнути вузол, виконавши наступну команду:

# isi config shutdown

Якщо вихідні дані все одно вказують на те, що журнал не зберігався, збережіть журнал вручну, виконавши таку команду:

# isi_save_journal

Якщо журнал все ще не зберігається, демонтуйте файлову систему, /ifs, а потім примусово збережіть журнал, виконавши такі команди:

# isi_kill_busy && umount /ifs

Переконайтеся, що журнал збережено, виконавши команду isi_checkjournal.

# isi_checkjournal

Не переходьте до наступного кроку, доки виведення не вкаже на успішне збереження журналу.

За потреби зверніться до служби технічної підтримки Dell.

Етап 4: Від'єднайте джерело живлення.
Після того, як ваш кластер успішно вимкнувся, а вузли вимкнені, лише після цього джерело живлення можна відключити від кластера.

Попередження: Якщо вузол не був успішно вимкнений, не відключайте джерело живлення вузла. Це може призвести до втрати даних, тривалої процедури відновлення, а іноді й до повної перебудови кластера.

Акумулятори
NVRAMКоли клієнт записує файл на вузол, записи спочатку зберігаються в енергонезалежній оперативній пам'яті (NVRAM), розміщеній на журнальній карті вузла. Через деякий час OneFS зафіксує ці записи на диск. Для захисту даних, що зберігаються в NVRAM, у разі позапланового відключення електроенергії кожен вузол оснащений батареями NVRAM (дві для резервування). Вузол, який вимкнений, але залишається підключеним до джерела живлення, продовжує оновлювати свої батареї NVRAM. При відключенні джерела живлення від вузла батареї NVRAM починають розряджатися. Час автономної роботи в поточному поколінні вузлів (X200, S200, X400 і NL400) становить приблизно п'ять днів. У попередньому поколінні вузлів час автономної роботи NVRAM становить приблизно три дні.

Dell Technologies рекомендує належним чином вимикати вузли, щоб не покладатися на батареї NVRAM протягом значного періоду часу під час відключення електроенергії.

Примітка: Для отримання додаткової інформації про те, як Isilon використовує NVRAM для збереження цілісності даних, перегляньте розділ «Структура файлової системи» в посібниках з веб-адміністрування OneFS та адміністрування CLI.

Якщо батареї NVRAM на вузлі повністю розряджаються, вузол завантажується в режим лише читання та залишається в режимі лише для читання приблизно 30 хвилин, доки батареї NVRAM повністю не зарядяться. При підзарядці акумуляторів вузол автоматично повертається в нормальний режим читання/запису.

Попередження: Якщо дані все ще зберігаються в NVRAM через неправильне завершення роботи, а вузол залишається без живлення системи довше, ніж час автономної роботи NVRAM, ви стикаєтеся з втратою даних, тривалою процедурою відновлення, а іноді і повною перебудовою кластера.

Етап 5: Увімкніть кожен вузол кластера.
Ці кроки слід виконати, коли ви будете готові перезапустити кластер Isilon.

Відновіть джерело живлення для кожного вузла.
Натисніть кнопку живлення на передній панелі або задній частині кожного вузла, щоб завантажити їх.
Після того, як усі вузли будуть увімкнені, запустіть файл isi status -q , щоб переглянути стан вашого кластера. Перш ніж продовжити, переконайтеся, що всі вузли в порядку в стовпці Health DASR і не перебувають у режимі лише читання (R). Для здорового кластера повинні з'явитися результати, аналогічні наступному:

Cluster Name: mycluster
Cluster Health:     [ OK ]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-OK- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

Перегляньте список увімкнених служб, створений на етапі 2, крок 1b, і ввімкніть служби, які було вимкнено, виконавши одну або кілька з наведених нижче команд.

isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable

Переконайтеся, що ваші клієнти можуть підключатися до кластера та виконувати свої звичайні робочі процеси. Ваш кластер повинен функціонувати нормально.

Етап 6: POST CHECK - Запустіть перевірку працездатності кластера.

Upload a full log collect

# isi_gather_info --esrs

Виконайте або надішліть запит на перевірку працездатності Isilon віддаленою командою підтримки клієнтів.

Кроки для перевірки працездатності.

Ісілон: Як запустити інструмент аналізу на кластері Isilon

Надішліть запит на перевірку стану за допомогою віддаленої реактивної команди підтримки

Це доступно всім клієнтам, які мають активну угоду про технічне обслуговування кластерів на підтримуваних версіях коду.

Якщо ви відповідаєте цим вимогам, відкрийте запит на обслуговування (SR) на сайті онлайн-підтримки Dell із запитом на перевірку стану здоров'я Isilon.

* Перевірка працездатності не призначена для виправлення проблем із кластером або оцінки конфігурації, продуктивності чи робочого процесу кластера.

Additional Information

Ось кілька рекомендованих ресурсів, пов'язаних з цією темою, які можуть бути цікавими:

PowerScale, Isilon, OneFS: Як правильно заглушити кластер

Article Content

Instructions

Введення

Процедура

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

PowerScale, Isilon, OneFS: Як правильно заглушити кластер

Article Content

Instructions

Введення

Процедура

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type