Article Number: 000018989

PowerScale, Isilon, OneFS: Как правильно выключить кластер

Summary: Передовые подходы к правильному завершению работы кластера PowerScale, содержит информацию о рисках, связанных с неправильным завершением работы кластера. Пошаговые процедуры для правильного выключения кластера. Некоторые действия следует выполнить за 4–8 недель до запланированной модернизации. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Instructions

Введение

В этой статье описана процедура правильного выключения кластера Dell Isilon и приведены сведения о рисках, связанных с неправильным завершением работы кластера.

Внимание! Неправильное выключение кластера может привести к проблемам с доступностью и целостностью данных.

Узлы, которые неправильно выключены в кластере, не должны оставаться без питания системы дольше, чем срок службы аккумулятора NVRAM, который составляет приблизительно 3–5 дней, в зависимости от типа узла. Если данные по-прежнему хранятся в журнале узла и питание узла продолжается дольше, чем работает аккумулятор NVRAM, данные теряются и кластер требуется перестроить.

Если у вас есть вопросы по процедурам или информации, описанным в этой статье, обратитесь в службу технической поддержки Dell Isilon.

Последовательность действий.

Для процедуры завершения работы кластера требуются учетные данные root и последовательный доступ к консоли узлов в кластере. Процедура разделена на пять этапов.

Этап 1: Выполнение профилактического обслуживания
Этап 2: Выключите каждый узел в кластере
Этап 3: Убедитесь, что узлы успешно выключены
Этап 4: Отключите источник питания.
Этап 5: Включите каждый узел в кластере.
Этап 6: Выполнение диагностики системы в кластере

Прочтите всю процедуру перед началом процесса выключения. Это гарантирует, что вы понимаете контекст и порядок выполнения каждого шага.

Внимание! Если вы используете версию OneFS, срок обслуживания которой истек (EOSL), модернизируйте до поддерживаемой версии OneFS.

Этап 1: Выполнение профилактического обслуживания.
Эти действия выполняются примерно за 4–8 недель до запланированного отключения. Целью этого этапа является выявление неизвестных или скрытых проблем с оборудованием или микропрограммой, которые могут помешать процедуре выключения.

Внимание! Dell настоятельно рекомендует выполнить все шаги Этапа 1 перед выключением кластера Isilon.

Если требуется немедленное выключение в масштабе кластера, можно выключить все узлы одновременно с помощью интерфейса командной строки OneFS или веб-интерфейса администрирования OneFS.

Dell настоятельно рекомендует выполнить все шаги этапа 3 для сохранения целостности данных в случае процедуры аварийного отключения.

При необходимости загрузите журналы для справки за прошлые периоды.

# isi_gather_info

Выполните или запросите диагностику системы Isilon.
- При этом производится оценка работоспособности кластера, чтобы убедиться, что он находится в хорошем поддерживаемом рабочем состоянии.
- Это может быть выполнено заказчиком с помощью PowerScale: Как запустить инструмент кластерного анализа
- Удаленной группой реагирования (поддержка заказчиков). Эта функция доступна всем заказчикам с действующим соглашением об обслуживании кластеров с поддерживаемыми версиями кода. Если вы соответствуете этим требованиям, откройте сервисную заявку (SR) на сайте онлайн-поддержки Dell с запросом диагностики системы Isilon. И предоставьте полные журналы для диагностики системы, выполнив эту команду

# isi_gather_info

* Диагностика системы не предназначена для устранения проблем в кластере, оценки его конфигурации, производительности или рабочего процесса.

Выполните «холодную» перезагрузку каждого узла, выполнив следующие действия. Для этого мероприятия необходимо запланировать окно обслуживания.

Примечание.: Этот процесс позволяет выявлять ошибки памяти или режимы сбоя накопителя, которые обнаруживаются только при включении узла.

Примечание.: Этот процесс прерывает работу всех подключений, кроме NFSv3. Обратитесь в службу поддержки Isilon за инструкциями по более длительному процессу, который не прерывает работу клиента во время перезагрузки узлов для этого теста обслуживания.

Выключайте все узлы в кластере по очереди. Чтобы выключить каждый узел, выполните следующие действия.
1. Подключитесь по протоколу SSH к любому узлу. Завершите работу каждого узла, выполнив следующую команду

isi config
shutdown <node_lnn>

Убедитесь, что каждый узел выключен, убедившись, что зеленый индикатор питания на задней панели узла больше не горит.
Нажмите кнопку питания, чтобы снова включить узел.
Убедитесь, что узел повторно присоединен к кластеру и исправен, выполнив команду isi status -q и ищем OK в столбце Health DASR выходных данных.
Если на узле возникают проблемы, указанные в столбце Health DASR, или не удается повторно присоединиться к кластеру, устраните эти проблемы перед выключением следующего узла.

Выбран пример проблемы. Узел 1 успешно присоединен к кластеру, но в столбце Health DASR указано, что он требует внимания.

mycluster-1# isi status -q

Cluster Name: mycluster
Cluster Health:     [ ATTN]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-A-- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

После перезагрузки каждого узла перепроверьте работоспособность всего кластера. Подключитесь по протоколу SSH к любому узлу и выполните следующую команду:

 isi status -q

Убедитесь, что в столбце Health DASR каждого узла отображается значение OK.

Примечание.: Если время не позволяет выполнить холодную перезагрузку для каждого узла, можно заблаговременно выявить некоторые скрытые проблемы с оборудованием, выполнив последовательную перезагрузку или «горячую перезагрузку», выполнив следующую команду для каждого узла:

isi config
reboot <node_lnn>

Тем не менее, Dell настоятельно рекомендует использовать метод холодной перезагрузки для более эффективного выявления скрытых проблем оборудования.

Этап 2: Выключите каждый узел в кластере.
Эти действия необходимо выполнить в день выключения кластера Isilon. Во время выключения в масштабе кластера некоторые факторы могут повлиять на процесс выключения или замедлить его. Например, ожидающие выполнения операций записи данных в узел могут повлиять на завершение работы. Цель шагов 1–2 — убедиться, что все клиенты отключены от кластера и данные правильно сохранены из журналов узлов в файловой системе перед выполнением команды выключения. Если у вас есть клиенты iSCSI, убедитесь, что вы выключили их перед отключением сервиса iSCSI.

На шаге 3 описывается последовательное выключение каждого узла в кластере с помощью последовательной консоли. Этот метод рекомендуется, так как он позволяет убедиться, что каждый узел выключен правильно, прежде чем перейти к следующему узлу, и внести коррективы или устранить проблемы, необходимые для обеспечения надлежащего завершения работы кластера. Однако этот метод может занять много времени, так как для выполнения команды shutdown требуется подключить последовательную консоль к каждому узлу. В разделе Одновременное завершение работы всех узлов в кластере описывается использование интерфейса командной строки OneFS или веб-интерфейса администрирования OneFS для выключения кластера. Этот метод занимает меньше времени, чем шаг 3, но затрудняет определение узлов, которые сталкиваются с проблемами в процессе выключения.

Isilon рекомендует изолировать кластер от клиентов, чтобы клиенты с интенсивной записью не препятствовали процедуре выключения. Это можно сделать, отключив клиентские сервисы, работающие в кластере. Для отключения клиентских сервисов выполните следующие действия.
1. Определите клиентские сервисы или протоколы, работающие в кластере, выполнив следующие команды для каждой клиентской службы:

isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd

B. Задокументируйте службы, включенные в кластере, на основе выходных данных каждой команды. В приведенном ниже примере сервис SMB включен, а сервис NFS отключен:

mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#

Отключите клиентские службы. После этого действия все клиенты немедленно теряют подключение к кластеру. Чтобы отключить службу, выполните следующую команду, связанную с включенной службой.

isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable

Если у вас есть клиенты iSCSI, перед выполнением шага 2 убедитесь, что клиенты iSCSI размонтировали свои LUN. Запустите isi iscsi list , чтобы подтвердить, что все клиенты iSCSI отключены от кластера.

Примечание.: При отключении сервиса iSCSI перед запуском команды обязательно завершите работу клиентов iSCSI isi_iscsi_d disable . Прерывание работы подключенного LUN iSCSI может привести к повреждению клиента, для чего обычно требуется восстановление из резервной копии.

Переместите записи данных, хранящихся в журналах узлов, в файловую систему, выполнив команду isi_for_array isi_flush . На каждом узле отображается вывод, подобный следующему:

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.

Примечание.: В большом кластере с большим количеством ожидающих выполнения операций записи этот шаг может занять несколько минут.

Если узлу не удается очистить свои данные, вы получите выходные данные, аналогичные приведенным ниже, где узел 1 и узел 2 не проходят команду очистки:

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty

Запустите isi_for_array isi_flush снова команда. Если какой-либо узел не удается очистить, обратитесь в службу технической поддержки Dell Isilon. Перед переходом к следующему шагу необходимо успешно очистить все узлы.

Примечание.: При удалении источника питания с узла, который не выдал данные из своего журнала в файловую систему, риск потери данных значительно возрастает. Если вам требуется помощь с процедурой выключения, обратитесь в службу технической поддержки Dell Isilon.

Последовательно выключайте каждый узел в кластере и отслеживайте выходные данные. Этот подход рекомендуется, так как он позволяет выявить и устранить любые проблемы перед выключением следующего узла в кластере. Выключите каждый узел, выполнив следующие действия.

Внимание! Не запускайте команду isi_for_array shutdown -p , чтобы завершить работу кластера.

Любой узел, на котором происходит паника или перезагружается на этом этапе, требует дальнейшего изучения. В частности, все узлы должны сбросить данные из журнала узла в файловую систему, прежде чем продолжить.

Предупреждение. При удалении источника питания с узла, который не выдал данные из своего журнала в файловую систему, риск потери данных значительно возрастает. Если вам требуется помощь с процедурой выключения, обратитесь в службу технической поддержки Dell Isilon.

Подключите последовательную консоль к каждому узлу.
Выполните следующую команду:

isi config
shutdown

После успешного выключения узла появятся выходные данные, аналогичные следующим:

Powering the system off using ACPI

Примечание.: Если у вас нет доступа к узлам через переключатель клавиатуры, видео и мыши (KVM) и вместо этого необходимо использовать ноутбук, выполнение этого шага может занять несколько часов.

C. Следите за консолью и отслеживайте события, связанные с сбоями оборудования. Успешные сохранения журнала узлов выбираются в следующих вариантах выходных данных:

2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully

2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.

An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:

Если вы получили сообщение об ошибке, что журнал узла не был сохранен, вы можете вручную сохранить журнал, выполнив шаги этапа 3.

Выключите все узлы в кластере одновременно.

В случае аварийной ситуации можно выключить все узлы в кластере одновременно. Однако этот метод не рекомендуется, поскольку он не позволяет отслеживать состояние и выходные данные каждого узла в случае возникновения проблемы. Если вы решите выполнить эти действия, Dell настоятельно рекомендует выполнить все шаги этапа 3 , чтобы убедиться, что все узлы правильно выключены после выполнения указанных ниже процедур.

Примечание.: Любой узел, на котором происходит паника или перезагружается на этом этапе, требует дальнейшего изучения. В частности, все узлы должны сбросить данные из журнала узла в файловую систему, прежде чем продолжить.

Чтобы выключить все узлы в кластере, используйте интерфейс командной строки OneFS или веб-интерфейс администрирования OneFS.

В интерфейсе командной строки OneFS выполните следующую команду:

# isi config shutdown all

Примечание.: НЕ запускайте команду isi_for_array shutdown -p команда для завершения работы кластера В веб-интерфейсе администрирования OneFS в OneFS 8.0 и более поздних версиях.

Этап 3: Убедитесь, что узлы успешно выключены.
Убедитесь, что узлы правильно выключены, взглянув на светодиод (LED) индикатора питания на задней панели узла. Все индикаторы питания должны гореть темно или не гореть. Это указывает на то, что узел успешно выключен.

Предупреждение. Если узел не был успешно выключен и источник питания узла отключен, вероятность потери данных значительно возрастает. Для восстановления данных требуется длительная процедура восстановления, а иногда и полная перестройка кластера.

Если у вас есть сомнения в успешности завершения работы, например, если узел не выключен или журнал не сохранен, обратитесь в службу технической поддержки Dell.

Если индикатор питания на задней панели узла все еще горит, это означает, что узел не выключен. Если узел не был выключен или если вы получаете выходные данные консоли, указывающие на то, что журнал узла не сохранился должным образом (из этапа 2, шаг 3C), необходимо вручную сохранить журнал, чтобы убедиться, что данные зафиксированы на диске перед выключением узла.

Чтобы вручную сохранить журнал и выключить узел, выполните следующие действия.
1. Если узел отвечает на запросы интерфейса командной строки, перезагрузите узел, выполнив следующую команду:

# isi config reboot

Если узел не реагирует на интерфейс командной строки, перезагрузите узел вручную, нажав и удерживая кнопку питания на задней панели узла. Это приведет к выключению узла. Подождите 30 секунд, а затем нажмите кнопку питания один раз, чтобы снова загрузить резервную копию узла. Перейдите к следующему шагу.

Предупреждение. Перезагрузка узла вручную рекомендуется только для этого шага. При любых других обстоятельствах не выключайте узел вручную. Это может привести к потере данных.

После перезагрузки узла снова войдите в систему и выполните следующие действия для сохранения журнала:
1. Повторите попытку корректного выключения узла, выполнив следующую команду:

# isi config shutdown

Если в выходных данных по-прежнему указывается, что журнал не сохранен, сохраните журнал вручную, выполнив следующую команду:

# isi_save_journal

Если журнал по-прежнему не сохраняется, размонтируйте файловую систему, /ifs, а затем принудительно сохраните журнал, выполнив следующие команды:

# isi_kill_busy && umount /ifs

Убедитесь, что журнал сохранен, выполнив команду isi_checkjournal.

# isi_checkjournal

Не переходите к следующему шагу, пока выходные данные не укажут, что журнал успешно сохранен.

При необходимости обратитесь в службу технической поддержки Dell.

Этап 4: Отключите источник питания.
Только после успешного завершения работы кластера и выключения узлов источник питания можно отключить от кластера.

Предупреждение. Если узел не был успешно выключен, не отключайте его источник питания. Это может привести к потере данных, длительной процедуре восстановления, а иногда и к полному перестроению кластера.

Аккумуляторы
NVRAMКогда клиент записывает файл на узел, данные записи сначала сохраняются в энергонезависимом ОЗУ (NVRAM), размещенном на карточке журнала узла. Некоторое время спустя OneFS фиксирует эти операции записи на диск. Для защиты данных, хранящихся в NVRAM, в случае внепланового отключения электроэнергии каждый узел оснащен аккумуляторами NVRAM (двумя для резервирования). Узел, который выключен, но остается подключенным к источнику питания, продолжает обновлять свои аккумуляторы NVRAM. При отключении источника питания от узла аккумуляторы NVRAM начинают разряжаться. Время автономной работы узлов текущего поколения (X200, S200, X400 и NL400) составляет примерно пять дней. В узлах предыдущего поколения время работы от аккумулятора NVRAM составляет примерно три дня.

Dell Technologies рекомендует надлежащим образом выключать узлы, чтобы не полагаться на аккумуляторы NVRAM в течение длительного времени во время отключения питания.

Примечание.: Дополнительные сведения о том, как Isilon использует NVRAM для сохранения целостности данных, см. в разделе «Структура файловой системы» в руководствах по веб-администрированию OneFS и администрированию в интерфейсе командной строки.

Если аккумуляторы NVRAM узла полностью разряжаются, узел загружается в режиме «только для чтения» и остается в этом режиме примерно 30 минут, пока аккумуляторы NVRAM полностью не зарядятся. После разрядки аккумуляторов узел автоматически возвращается в обычный режим чтения/записи.

Предупреждение. Если данные все еще хранятся в памяти NVRAM из-за неправильного завершения работы, а питание узла превышает время работы аккумулятора NVRAM, возникает потеря данных, длительная процедура восстановления, а иногда и полное перестроение кластера.

Этап 5: Включите каждый узел в кластере.
Эти действия необходимо выполнить, когда вы будете готовы перезапустить кластер Isilon.

Восстановите источник питания каждого узла.
Для загрузки нажмите кнопку питания на передней или задней панели каждого узла.
После включения всех узлов запустите команду isi status -q для проверки работоспособности кластера. Прежде чем продолжить, убедитесь, что в столбце «Health DASR» все узлы в порядке и что они не находятся в режиме «только чтение» (R). Для исправного кластера должны появиться выходные данные, аналогичные следующим:

Cluster Name: mycluster
Cluster Health:     [ OK ]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-OK- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

Просмотрите список включенных служб, созданных на шаге 1b этапа 2 , и включите отключенные службы, выполнив одну или несколько из следующих команд:

isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable

Убедитесь, что ваши клиенты могут подключаться к кластеру и выполнять свои обычные рабочие процессы. Кластер должен работать нормально.

Этап 6: POST CHECK — выполнение диагностики системы в кластере.

Уплои полный сбор журналов

# isi_gather_info --esrs

Выполните или запросите диагностику системы Isilon группой удаленного реагирования (поддержка заказчиков).

Действия по выполнению диагностики системы.

Isilon. Как запустить инструмент Isilon On-Cluster Analysis Tool

Запросить диагностику системы с помощью службы удаленной реактивной поддержки

Эта функция доступна всем заказчикам с действующим соглашением об обслуживании кластеров с поддерживаемыми версиями кода.

Если вы соответствуете этим требованиям, откройте сервисную заявку (SR) на сайте онлайн-поддержки Dell с запросом диагностики системы Isilon.

* Диагностика системы не предназначена для устранения проблем в кластере, оценки его конфигурации, производительности или рабочего процесса.

Additional Information

Ниже приведены некоторые рекомендуемые ресурсы по этой теме, которые могут представлять интерес.

PowerScale, Isilon, OneFS: Как правильно выключить кластер

Article Content

Instructions

Введение

Последовательность действий.

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

PowerScale, Isilon, OneFS: Как правильно выключить кластер

Article Content

Instructions

Введение

Последовательность действий.

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type