Введение
В этой статье описана процедура правильного выключения кластера Dell Isilon и приведены сведения о рисках, связанных с неправильным завершением работы кластера.
Внимание! Неправильное выключение кластера может привести к проблемам с доступностью и целостностью данных.
Узлы, которые неправильно выключены в кластере, не должны оставаться без питания системы дольше, чем срок службы аккумулятора NVRAM, который составляет приблизительно 3–5 дней, в зависимости от типа узла. Если данные по-прежнему хранятся в журнале узла и питание узла продолжается дольше, чем работает аккумулятор NVRAM, данные теряются и кластер требуется перестроить.
Если у вас есть вопросы по процедурам или информации, описанным в этой статье, обратитесь в службу технической поддержки Dell Isilon.
Последовательность действий.
Для процедуры завершения работы кластера требуются учетные данные root и последовательный доступ к консоли узлов в кластере. Процедура разделена на пять этапов.
Прочтите всю процедуру перед началом процесса выключения. Это гарантирует, что вы понимаете контекст и порядок выполнения каждого шага.
Внимание! Если вы используете версию OneFS, срок обслуживания которой истек (EOSL), модернизируйте до поддерживаемой версии OneFS.
Этап 1: Выполнение профилактического обслуживания.
Эти действия выполняются примерно за 4–8 недель до запланированного отключения. Целью этого этапа является выявление неизвестных или скрытых проблем с оборудованием или микропрограммой, которые могут помешать процедуре выключения.
Внимание! Dell настоятельно рекомендует выполнить все шаги Этапа 1 перед выключением кластера Isilon.
Если требуется немедленное выключение в масштабе кластера, можно выключить все узлы одновременно с помощью интерфейса командной строки OneFS или веб-интерфейса администрирования OneFS.
Dell настоятельно рекомендует выполнить все шаги
этапа 3 для сохранения целостности данных в случае процедуры аварийного отключения.
- При необходимости загрузите журналы для справки за прошлые периоды.
# isi_gather_info
- Выполните или запросите диагностику системы Isilon.
- При этом производится оценка работоспособности кластера, чтобы убедиться, что он находится в хорошем поддерживаемом рабочем состоянии.
- Это может быть выполнено заказчиком с помощью PowerScale: Как запустить средство анализа кластера IOCA
- Это может быть выполнено группой удаленного реагирования (Customer Support). Эта функция доступна всем заказчикам с действующим соглашением об обслуживании кластеров с поддерживаемыми версиями кода. Если вы соответствуете этим требованиям, откройте сервисную заявку (SR) на сайте онлайн-поддержки Dell с запросом диагностики системы Isilon. И предоставьте полные журналы для диагностики системы, выполнив эту команду
# isi_gather_info
* Диагностика системы не предназначена для устранения проблем в кластере, оценки его конфигурации, производительности или рабочего процесса.
- Выполните «холодную» перезагрузку каждого узла, выполнив следующие действия. Для этого мероприятия необходимо запланировать окно обслуживания.
Примечание.: Этот процесс позволяет выявлять ошибки памяти или режимы сбоя накопителя, которые обнаруживаются только при включении узла.
Примечание.: Этот процесс прерывает работу всех подключений, кроме NFSv3. Обратитесь в службу поддержки Isilon за инструкциями по более длительному процессу, который не прерывает работу клиента во время перезагрузки узлов для этого теста обслуживания.
- Выключайте все узлы в кластере по очереди. Чтобы выключить каждый узел, выполните следующие действия.
- Подключитесь по протоколу SSH к любому узлу. Завершите работу каждого узла, выполнив следующую команду
isi config
shutdown <node_lnn>
- Убедитесь, что каждый узел выключен, убедившись, что зеленый индикатор питания на задней панели узла больше не горит.
- Нажмите кнопку питания, чтобы снова включить узел.
- Убедитесь, что узел повторно присоединен к кластеру и исправен, выполнив команду
isi status -q
и ищем OK в столбце Health DASR выходных данных.
- Если на узле возникают проблемы, указанные в столбце Health DASR, или не удается повторно присоединиться к кластеру, устраните эти проблемы перед выключением следующего узла.
Выбран пример проблемы. Узел 1 успешно присоединен к кластеру, но в столбце Health DASR указано, что он требует внимания.
mycluster-1# isi status -q
Cluster Name: mycluster
Cluster Health: [ ATTN]
Cluster Storage: HDD SSD
Size: 11G (23G Raw) 0 (0 Raw)
VHS Size: 11G
Used: 7.9G (69%) 0 (n/a)
Avail: 3.5G (31%) 0 (n/a)
Health Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR | In Out Total| Used / Size |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs)
2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs)
3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs)
4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- После перезагрузки каждого узла перепроверьте работоспособность всего кластера. Подключитесь по протоколу SSH к любому узлу и выполните следующую команду:
isi status -q
Убедитесь, что в столбце Health DASR каждого узла отображается значение OK.
Примечание.: Если время не позволяет выполнить холодную перезагрузку для каждого узла, можно заблаговременно выявить некоторые скрытые проблемы с оборудованием, выполнив последовательную перезагрузку или «горячую перезагрузку», выполнив следующую команду для каждого узла:
isi config
reboot <node_lnn>
Тем не менее, Dell настоятельно рекомендует использовать метод холодной перезагрузки для более эффективного выявления скрытых проблем оборудования.
Этап 2: Выключите каждый узел в кластере.
Эти действия необходимо выполнить в день выключения кластера Isilon. Во время выключения в масштабе кластера некоторые факторы могут повлиять на процесс выключения или замедлить его. Например, ожидающие выполнения операций записи данных в узел могут повлиять на завершение работы. Цель шагов 1–2 — убедиться, что все клиенты отключены от кластера и данные правильно сохранены из журналов узлов в файловой системе перед выполнением команды выключения. Если у вас есть клиенты iSCSI, убедитесь, что вы выключили их перед отключением сервиса iSCSI.
На шаге 3 описывается последовательное выключение каждого узла в кластере с помощью последовательной консоли. Этот метод рекомендуется, так как он позволяет убедиться, что каждый узел выключен правильно, прежде чем перейти к следующему узлу, и внести коррективы или устранить проблемы, необходимые для обеспечения надлежащего завершения работы кластера. Однако этот метод может занять много времени, так как для выполнения команды shutdown требуется подключить последовательную консоль к каждому узлу. В разделе Одновременное завершение работы всех узлов в кластере описывается использование интерфейса командной строки OneFS или веб-интерфейса администрирования OneFS для выключения кластера. Этот метод занимает меньше времени, чем шаг 3, но затрудняет определение узлов, которые сталкиваются с проблемами в процессе выключения.
- Isilon рекомендует изолировать кластер от клиентов, чтобы клиенты с интенсивной записью не препятствовали процедуре выключения. Это можно сделать, отключив клиентские сервисы, работающие в кластере. Для отключения клиентских сервисов выполните следующие действия.
- Определите клиентские сервисы или протоколы, работающие в кластере, выполнив следующие команды для каждой клиентской службы:
isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd
- В. Задокументируйте службы, включенные в кластере, на основе выходных данных каждой команды. В приведенном ниже примере сервис SMB включен, а сервис NFS отключен:
mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#
- Отключите клиентские службы. После этого действия все клиенты немедленно теряют подключение к кластеру. Чтобы отключить службу, выполните следующую команду, связанную с включенной службой.
isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable
Если у вас есть клиенты iSCSI, перед выполнением шага 2 убедитесь, что клиенты iSCSI размонтировали свои LUN. Запустите isi iscsi list
, чтобы подтвердить, что все клиенты iSCSI отключены от кластера.
Примечание.: При отключении сервиса iSCSI перед запуском команды обязательно завершите работу клиентов iSCSI isi_iscsi_d disable
. Прерывание работы подключенного LUN iSCSI может привести к повреждению клиента, для чего обычно требуется восстановление из резервной копии.
- Переместите записи данных, хранящихся в журналах узлов, в файловую систему, выполнив команду
isi_for_array isi_flush
. На каждом узле отображается вывод, подобный следующему:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.
Примечание.: В большом кластере с большим количеством ожидающих выполнения операций записи этот шаг может занять несколько минут.
Если узлу не удается очистить свои данные, вы получите выходные данные, аналогичные приведенным ниже, где узел 1 и узел 2 не проходят команду очистки:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty
Запустите isi_for_array isi_flush
снова команда. Если какой-либо узел не удается очистить, обратитесь в службу технической поддержки Dell Isilon. Перед переходом к следующему шагу необходимо успешно очистить все узлы.
Примечание.: При удалении источника питания с узла, который не выдал данные из своего журнала в файловую систему, риск потери данных значительно возрастает. Если вам требуется помощь с процедурой выключения, обратитесь в службу технической поддержки Dell Isilon.
- Последовательно выключайте каждый узел в кластере и отслеживайте выходные данные. Этот подход рекомендуется, так как он позволяет выявить и устранить любые проблемы перед выключением следующего узла в кластере. Выключите каждый узел, выполнив следующие действия.
Внимание! НЕ запускайте команду isi_for_array shutdown -p
, чтобы завершить работу кластера.
Любой узел, на котором происходит паника или перезагружается на этом этапе, требует дальнейшего изучения. В частности, все узлы должны сбросить данные из журнала узла в файловую систему, прежде чем продолжить.
Предупреждение! При удалении источника питания с узла, который не выдал данные из своего журнала в файловую систему, риск потери данных значительно возрастает. Если вам требуется помощь с процедурой выключения, обратитесь в службу технической поддержки Dell Isilon.
- Подключите последовательную консоль к каждому узлу.
- Выполните следующую команду:
isi config
shutdown
После успешного выключения узла появятся выходные данные, аналогичные следующим:
Powering the system off using ACPI
Примечание.: Если у вас нет доступа к узлам через переключатель клавиатуры, видео и мыши (KVM) и вместо этого необходимо использовать ноутбук, выполнение этого шага может занять несколько часов.
- С. Следите за консолью и отслеживайте события, связанные с сбоями оборудования. Успешные сохранения журнала узлов выбираются в следующих вариантах выходных данных:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.
An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Если вы получили сообщение об ошибке, что журнал узла не был сохранен, вы можете вручную сохранить журнал, выполнив шаги этапа 3.
Выключите все узлы в кластере одновременно.
В случае аварийной ситуации можно выключить все узлы в кластере одновременно. Однако этот метод не рекомендуется, поскольку он не позволяет отслеживать состояние и выходные данные каждого узла в случае возникновения проблемы. Если вы решите выполнить эти действия, Dell настоятельно рекомендует выполнить все шаги этапа 3 , чтобы убедиться, что все узлы правильно выключены после выполнения указанных ниже процедур.
Примечание.: Любой узел, на котором происходит паника или перезагружается на этом этапе, требует дальнейшего изучения. В частности, все узлы должны сбросить данные из журнала узла в файловую систему, прежде чем продолжить.
Предупреждение! При удалении источника питания с узла, который не выдал данные из своего журнала в файловую систему, риск потери данных значительно возрастает. Если вам требуется помощь с процедурой выключения, обратитесь в службу технической поддержки Dell Isilon.
Чтобы выключить все узлы в кластере, используйте интерфейс командной строки OneFS или веб-интерфейс администрирования OneFS.
В интерфейсе командной строки OneFS выполните следующую команду:
# isi config shutdown all
Примечание.: НЕ запускайте команду isi_for_array shutdown -p
в OneFS 8.0 и более поздних версиях для завершения работы кластера из веб-интерфейса администрирования OneFS.
Этап 3: Убедитесь, что узлы успешно выключены.
Убедитесь, что узлы правильно выключены, взглянув на светодиод (LED) индикатора питания на задней панели узла. Все индикаторы питания должны гореть темно или не гореть. Это указывает на то, что узел успешно выключен.
Предупреждение! Если узел не был успешно выключен и источник питания узла отключен, вероятность потери данных значительно возрастает. Для восстановления данных требуется длительная процедура восстановления, а иногда и полная перестройка кластера.
Предупреждение! Если у вас есть сомнения в успешности завершения работы, например, если узел не выключен или журнал не сохранен, обратитесь в службу технической поддержки Dell.
Если индикатор питания на задней панели узла все еще горит, это означает, что узел не выключен. Если узел не был выключен или если вы получаете выходные данные консоли, указывающие на то, что журнал узла не сохранился должным образом (из
этапа 2, шаг 3C), необходимо вручную сохранить журнал, чтобы убедиться, что данные зафиксированы на диске перед выключением узла.
- Чтобы вручную сохранить журнал и выключить узел, выполните следующие действия.
- Если узел отвечает на запросы интерфейса командной строки, перезагрузите узел, выполнив следующую команду:
# isi config reboot
- Если узел не реагирует на интерфейс командной строки, перезагрузите узел вручную, нажав и удерживая кнопку питания на задней панели узла. Это приведет к выключению узла. Подождите 30 с, а затем нажмите кнопку питания один раз, чтобы снова загрузить резервную копию узла. Перейдите к следующему шагу.
Предупреждение! Перезагрузка узла вручную рекомендуется только для этого шага. При любых других обстоятельствах не выключайте узел вручную. Это может привести к потере данных.
- После перезагрузки узла снова войдите в систему и выполните следующие действия для сохранения журнала:
- Повторите попытку корректного выключения узла, выполнив следующую команду:
# isi config shutdown
- Если в выходных данных по-прежнему указывается, что журнал не сохранен, сохраните журнал вручную, выполнив следующую команду:
# isi_save_journal
- Если журнал по-прежнему не сохраняется, размонтируйте файловую систему, /ifs, а затем принудительно сохраните журнал, выполнив следующие команды:
# isi_kill_busy && umount /ifs
- Убедитесь, что журнал сохранен, выполнив команду isi_checkjournal.
# isi_checkjournal
- Не переходите к следующему шагу, пока выходные данные не укажут, что журнал успешно сохранен.
При необходимости обратитесь в службу технической поддержки Dell .
Этап 4: Отключите источник питания.
Только после успешного завершения работы кластера и выключения узлов источник питания можно отключить от кластера.
Предупреждение! Если узел не был успешно выключен, не отключайте его источник питания. Это может привести к потере данных, длительной процедуре восстановления, а иногда и к полному перестроению кластера.
Аккумуляторы
NVRAMКогда клиент записывает файл на узел, данные записи сначала сохраняются в энергонезависимом ОЗУ (NVRAM), размещенном на карточке журнала узла. Некоторое время спустя OneFS фиксирует эти операции записи на диск. Для защиты данных, хранящихся в NVRAM, в случае внепланового отключения электроэнергии каждый узел оснащен аккумуляторами NVRAM (двумя для резервирования). Узел, который выключен, но остается подключенным к источнику питания, продолжает обновлять свои аккумуляторы NVRAM. При отключении источника питания от узла аккумуляторы NVRAM начинают разряжаться. Время автономной работы узлов текущего поколения (X200, S200, X400 и NL400) составляет примерно пять дней. В узлах предыдущего поколения время работы от аккумулятора NVRAM составляет примерно три дня.
Dell Technologies рекомендует надлежащим образом выключать узлы, чтобы не полагаться на аккумуляторы NVRAM в течение длительного времени во время отключения питания.
Примечание.: Дополнительные сведения о том, как Isilon использует NVRAM для сохранения целостности данных, см. в разделе «Структура файловой системы» в руководствах по веб-администрированию OneFS и администрированию в интерфейсе командной строки.
Если аккумуляторы NVRAM узла полностью разряжаются, узел загружается в режиме «только для чтения» и остается в этом режиме примерно 30 минут, пока аккумуляторы NVRAM полностью не зарядятся. После разрядки аккумуляторов узел автоматически возвращается в обычный режим чтения/записи.
Предупреждение! Если данные все еще хранятся в памяти NVRAM из-за неправильного завершения работы, а питание узла превышает время работы аккумулятора NVRAM, возникает потеря данных, длительная процедура восстановления, а иногда и полное перестроение кластера.
Этап 5: Включите каждый узел в кластере.
Эти действия необходимо выполнить, когда вы будете готовы перезапустить кластер Isilon.
- Восстановите источник питания каждого узла.
- Для загрузки нажмите кнопку питания на передней или задней панели каждого узла.
- После включения всех узлов запустите команду
isi status -q
для проверки работоспособности кластера. Прежде чем продолжить, убедитесь, что в столбце «Health DASR» все узлы в порядке и что они не находятся в режиме «только чтение» (R). Для исправного кластера должны появиться выходные данные, аналогичные следующим:
Cluster Name: mycluster
Cluster Health: [ OK ]
Cluster Storage: HDD SSD
Size: 11G (23G Raw) 0 (0 Raw)
VHS Size: 11G
Used: 7.9G (69%) 0 (n/a)
Avail: 3.5G (31%) 0 (n/a)
Health Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR | In Out Total| Used / Size |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs)
2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs)
3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs)
4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Просмотрите список включенных служб, созданных на шаге 1b этапа 2 , и включите отключенные службы, выполнив одну или несколько из следующих команд:
isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable
- Убедитесь, что ваши клиенты могут подключаться к кластеру и выполнять свои обычные рабочие процессы. Кластер должен работать нормально.
- Уплои полный сбор журналов
# isi_gather_info --esrs
- Выполните или запросите диагностику системы Isilon группой удаленного реагирования (поддержка заказчиков).
Действия по выполнению диагностики системы.
PowerScale. Как запустить инструмент кластерного анализа IOCA.
- Запросить диагностику системы с помощью службы удаленной реактивной поддержки
Эта функция доступна всем заказчикам с действующим соглашением об обслуживании кластеров с поддерживаемыми версиями кода.
Если вы соответствуете этим требованиям, откройте сервисную заявку (SR) на сайте онлайн-поддержки Dell с запросом диагностики системы Isilon.
* Диагностика системы не предназначена для устранения проблем в кластере, оценки его конфигурации, производительности или рабочего процесса.