Article Number: 000018989

PowerScale, Isilon e OneFS: Como desligar corretamente um cluster

Summary: Práticas recomendadas para desligar corretamente o cluster do PowerScale e inclui informações sobre os riscos associados a um desligamento inadequado do cluster. Procedimentos passo a passo para desligar o cluster corretamente. Algumas etapas devem ser executadas de 4 a 8 semanas antes do upgrade agendado. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Instructions

Introdução

Este artigo apresenta o procedimento para desligar corretamente o cluster do Dell Isilon e inclui informações sobre os riscos associados a um desligamento inadequado do cluster.

Aviso: O desligamento incorreto do cluster pode levar a problemas de integridade e disponibilidade dos dados.

Os nós que são desligados incorretamente no cluster não devem ficar sem energia do sistema por mais tempo do que a vida útil da bateria NVRAM, que é de aproximadamente 3 a 5 dias, dependendo do tipo de nó. Se os dados ainda estiverem armazenados em um registro de nó e um nó ficar sem energia do sistema por mais tempo do que a duração da bateria NVRAM, os dados serão perdidos e o cluster deverá ser reconstruído.

Entre em contato com o suporte técnico do Dell Isilon para obter assistência se tiver dúvidas sobre os procedimentos ou informações deste artigo.

Procedimento

O procedimento de desligamento do cluster exige credenciais de raiz e acesso ao console serial para os nós do cluster. O procedimento é dividido em cinco fases.

Fase 1: Realizar manutenção preventiva
Fase 2: Desligar todos os nós do cluster
Fase 3: Verifique se os nós foram desligados com sucesso
Fase 4: Desconecte a fonte de energia
Fase 5: Ligar cada nó do cluster
Fase 6: Executar uma verificação de integridade no cluster

Leia todo o procedimento antes de iniciar o processo de desligamento. Isso garante que você entenda o contexto e a ordem para concluir cada etapa.

Aviso: Se você estiver executando uma versão do OneFS que atingiu o fim da vida útil de serviço (EOSL), faça upgrade para uma versão compatível do OneFS.

Fase 1: Realizar manutenção preventiva.
Essas etapas são executadas aproximadamente 4 a 8 semanas antes do desligamento agendado. O objetivo dessa fase é identificar problemas de hardware ou firmware desconhecidos ou latentes que possam impedir o procedimento de desligamento.

Aviso: A Dell recomenda enfaticamente que você siga todas as etapas da Fase 1 antes de desligar o cluster do Isilon.

Se as circunstâncias exigirem um desligamento imediato em todo o cluster, você poderá desligar todos os nós simultaneamente usando a interface de linha de comando do OneFS ou a interface Web de administração do OneFS.

A Dell recomenda enfaticamente seguir todas as etapas da Fase 3 para preservar a integridade dos dados em caso de procedimento de desligamento de emergência.

Carregue os logs para referência histórica, se necessário.

# isi_gather_info

Execute ou solicite uma verificação de integridade do Isilon.
- Isso avalia a integridade do cluster para garantir que ele esteja em um bom status operacional compatível.
- Ele pode ser realizado pelo cliente usando o PowerScale: Como executar a ferramenta On-Cluster Analysis
- Pela equipe Remote Reactive (Customer Support). Isso está disponível para todos os clientes com um contrato de manutenção ativo para clusters em versões de código compatíveis. Se você atender a esses requisitos, abra um chamado (SR) no site de suporte on-line da Dell solicitando uma "verificação de integridade do Isilon". E forneça logs completos para a verificação de integridade executando este comando

# isi_gather_info

*A verificação de integridade não se destina a corrigir problemas do cluster nem avaliar a configuração, o desempenho ou o fluxo de trabalho do cluster.

Execute uma "reinicialização a frio" de cada nó executando as etapas a seguir. Uma janela de manutenção deve ser agendada para esta atividade.

Nota: Esse processo permite identificar quaisquer erros de memória ou modos de falha de unidade que só são detectados quando o nó é ligado novamente.

Nota: Esse processo causa interrupções em todas as conexões, exceto NFSv3. Entre em contato com o suporte do Isilon para obter assistência e instruções sobre um processo mais longo que não interrompa a atividade do client enquanto os nós estiverem sendo reinicializados para este teste de manutenção.

Desligue cada nó do cluster, um de cada vez. Para desligar cada nó:
1. Abra uma conexão SSH com qualquer nó. Desligue cada nó executando o seguinte comando:

isi config
shutdown <node_lnn>

Verifique se cada nó foi desligado, confirmando se o LED verde indicador de energia na parte traseira do nó não está mais aceso.
Pressione o botão liga/desliga para ligar o nó novamente.
Verifique se o nó reingressou no cluster e está íntegro executando o comando isi status -q e procurando OK na coluna Health DASR da saída.
Se um nó encontrar problemas indicados na coluna DASR de integridade ou não conseguir reingressar no cluster, resolva esses problemas antes de desligar o próximo nó.

Um exemplo de problema é selecionado. O nó 1 reingressou no cluster com sucesso, mas a coluna DASR de integridade indica que ele precisa de atenção.

mycluster-1# isi status -q

Cluster Name: mycluster
Cluster Health:     [ ATTN]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-A-- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

Verifique novamente a integridade de todo o cluster depois de reinicializar cada nó. Abra uma conexão SSH com qualquer nó e execute o comando abaixo:

 isi status -q

Verifique se a coluna Health DASR de cada nó lê OK.

Nota: Se o tempo não permitir uma abordagem de reinicialização a frio para cada nó, você pode descobrir proativamente alguns problemas de hardware latentes executando uma reinicialização contínua ou uma "reinicialização a quente" executando o seguinte comando para cada nó:

isi config
reboot <node_lnn>

No entanto, a Dell recomenda enfaticamente o uso da abordagem de reinicialização a frio para identificar com mais eficiência problemas de hardware latentes.

Fase 2: Desligue todos os nós do cluster.
Essas etapas devem ser executadas no dia em que você desligar o cluster do Isilon. Durante um desligamento em todo o cluster, alguns fatores podem afetar ou atrasar o processo de desligamento. Por exemplo, as gravações de dados pendentes em um nó podem afetar o desligamento. O objetivo das etapas 1 a 2 é garantir que todos os clients estejam desconectados do cluster e que os dados sejam salvos corretamente dos registros de nós no file system antes de executar o comando de desligamento. Se você tiver clients iSCSI, certifique-se de desligar os clients antes que o serviço iSCSI seja desativado.

A etapa 3 descreve como desligar cada nó do cluster sequencialmente usando um console serial. Esse método é recomendado porque permite verificar se cada nó foi desligado corretamente antes de passar para o próximo nó e fazer ajustes ou corrigir problemas conforme necessário para garantir um desligamento adequado do cluster. No entanto, esse método pode ser demorado porque requer a conexão de um console serial a cada nó para executar o comando de desligamento. A seção Desligar todos os nós do cluster simultaneamente descreve como usar a interface de linha de comando do OneFS ou a interface Web de administração do OneFS para desligar o cluster. Esse método consome menos tempo do que a etapa 3, mas torna mais difícil identificar os nós que encontram problemas durante o processo de desligamento.

O Isilon recomenda isolar o cluster dos clients para garantir que clients com muitas gravações não impeçam o procedimento de desligamento. Você pode fazer isso desabilitando os serviços voltados para o client em execução no cluster. Execute o procedimento a seguir para desabilitar os serviços voltados para o client:
1. Identifique os serviços ou protocolos voltados para o cliente que estão em execução no cluster executando os seguintes comandos para cada serviço voltado para o cliente:

isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd

B. Documente os serviços "ativados" em seu cluster com base no resultado de cada comando. Selecionado no exemplo abaixo, o serviço SMB está habilitado, enquanto o serviço NFS está desabilitado:

mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#

Desative os serviços voltados para o client. Após essa etapa, todos os clients perdem imediatamente a conexão com o cluster. Para desabilitar um serviço, execute o seguinte comando relacionado ao serviço que você habilitou.

isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable

Se você tiver clients iSCSI, certifique-se de que os clients iSCSI desmontaram suas LUNs antes de executar a etapa 2. Execute a isi iscsi list para confirmar se todos os clients iSCSI estão desconectados do cluster.

Nota: Se você estiver desabilitando o serviço iSCSI, certifique-se de ter desligado os clientes iSCSI antes de executar o isi_iscsi_d disable hostname. A disrupção de uma LUN iSCSI montada pode resultar em danos ao client, que normalmente requer a recuperação do backup.

Mova as gravações de dados armazenadas nos registros do nó para o file system executando o comando isi_for_array isi_flush hostname. Um resultado semelhante ao seguinte é exibido em cada nó:

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.

Nota: Em um cluster grande com um alto número de gravações pendentes, essa etapa pode levar vários minutos para ser concluída.

Se um nó não conseguir fazer flush de seus dados, você receberá um resultado semelhante ao seguinte abaixo, em que o nó 1 e o nó 2 falham em seu comando de flush:

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty

Execute a isi_for_array isi_flush comando novamente. Se algum nó não conseguir fazer o flush, entre em contato com o suporte técnico do Dell Isilon. Todos os nós devem ser liberados com sucesso antes de prosseguir para a próxima etapa.

Nota: Se você remover uma fonte de energia de um nó que não liberou dados de seu registro para o sistema de arquivos, o risco de perda de dados aumenta substancialmente. Entre em contato com o suporte técnico do Dell Isilon se precisar de ajuda com o procedimento de desligamento.

Desligue cada nó no cluster sequencialmente e monitore o resultado. Essa abordagem é recomendada porque permite identificar e resolver quaisquer problemas antes de desligar o próximo nó do cluster. Desligue cada nó executando as seguintes etapas:

Aviso: Não execute o isi_for_array shutdown -p Comando para desligar o cluster.

Qualquer nó que entre em pane ou reinicialize nesta etapa é um nó que requer investigação adicional. Em particular, todos os nós devem fazer flush dos dados do registro do nó para o file system antes de continuar.

Advertência: Se você remover uma fonte de energia de um nó que não liberou dados de seu registro para o sistema de arquivos, o risco de perda de dados aumenta substancialmente. Entre em contato com o suporte técnico do Dell Isilon se precisar de ajuda com o procedimento de desligamento.

Conecte um console serial a cada nó.
Execute o seguinte comando:

isi config
shutdown

Quando o nó é desligado com sucesso, um resultado semelhante ao seguinte é exibido:

Powering the system off using ACPI

Nota: Se você não tiver acesso aos nós por meio de um switch de teclado, vídeo, mouse (KVM) e precisar usar um notebook, essa etapa poderá levar horas para ser concluída.

C. Observe o console e procure eventos de falha relacionados ao hardware. Os salvamentos bem-sucedidos do registro do nó são selecionados nas seguintes variações de saída:

2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully

2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.

An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:

Se você receber um erro que não salvou o registro do nó, poderá salvá-lo manualmente executando as etapas da fase 3.

Desligue todos os nós do cluster simultaneamente.

Se houver uma emergência, você poderá desligar todos os nós do cluster simultaneamente. No entanto, esse método não é recomendado porque não permite que você monitore o status e a saída de cada nó caso ocorra um problema. Se você optar por seguir essas etapas, a Dell recomenda enfaticamente seguir todas as etapas da Fase 3 para verificar se todos os nós foram desligados corretamente após a execução dos procedimentos abaixo.

Nota: Qualquer nó que entre em pane ou reinicialize nesta etapa é um nó que requer investigação adicional. Em particular, todos os nós devem fazer flush dos dados do registro do nó para o file system antes de continuar.

Para desligar todos os nós do cluster, use a interface de linha de comando do OneFS ou a interface Web de administração do OneFS.

Na interface de linha de comando do OneFS, execute o seguinte comando:

# isi config shutdown all

Nota: NÃO execute o isi_for_array shutdown -p Comando para desligar o cluster Na interface Web de administração do OneFS, no OneFS 8.0 e versões posteriores.

Fase 3: Verifique se os nós foram desligados com sucesso.
Confirme se os nós foram desligados corretamente observando o LED (diodo emissor de luz) indicador de energia na parte traseira do nó. Todos os LEDs indicadores de energia devem ficar escuros ou apagados. Isso indica que o nó foi desligado com sucesso.

Advertência: Se um nó não tiver sido desligado com sucesso e você desconectar a fonte de energia ao nó, a chance de perda de dados aumentará substancialmente. A recuperação de dados exige um procedimento de recuperação demorado e, às vezes, uma recriação completa do cluster.

Entre em contato com o suporte técnico Dell se tiver dúvidas sobre o sucesso da operação de desligamento, como se o nó não for desligado ou o registro não for salvo.

Se a luz indicadora de alimentação na parte traseira do nó ainda estiver acesa, o nó não foi desligado. Se o nó não tiver sido desligado ou se você receber uma saída do console indicando que o registro do nó não foi salvo corretamente (da fase 2, etapa 3C), salve manualmente o registro para garantir que os dados sejam confirmados no disco antes de desligar o nó.

Para salvar manualmente o registro e desligar o nó, execute as seguintes etapas:
1. Se o nó responder à interface de linha de comando, reinicialize o nó executando o seguinte comando:

# isi config reboot

Se o nó não responder à interface de linha de comando, reinicialize manualmente o nó pressionando e segurando o botão liga/desliga na parte traseira do nó. Isso faz com que o nó seja desligado. Aguarde 30 segundos e pressione o botão liga/desliga uma vez para inicializar o backup do nó novamente. Continue com a próxima etapa.

Advertência: A reinicialização manual do nó é aconselhável apenas para esta etapa. Não desligue manualmente o nó para nenhuma outra condição. Isso pode levar à perda de dados.

Depois de reinicializar o nó, faça log-in novamente e use as seguintes etapas para salvar o registro:
1. Tente desligar o nó normalmente novamente executando o seguinte comando:

# isi config shutdown

Se o resultado ainda indicar que o registro não foi salvo, salve-o manualmente executando o seguinte comando:

# isi_save_journal

Se o registro ainda não for salvo, desmonte o file system, /ifs e, em seguida, force o salvamento do registro executando os seguintes comandos:

# isi_kill_busy && umount /ifs

Verifique se o registro foi salvo executando o comando isi_checkjournal.

# isi_checkjournal

Não vá para a próxima etapa até que o resultado indique que o registro foi salvo com sucesso.

Entre em contato com o suporte técnico da Dell, se necessário.

Fase 4: Desconecte a fonte de energia.
Depois que o cluster for desligado com sucesso e os nós forem desligados, somente então a fonte de energia poderá ser desconectada do cluster.

Advertência: Se um nó não tiver sido desligado com sucesso, não desconecte a fonte de energia do nó. Isso pode resultar em perda de dados, um procedimento de recuperação demorado e, às vezes, uma recriação completa do cluster.

Baterias
NVRAMQuando um client grava um arquivo em um nó, as gravações são armazenadas primeiro na RAM não volátil (NVRAM) hospedada na placa de registro do nó. Algum tempo depois, o OneFS confirma essas gravações no disco. Para proteger os dados armazenados na NVRAM em caso de queda de energia não programada, cada nó é equipado com baterias NVRAM (duas para redundância). Um nó que está desligado, mas permanece conectado a uma fonte de energia, continua atualizando suas baterias NVRAM. Quando a fonte de energia é desconectada do nó, as baterias NVRAM começam a se descarregar. A duração da bateria na geração atual de nós (X200, S200, X400 e NL400) é de aproximadamente cinco dias. Na geração anterior de nós, a duração da bateria NVRAM é de aproximadamente três dias.

A Dell Technologies recomenda desligar corretamente os nós para evitar depender de baterias NVRAM por um período considerável durante uma interrupção de energia.

Nota: Para obter mais informações sobre como o Isilon usa a NVRAM para preservar a integridade dos dados, consulte a seção "Estrutura do file system" nos guias de administração da Web e de administração da CLI do OneFS.

Se as baterias NVRAM de um nó descarregarem completamente, o nó será inicializado no modo somente leitura e permanecerá no modo somente leitura por aproximadamente 30 minutos até que as baterias NVRAM carreguem completamente. Quando as baterias são recarregadas, o nó retorna automaticamente ao modo normal de leitura/gravação.

Advertência: Se os dados ainda estiverem armazenados na NVRAM devido a um desligamento inadequado e um nó ficar sem energia do sistema por mais tempo do que a duração da bateria da NVRAM, você enfrentará perda de dados, um procedimento de recuperação demorado e, às vezes, uma recriação completa do cluster.

Fase 5: Ligue cada nó do cluster.
Essas etapas devem ser executadas quando você estiver pronto para reiniciar o cluster do Isilon.

Restaure a fonte de energia para cada nó.
Pressione o botão liga/desliga no painel frontal ou na parte traseira de cada nó para inicializá-los.
Depois que todos os nós tiverem sido ligados, execute o comando isi status -q para analisar a integridade do cluster. Antes de continuar, verifique se todos os nós estão OK na coluna Health DASR e se não estão em um modo somente leitura (R). Para um cluster íntegro, um resultado semelhante ao seguinte deve ser exibido:

Cluster Name: mycluster
Cluster Health:     [ OK ]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-OK- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

Consulte a lista de serviços habilitados que foram criados na Fase 2, Etapa 1b, e habilite os serviços que foram desabilitados executando um ou mais dos seguintes comandos:

isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable

Verifique se seus clientes podem se conectar ao cluster e executar seus fluxos de trabalho usuais. Seu cluster deve estar funcionando normalmente.

Fase 6: POST CHECK – Execute uma verificação de integridade no cluster.

Upload a full log gather

# isi_gather_info --esrs

Execute ou solicite uma verificação de integridade do Isilon pela equipe reativa remota (Atendimento ao cliente).

Etapas para executar verificações de integridade.

Isilon: Como executar a ferramenta Isilon On-Cluster Analysis

Solicitar uma verificação de integridade usando a equipe de suporte remoto reativo

Isso está disponível para todos os clientes com um contrato de manutenção ativo para clusters em versões de código compatíveis.

Se você atender a esses requisitos, abra um chamado (SR) no site de suporte on-line da Dell solicitando uma "verificação de integridade do Isilon".

*A verificação de integridade não se destina a corrigir problemas do cluster nem avaliar a configuração, o desempenho ou o fluxo de trabalho do cluster.

Additional Information

Aqui estão alguns recursos recomendados relacionados a este tópico que podem ser de interesse:

PowerScale, Isilon e OneFS: Como desligar corretamente um cluster

Article Content

Instructions

Introdução

Procedimento

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

PowerScale, Isilon e OneFS: Como desligar corretamente um cluster

Article Content

Instructions

Introdução

Procedimento

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type