Introducción
En este artículo, se proporciona el procedimiento para apagar correctamente el clúster de Dell Isilon e incluye información sobre los riesgos asociados con un apagado incorrecto del clúster.
Advertencia: El apagado incorrecto del clúster puede provocar problemas de integridad y disponibilidad de datos.
Los nodos que se apagan incorrectamente en el clúster no deben estar sin alimentación del sistema durante más tiempo que la vida útil de la batería NVRAM, que es de aproximadamente 3 a 5 días, según el tipo de nodo. Si los datos aún se almacenan en un registro de nodo y un nodo se queda sin alimentación del sistema durante más tiempo que la duración de la batería de NVRAM, los datos se pierden y el clúster se debe reconstruir.
Comuníquese con el soporte técnico de Dell Isilon para obtener ayuda si tiene preguntas sobre los procedimientos o la información de este artículo.
Procedimiento
El procedimiento de apagado del clúster requiere credenciales raíz y acceso a la consola en serie a los nodos del clúster. El procedimiento se divide en cinco fases.
Lea todo el procedimiento antes de comenzar el proceso de apagado. Esto garantiza que comprenda el contexto y el orden para completar cada paso.
Advertencia: Si está ejecutando una versión de OneFS que alcanzó la finalización del ciclo de vida (EOSL), actualice a una versión compatible de OneFS.
Fase 1: Realizar el mantenimiento preventivo.
Estos pasos se realizan aproximadamente de 4 a 8 semanas antes del apagado programado. El propósito de esta fase es identificar problemas de hardware o firmware desconocidos o latentes que puedan impedir el procedimiento de apagado.
Advertencia: Dell recomienda encarecidamente seguir todos los pasos de la fase 1 antes de apagar el clúster Isilon.
Si las circunstancias requieren un apagado inmediato en todo el clúster, puede apagar todos los nodos simultáneamente mediante la interfaz de línea de comandos de OneFS o la interfaz de administración web de OneFS.
Dell recomienda encarecidamente seguir todos los pasos de la
fase 3 para preservar la integridad de los datos si hay un procedimiento de apagado de emergencia.
- Cargue registros para obtener referencias históricas, si es necesario.
# isi_gather_info
- Realizar o solicitar una evaluación del estado de Isilon.
- Esto evalúa el estado del clúster para asegurarse de que se encuentre en un estado operativo bueno y con soporte.
- El cliente puede realizarla mediante PowerScale: cómo ejecutar la herramienta de análisis de clúster IOCA
- Lo puede realizar el equipo reactivo remoto (atención al cliente). Esto está disponible para todos los clientes con un acuerdo de mantenimiento activo para clústeres en versiones de código compatibles. Si cumple con estos requisitos, abra una solicitud de servicio (SR) en el sitio de soporte en línea de Dell para solicitar una "evaluación del estado de Isilon". Y proporcione registros completos para la evaluación del estado mediante la ejecución de este comando
# isi_gather_info
* La evaluación del estado no está destinada a solucionar problemas del clúster ni a evaluar la configuración, el rendimiento o el flujo de trabajo del clúster.
- Realice un "reinicio en frío" de cada nodo mediante los siguientes pasos. Se debe programar una ventana de mantenimiento para esta actividad.
Nota: Este proceso le permite identificar cualquier error de memoria o modo de falla de la unidad que solo se detecta cuando se vuelve a encender el nodo.
Nota: Este proceso es disruptivo para todas las conexiones, excepto para NFSv3. Póngase en contacto con el soporte de Isilon para obtener ayuda con instrucciones sobre un proceso más largo que no interrumpe la actividad del cliente mientras se reinician los nodos para esta prueba de mantenimiento.
- Apague cada nodo del clúster uno a la vez. Para apagar cada nodo:
- Abra una conexión SSH a cualquier nodo. Apague cada nodo mediante la ejecución del siguiente comando:
isi config
shutdown <node_lnn>
- Verifique que cada nodo se haya apagado confirmando que el LED verde indicador de alimentación en la parte posterior del nodo ya no esté iluminado.
- Presione el botón de encendido para volver a encender el nodo.
- Ejecute el comando
isi status -q
comando y busque OK en la columna DASR de estado de la salida.
- Si un nodo encuentra los problemas indicados en la columna DASR de estado o no puede reincorporarse al clúster, resuelva estos problemas antes de apagar el nodo siguiente.
Se selecciona un ejemplo de un problema. El nodo 1 se reincorporó al clúster correctamente, pero en la columna DASR de estado, se indica que necesita atención.
mycluster-1# isi status -q
Cluster Name: mycluster
Cluster Health: [ ATTN]
Cluster Storage: HDD SSD
Size: 11G (23G Raw) 0 (0 Raw)
VHS Size: 11G
Used: 7.9G (69%) 0 (n/a)
Avail: 3.5G (31%) 0 (n/a)
Health Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR | In Out Total| Used / Size |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs)
2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs)
3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs)
4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Vuelva a comprobar el estado de todo el clúster después de reiniciar cada nodo. Abra una conexión SSH a cualquier nodo y ejecute el siguiente comando:
isi status -q
Verifique que en la columna DASR de estado de cada nodo aparezca OK.
Nota: Si el tiempo no permite un enfoque de reinicio en frío para cada nodo, puede descubrir proactivamente algunos problemas latentes de hardware realizando en su lugar un reinicio gradual o un "reinicio en caliente" mediante la ejecución del siguiente comando para cada nodo:
isi config
reboot <node_lnn>
Sin embargo, Dell recomienda encarecidamente utilizar el enfoque de reinicio en frío para identificar de manera más eficaz los problemas latentes de hardware.
Fase 2: Apague cada nodo del clúster.
Estos pasos se realizarán el día en que apague el clúster de Isilon. Durante un apagado en todo el clúster, algunos factores pueden afectar o retrasar el proceso de apagado. Por ejemplo, las escrituras de datos pendientes en un nodo podrían afectar el apagado. El propósito de los pasos 1 a 2 es garantizar que todos los clientes estén desconectados del clúster y que los datos se guarden correctamente desde los registros de nodo al sistema de archivos antes de ejecutar el comando de apagado. Si tiene clientes iSCSI, asegúrese de apagar los clientes antes de que el servicio iSCSI se deshabilite.
En el paso 3, se describe cómo apagar cada nodo del clúster de manera secuencial mediante una consola en serie. Este método se recomienda porque le permite verificar que cada nodo esté correctamente apagado antes de continuar con el siguiente nodo y realizar ajustes o solucionar problemas según sea necesario para garantizar un apagado adecuado del clúster. Sin embargo, este método puede tardar mucho tiempo, ya que requiere la conexión de una consola en serie a cada nodo para ejecutar el comando de apagado. En la sección Apagar todos los nodos del clúster simultáneamente, se describe cómo usar la interfaz de línea de comandos de OneFS o la interfaz de administración web de OneFS para apagar el clúster. Este método requiere menos tiempo que el paso 3, pero hace que sea más difícil identificar los nodos que encuentran problemas durante el proceso de apagado.
- Isilon recomienda aislar el clúster de los clientes para asegurarse de que los clientes con actividad intensiva de escritura no impidan el procedimiento de apagado. Para ello, deshabilite los servicios orientados al cliente que se ejecutan en el clúster. Realice el siguiente procedimiento para deshabilitar los servicios orientados al cliente:
- Identifique los servicios o protocolos orientados al cliente que se ejecutan en el clúster mediante la ejecución de los siguientes comandos para cada servicio orientado al cliente:
isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd
- B. Documente los servicios que están "habilitados" en el clúster en función del resultado de cada comando. Seleccionado en el siguiente ejemplo, el servicio SMB está habilitado, mientras que el servicio NFS está deshabilitado:
mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#
- Deshabilite los servicios orientados al cliente. Después de este paso, todos los clientes pierden inmediatamente la conexión con el clúster. Para deshabilitar un servicio, ejecute el siguiente comando relacionado con el servicio que habilitó.
isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable
Si tiene clientes iSCSI, asegúrese de que los clientes iSCSI hayan desmontado sus LUN antes de realizar el paso 2. Ejecute el comando isi iscsi list
para confirmar que todos los clientes iSCSI estén desconectados del clúster.
Nota: Si está deshabilitando el servicio iSCSI, asegúrese de haber apagado los clientes iSCSI antes de ejecutar isi_iscsi_d disable
comando. La interrupción de un LUN iSCSI montado podría provocar daños en el cliente, lo que, por lo general, requiere recuperación desde el respaldo.
- Transfiera las escrituras de datos almacenadas en los registros de nodos al sistema de archivos mediante la ejecución del
isi_for_array isi_flush
comando. En cada nodo, aparecen resultados similares a los siguientes:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.
Nota: En un clúster grande con una gran cantidad de escrituras pendientes, este paso puede tardar varios minutos en completarse.
Si un nodo no puede vaciar sus datos, recibirá un resultado similar al siguiente, en el que el nodo 1 y el nodo 2 fallan en su comando de vaciado:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty
Ejecute el comando isi_for_array isi_flush
comando de nuevo. Si algún nodo no se puede vaciar, comuníquese con el soporte técnico de Dell Isilon. Todos los nodos se deben vaciar correctamente antes de continuar con el siguiente paso.
Nota: Si elimina una fuente de energía de un nodo que no ha vaciado datos de su registro al sistema de archivos, el riesgo de pérdida de datos aumenta considerablemente. Comuníquese con el soporte técnico de Dell Isilon si necesita ayuda con el procedimiento de apagado.
- Apague cada nodo del clúster de forma secuencial y monitoree la salida. Este enfoque se recomienda porque le permite identificar y resolver cualquier problema antes de apagar el siguiente nodo del clúster. Apague cada nodo mediante los siguientes pasos:
Advertencia: NO ejecute el comando isi_for_array shutdown -p
para apagar el clúster.
Cualquier nodo que entre en estado de alarma o se reinicie en este paso es un nodo que requiere más investigación. En particular, todos los nodos deben vaciar los datos del registro del nodo al sistema de archivos antes de continuar.
Advertencia: Si elimina una fuente de energía de un nodo que no ha vaciado datos de su registro al sistema de archivos, el riesgo de pérdida de datos aumenta considerablemente. Comuníquese con el soporte técnico de Dell Isilon si necesita ayuda con el procedimiento de apagado.
- Conecte una consola en serie a cada nodo.
- Ejecute el siguiente comando:
isi config
shutdown
Cuando el nodo se apaga correctamente, aparece una salida similar a la siguiente:
Powering the system off using ACPI
Nota: Si no tiene acceso a los nodos a través de un switch de teclado, video y mouse (KVM) y, en su lugar, debe utilizar una laptop, este paso puede tardar horas en completarse.
- C. Observe la consola y busque eventos de falla relacionados con el hardware. Los guardados correctos del registro del nodo se seleccionan en las siguientes variaciones de salida:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.
An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Si recibe un error que indica que el registro del nodo no guardó, puede guardar manualmente el registro mediante los pasos de la fase 3.
Apague todos los nodos del clúster simultáneamente.
Si se produce una emergencia, puede apagar todos los nodos del clúster simultáneamente. Sin embargo, este método no se recomienda porque no le permite monitorear el estado y la salida de cada nodo en caso de que se produzca un problema. Si decide seguir estos pasos, Dell recomienda encarecidamente seguir todos los pasos de la fase 3 para verificar que todos los nodos se hayan apagado correctamente después de realizar los procedimientos que se indican a continuación.
Nota: Cualquier nodo que entre en estado de alarma o se reinicie en este paso es un nodo que requiere más investigación. En particular, todos los nodos deben vaciar los datos del registro del nodo al sistema de archivos antes de continuar.
Advertencia: Si elimina una fuente de energía de un nodo que no ha vaciado datos de su registro al sistema de archivos, el riesgo de pérdida de datos aumenta considerablemente. Comuníquese con el soporte técnico de Dell Isilon si necesita ayuda con el procedimiento de apagado.
Para apagar todos los nodos del clúster, utilice la interfaz de línea de comandos de OneFS o la interfaz de administración web de OneFS.
En la interfaz de línea de comandos de OneFS, ejecute el siguiente comando:
# isi config shutdown all
Nota: NO ejecute el comando isi_for_array shutdown -p
para apagar el clúster desde la interfaz de administración web de OneFS, en OneFS 8.0 y versiones posteriores.
Fase 3: Verifique que los nodos se hayan apagado correctamente.
Confirme que los nodos se hayan apagado correctamente observando el diodo emisor de luz (LED) indicador de alimentación en la parte posterior del nodo. Todos los LED indicadores de alimentación deben aparecer oscuros o apagados. Esto indica que el nodo se apagó correctamente.
Advertencia: Si un nodo no se apagó correctamente y desconecta la fuente de alimentación del nodo, la posibilidad de pérdida de datos aumenta considerablemente. La recuperación de datos requiere un procedimiento de recuperación prolongado y, a veces, una reconstrucción completa del clúster.
Advertencia: Comuníquese con el soporte técnico de Dell si tiene dudas sobre el éxito de la operación de apagado, por ejemplo, si el nodo no se apaga o el registro no se guarda.
Si la luz indicadora de alimentación en la parte posterior del nodo sigue encendida, significa que el nodo no se ha apagado. Si el nodo no se ha apagado o si recibe un resultado de consola que indica que el registro del nodo no se guardó correctamente (desde la
fase 2, paso 3C), debe guardar manualmente el registro para asegurarse de que esos datos se confirmen en el disco antes de apagar el nodo.
- Para guardar manualmente el registro y apagar el nodo, realice los siguientes pasos:
- Si el nodo responde a la interfaz de la línea de comandos, reinicie el nodo mediante la ejecución del siguiente comando:
# isi config reboot
- Si el nodo no responde a la interfaz de línea de comandos, reinicie manualmente el nodo manteniendo presionado el botón de encendido en la parte posterior del nodo. Esto hace que el nodo se apague. Espere 30 segundos y, a continuación, presione el botón de encendido una vez para arrancar el respaldo del nodo nuevamente. Avance al siguiente paso.
Advertencia: Se recomienda reiniciar manualmente el nodo solo para este paso. No apague manualmente el nodo por ninguna otra condición. Puede provocar la pérdida de datos.
- Después de reiniciar el nodo, vuelva a iniciar sesión y realice los siguientes pasos para guardar el registro:
- Intente volver a apagar correctamente el nodo mediante la ejecución del siguiente comando:
# isi config shutdown
- Si el resultado aún indica que el registro no se guardó, guarde manualmente el registro mediante la ejecución del siguiente comando:
# isi_save_journal
- Si el registro aún no se guarda, desmonte el sistema de archivos /ifs y fuerce el guardado del registro mediante la ejecución de los siguientes comandos:
# isi_kill_busy && umount /ifs
- Ejecute el comando isi_checkjournal para verificar que el registro se haya guardado.
# isi_checkjournal
- No vaya al paso siguiente hasta que la salida indique que el registro se guardó correctamente.
Comuníquese con el soporte técnico de Dell si es necesario.
Fase 4: Desconecte la fuente de alimentación.
Solo entonces se puede desconectar la fuente de alimentación del clúster después de que el clúster se haya apagado correctamente y los nodos estén apagados.
Advertencia: Si un nodo no se apagó correctamente, no desconecte la fuente de alimentación del nodo. Esto puede provocar la pérdida de datos, un procedimiento de recuperación prolongado y, en ocasiones, una reconstrucción completa del clúster.
Baterías de
NVRAMCuando un cliente escribe un archivo en un nodo, las escrituras se almacenan primero en la RAM no volátil (NVRAM) alojada en la tarjeta de registro del nodo. Algún tiempo después, OneFS confirma esas escrituras en el disco. Para proteger los datos almacenados en NVRAM en caso de una interrupción de alimentación no programada, cada nodo está equipado con baterías de NVRAM (dos para redundancia). Un nodo que está apagado, pero que permanece conectado a una fuente de alimentación, continúa actualizando sus baterías NVRAM. Cuando la fuente de alimentación se desconecta del nodo, las baterías de NVRAM comienzan a agotarse. La duración de la batería en la generación actual de nodos (X200, S200, X400 y NL400) es de aproximadamente cinco días. En la generación anterior de nodos, la duración de la batería de NVRAM es de aproximadamente tres días.
Dell Technologies recomienda apagar correctamente los nodos para evitar depender de baterías NVRAM durante un período de tiempo considerable durante una interrupción de la alimentación.
Nota: Para obtener más información sobre cómo Isilon utiliza la NVRAM para preservar la integridad de los datos, consulte la sección "Estructura del sistema de archivos" en las guías de administración de la CLI y la administración web de OneFS.
Si las baterías de NVRAM de un nodo se agotan por completo, el nodo arranca en modo de solo lectura y permanece en modo de solo lectura durante aproximadamente 30 minutos hasta que las baterías de NVRAM se cargan por completo. Cuando se recargan las baterías, el nodo vuelve automáticamente al modo normal de lectura/escritura.
Advertencia: Si los datos aún se almacenan en la NVRAM debido a un apagado incorrecto, y un nodo se queda sin alimentación del sistema durante más tiempo que la duración de la batería de la NVRAM, experimentará pérdida de datos, un procedimiento de recuperación prolongado y, a veces, una reconstrucción completa del clúster.
Fase 5: Encienda cada nodo del clúster.
Estos pasos se realizarán cuando esté listo para reiniciar el clúster de Isilon.
- Restaure la fuente de alimentación a cada nodo.
- Presione el botón de encendido en el panel frontal o en la parte posterior de cada nodo para encenderlos.
- Una vez que todos los nodos se hayan encendido, ejecute el comando
isi status -q
para revisar el estado del clúster. Verifique que todos los nodos estén en buen estado en la columna DASR de estado y que no estén en modo de solo lectura (R) antes de continuar. Para un clúster en buen estado, debe aparecer una salida similar a la siguiente:
Cluster Name: mycluster
Cluster Health: [ OK ]
Cluster Storage: HDD SSD
Size: 11G (23G Raw) 0 (0 Raw)
VHS Size: 11G
Used: 7.9G (69%) 0 (n/a)
Avail: 3.5G (31%) 0 (n/a)
Health Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR | In Out Total| Used / Size |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs)
2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs)
3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs)
4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Consulte la lista de servicios habilitados que se crearon en la fase 2, paso 1b y habilite los servicios que se deshabilitaron mediante la ejecución de uno o más de los siguientes comandos:
isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable
- Verifique que los clientes puedan conectarse al clúster y realizar sus flujos de trabajo habituales. El clúster debe funcionar con normalidad.
- Uploy una recopilación completa de registros
# isi_gather_info --esrs
- Realice o solicite una evaluación del estado de Isilon por parte del equipo reactivo remoto (servicio al cliente).
Pasos para ejecutar evaluaciones del estado.
PowerScale: Cómo ejecutar la herramienta de análisis de clústeres de IOCA.
- Solicitar una evaluación del estado mediante el equipo de soporte reactivo remoto
Esto está disponible para todos los clientes con un acuerdo de mantenimiento activo para clústeres en versiones de código compatibles.
Si cumple con estos requisitos, abra una solicitud de servicio (SR) en el sitio de soporte en línea de Dell para solicitar una "evaluación del estado de Isilon".
* La evaluación del estado no está destinada a solucionar problemas del clúster ni a evaluar la configuración, el rendimiento o el flujo de trabajo del clúster.