Introduction
Cet article décrit la procédure d’arrêt correct de votre cluster Dell Isilon et inclut des informations sur les risques associés à un arrêt incorrect du cluster.
Attention : Un arrêt incorrect du cluster peut entraîner des problèmes de disponibilité et d’intégrité des données.
Les nœuds qui sont arrêtés de manière incorrecte dans le cluster ne doivent pas rester sans alimentation système au-delà de la durée de vie de la batterie NVRAM, qui est d’environ 3 à 5 jours, selon le type de nœud. Si les données sont toujours stockées dans un journal de nœud et qu’un nœud est privé d’alimentation système pendant une durée supérieure à la durée de vie de la batterie NVRAM, les données sont perdues et le cluster doit être reconstruit.
Contactez le support technique Dell Isilon pour obtenir de l’aide si vous avez des questions sur les procédures ou les informations décrites dans cet article.
Procédure
La procédure d’arrêt du cluster nécessite des informations d’identification root et un accès à la console série aux nœuds du cluster. La procédure est divisée en cinq phases.
Lisez l’intégralité de la procédure avant de commencer le processus d’arrêt. Cela vous permet de comprendre le contexte et l’ordre d’exécution de chaque étape.
Attention : Si vous exécutez une version de OneFS qui a atteint sa fin de durée de vie (EOSL), effectuez une mise à niveau vers une version prise en charge de OneFS.
Phase 1 : Effectuer une maintenance préventive.
Ces étapes sont effectuées environ 4 à 8 semaines avant l’arrêt planifié. L’objectif de cette phase est d’identifier les problèmes matériels ou de firmware inconnus ou latents susceptibles d’entraver la procédure d’arrêt.
Attention : Dell vous recommande vivement de suivre toutes les étapes de la phase 1 avant d’arrêter votre cluster Isilon.
Si les circonstances nécessitent un arrêt immédiat de l’ensemble du cluster, vous pouvez arrêter tous les nœuds simultanément à l’aide de l’interface de ligne de commande OneFS ou de l’interface d’administration Web OneFS.
Dell recommande vivement de suivre toutes les étapes de la
phase 3 pour préserver l’intégrité des données en cas de procédure d’arrêt d’urgence.
- Si nécessaire, téléchargez les journaux pour référence historique.
# isi_gather_info
- Exécuter ou demander un bilan de santé Isilon.
- Cela évalue l’intégrité du cluster pour s’assurer qu’il se trouve dans un bon état opérationnel supportable.
- Elle peut être effectuée par le client à l’aide de PowerScale : exécution de l’outil Isilon On-Cluster Analysis
- Elle peut être effectuée par l’équipe réactive à distance (support client). Elle est disponible pour tous les clients disposant d’un contrat de maintenance actif pour les clusters sur les versions de code prises en charge. Si vous remplissez ces conditions, ouvrez une demande de service (SR) sur le site de support en ligne Dell pour demander un « bilan de santé Isilon ». Et fournissez des journaux complets pour le bilan de santé en exécutant cette commande
# isi_gather_info
* Le bilan de santé n’est pas destiné à résoudre les problèmes de cluster ni à évaluer la configuration, les performances ou le workflow du cluster.
- Effectuez un « redémarrage à froid » de chaque nœud en procédant comme suit. Une fenêtre de maintenance doit être planifiée pour cette activité.
Remarque : Ce processus vous permet d’identifier les erreurs de mémoire ou les modes de défaillance des disques qui ne sont détectés que lorsque le nœud est remis sous tension.
Remarque : Ce processus perturbe toutes les connexions, à l’exception de NFSv3. Contactez le support Isilon pour obtenir de l’aide avec des instructions sur un processus plus long qui n’interrompt pas l’activité des clients pendant le redémarrage des nœuds pour ce test de maintenance.
- Arrêtez chaque nœud de votre cluster, un par un. Pour arrêter chaque nœud :
- Ouvrez une connexion SSH sur n’importe quel nœud. Arrêtez chaque nœud en exécutant la commande suivante
isi config
shutdown <node_lnn>
- Vérifiez que chaque nœud est hors tension en vérifiant que le voyant d’alimentation vert situé à l’arrière du nœud n’est plus allumé.
- Appuyez sur le bouton d’alimentation pour remettre le nœud sous tension.
- Vérifiez que le nœud a rejoint le cluster et qu’il est sain en exécutant la commande
isi status -q
et en recherchant OK dans la colonne Health DASR de la sortie.
- Si un nœud rencontre les problèmes indiqués dans la colonne Health DASR ou ne parvient pas à rejoindre le cluster, résolvez ces problèmes avant d’arrêter le nœud suivant.
Un exemple de problème est sélectionné. Le nœud 1 a rejoint le cluster avec succès, mais la colonne Health DASR indique qu’il nécessite une intervention.
mycluster-1# isi status -q
Cluster Name: mycluster
Cluster Health: [ ATTN]
Cluster Storage: HDD SSD
Size: 11G (23G Raw) 0 (0 Raw)
VHS Size: 11G
Used: 7.9G (69%) 0 (n/a)
Avail: 3.5G (31%) 0 (n/a)
Health Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR | In Out Total| Used / Size |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs)
2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs)
3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs)
4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Vérifiez l’intégrité de l’ensemble de votre cluster après avoir redémarré chaque nœud. Ouvrez une connexion SSH sur n’importe quel nœud et exécutez la commande ci-dessous :
isi status -q
Vérifiez que la colonne Health DASR de chaque nœud indique OK.
Remarque : Si le temps ne permet pas une approche de redémarrage à froid pour chaque nœud, vous pouvez découvrir proactivement certains problèmes matériels latents en effectuant un redémarrage répété ou un « redémarrage à chaud » en exécutant la commande suivante pour chaque nœud :
isi config
reboot <node_lnn>
Toutefois, Dell recommande vivement d’utiliser l’approche de redémarrage à froid pour identifier plus efficacement les problèmes matériels latents.
Phase 2 : Arrêtez chaque nœud du cluster.
Ces étapes doivent être effectuées le jour où vous arrêtez votre cluster Isilon. Lors d’un arrêt à l’échelle du cluster, certains facteurs peuvent affecter ou retarder le processus d’arrêt. Par exemple, des écritures de données inachevées sur un nœud peuvent avoir une incidence sur l’arrêt. L’objectif des étapes 1 et 2 est de s’assurer que tous les clients sont déconnectés du cluster et que les données sont correctement enregistrées à partir des journaux des nœuds vers le système de fichiers avant d’exécuter la commande shutdown. Si vous avez des clients iSCSI, assurez-vous d’arrêter les clients avant que le service iSCSI ne soit désactivé.
L’étape 3 explique comment arrêter chaque nœud de votre cluster de manière séquentielle à l’aide d’une console série. Cette méthode est recommandée, car elle vous permet de vérifier que chaque nœud est correctement arrêté avant de passer au nœud suivant, et d’effectuer des ajustements ou de résoudre les problèmes en fonction des besoins pour garantir un arrêt correct du cluster. Toutefois, cette méthode peut prendre du temps, car elle nécessite de connecter une console série à chaque nœud pour exécuter la commande shutdown. La section Arrêter simultanément tous les nœuds de votre cluster explique comment utiliser l’interface de ligne de commande OneFS ou l’interface d’administration Web OneFS pour arrêter votre cluster. Cette méthode prend moins de temps que l’étape 3, mais elle rend plus difficile l’identification des nœuds qui rencontrent des problèmes lors du processus d’arrêt.
- Isilon recommande d’isoler le cluster des clients pour s’assurer que les clients nécessitant beaucoup d’écritures n’entravent pas la procédure d’arrêt. Pour ce faire, désactivez les services orientés client qui s’exécutent sur votre cluster. Pour désactiver les services orientés client, procédez comme suit :
- Identifiez les services ou protocoles orientés client qui s’exécutent sur votre cluster en exécutant les commandes suivantes pour chaque service orienté client :
isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd
- D. D. Documentez les services « activés » sur votre cluster en fonction du résultat de chaque commande. Sélectionné dans l’exemple ci-dessous, le service SMB est activé tandis que le service NFS est désactivé :
mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#
- Désactivez les services orientés client. Après cette étape, tous les clients perdent immédiatement la connexion au cluster. Pour désactiver un service, exécutez la commande suivante liée au service que vous avez activé.
isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable
Si vous avez des clients iSCSI, assurez-vous que les clients iSCSI ont démonté leurs LUN avant d’effectuer l’étape 2. Exécutez la commande isi iscsi list
pour confirmer que tous les clients iSCSI sont déconnectés du cluster.
Remarque : Si vous désactivez le service iSCSI, assurez-vous d’avoir arrêté les clients iSCSI avant d’exécuter la isi_iscsi_d disable
. L’interruption d’un LUN iSCSI monté peut entraîner des dommages sur le client, ce qui nécessite généralement une récupération à partir d’une sauvegarde.
- Déplacez les écritures de données stockées dans les journaux des nœuds vers le système de fichiers en exécutant la commande
isi_for_array isi_flush
. Un résultat semblable à l’exemple suivant s’affiche sur chaque nœud :
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.
Remarque : Sur un grand cluster avec un grand nombre d’écritures en attente, cette étape peut prendre plusieurs minutes.
Si un nœud ne parvient pas à vider ses données, vous obtenez un résultat similaire à ce qui suit ci-dessous, où les nœuds 1 et 2 échouent leur commande de vidage :
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty
Exécutez la commande isi_for_array isi_flush
commande à nouveau. Si un nœud ne parvient pas à être vidé, contactez le support technique Dell Isilon. Tous les nœuds doivent être vidés avec succès avant de passer à l’étape suivante.
Remarque : Si vous retirez une source d’alimentation d’un nœud qui n’a pas vidé les données de son journal vers le système de fichiers, le risque de perte de données augmente considérablement. Contactez le support technique Dell Isilon si vous avez besoin d’aide pour la procédure d’arrêt.
- Arrêtez chaque nœud du cluster de manière séquentielle et surveillez la sortie. Cette approche est recommandée, car elle vous permet d’identifier et de résoudre les problèmes avant d’arrêter le nœud suivant du cluster. Arrêtez chaque nœud en procédant comme suit :
Attention : N’exécutez PAS la commande isi_for_array shutdown -p
pour arrêter votre cluster.
Tout nœud qui présente un fonctionnement inattendu ou redémarre à cette étape est un nœud nécessitant une procédure d’enquête plus approfondie. En particulier, tous les nœuds doivent vider les données du journal des nœuds vers le système de fichiers avant de continuer.
Avertissement : Si vous retirez une source d’alimentation d’un nœud qui n’a pas vidé les données de son journal vers le système de fichiers, le risque de perte de données augmente considérablement. Contactez le support technique Dell Isilon si vous avez besoin d’aide pour la procédure d’arrêt.
- Rattachez une console série à chaque nœud.
- Exécutez la commande suivante :
isi config
shutdown
Lorsque le nœud est arrêté avec succès, un résultat similaire à ce qui suit s’affiche :
Powering the system off using ACPI
Remarque : Si vous n’avez pas accès à vos nœuds via un commutateur clavier, vidéo, souris (KVM) et que vous devez utiliser un ordinateur portable à la place, cette étape peut prendre des heures.
- C. Surveillez la console et recherchez les événements de défaillance liés au matériel. Les enregistrements de journal de nœud réussis sont sélectionnés dans les variantes de sortie suivantes :
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.
An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Si vous recevez une erreur indiquant que le journal du nœud n’a pas enregistré, vous pouvez enregistrer manuellement le journal en effectuant les étapes de la phase 3.
Arrêtez tous les nœuds du cluster simultanément.
En cas d’urgence, vous pouvez arrêter tous les nœuds du cluster simultanément. Toutefois, cette méthode n’est pas recommandée, car elle ne vous permet pas de surveiller l’état et la sortie de chaque nœud en cas de problème. Si vous choisissez de suivre ces étapes, Dell vous recommande vivement de suivre toutes les étapes de la phase 3 pour vérifier que tous les nœuds se sont correctement arrêtés après avoir effectué les procédures ci-dessous.
Remarque : Tout nœud qui présente un fonctionnement inattendu ou redémarre à cette étape est un nœud nécessitant une procédure d’enquête plus approfondie. En particulier, tous les nœuds doivent vider les données du journal des nœuds vers le système de fichiers avant de continuer.
Avertissement : Si vous retirez une source d’alimentation d’un nœud qui n’a pas vidé les données de son journal vers le système de fichiers, le risque de perte de données augmente considérablement. Contactez le support technique Dell Isilon si vous avez besoin d’aide pour la procédure d’arrêt.
Pour arrêter tous les nœuds de votre cluster, utilisez l’interface de ligne de commande OneFS ou l’interface d’administration Web OneFS.
À partir de l’interface de ligne de commande OneFS, exécutez la commande suivante :
# isi config shutdown all
Remarque : N’exécutez PAS la commande isi_for_array shutdown -p
pour arrêter votre cluster à partir de l’interface d’administration Web de OneFS, dans OneFS 8.0 et versions supérieures.
Phase 3 : Vérifiez que les nœuds ont bien été arrêtés.
Vérifiez que les nœuds sont correctement arrêtés en examinant la diode électroluminescente (LED) du voyant d’alimentation située à l’arrière du nœud. Tous les voyants d’alimentation doivent apparaître sombres ou s’éteindre. Cela indique que le nœud a été arrêté avec succès.
Avertissement : Si un nœud ne s’est pas arrêté correctement et que vous déconnectez la source d’alimentation du nœud, le risque de perte de données augmente considérablement. La restauration des données nécessite une longue procédure de restauration, et parfois une reconstruction complète du cluster.
Avertissement : Contactez le support technique Dell si vous avez des doutes sur la réussite de l’opération d’arrêt, par exemple si le nœud ne s’arrête pas ou si le journal n’est pas enregistré.
Si le voyant d’alimentation situé à l’arrière du nœud est toujours allumé, cela signifie que le nœud n’est pas arrêté. Si le nœud ne s’est pas arrêté ou si vous recevez une sortie de console indiquant que le journal du nœud n’a pas été correctement enregistré (à partir de la
phase 2, étape 3C), vous devez enregistrer manuellement le journal pour vous assurer que les données sont validées sur le disque avant d’arrêter le nœud.
- Pour enregistrer manuellement le journal et arrêter le nœud, procédez comme suit :
- Si le nœud répond à l’interface de ligne de commande, redémarrez-le en exécutant la commande suivante :
# isi config reboot
- Si le nœud ne répond pas à l’interface de ligne de commande, redémarrez-le manuellement en appuyant sur le bouton d’alimentation situé à l’arrière du nœud et en le maintenant enfoncé. Cela entraîne la mise hors tension du nœud. Patientez 30 secondes, puis appuyez une fois sur le bouton d’alimentation pour redémarrer la sauvegarde du nœud. Passez à l’étape suivante.
Avertissement : Le redémarrage manuel du nœud est recommandé pour cette étape uniquement. N’arrêtez pas manuellement le nœud pour une autre condition. Cela peut entraîner une perte de données.
- Après avoir redémarré le nœud, reconnectez-vous et suivez les étapes suivantes pour enregistrer le journal :
- Essayez à nouveau d’arrêter correctement le nœud en exécutant la commande suivante :
# isi config shutdown
- Si la sortie indique toujours que le journal n’a pas été enregistré, enregistrez-le manuellement en exécutant la commande suivante :
# isi_save_journal
- Si le journal n’est toujours pas enregistré, démontez le système de fichiers, /ifs, puis forcez l’enregistrement du journal en exécutant les commandes suivantes :
# isi_kill_busy && umount /ifs
- Vérifiez que le journal est enregistré en exécutant la commande isi_checkjournal.
# isi_checkjournal
- Ne passez pas à l’étape suivante tant que le résultat n’indique pas que le journal a été enregistré avec succès.
Contactez le support technique Dell si nécessaire.
Étape 4 : Débranchez la source d’alimentation.
Ce n’est qu’une fois votre cluster arrêté et les nœuds mis hors tension que la source d’alimentation peut être déconnectée du cluster.
Avertissement : Si un nœud n’a pas été arrêté avec succès, ne débranchez pas sa source d’alimentation. Cela peut entraîner une perte de données, une longue procédure de récupération et parfois une reconstruction complète du cluster.
Batteries
NVRAMLorsqu’un client écrit un fichier sur un nœud, les écritures sont d’abord stockées dans la RAM non volatile (NVRAM) hébergée sur la carte journal du nœud. Un certain temps plus tard, OneFS valide ces écritures sur le disque. Pour protéger les données stockées dans la NVRAM en cas de panne d’alimentation non planifiée, chaque nœud est équipé de batteries NVRAM (deux pour la redondance). Un nœud qui est hors tension, mais reste connecté à une source d’alimentation continue d’actualiser ses batteries NVRAM. Lorsque la source d’alimentation est déconnectée du nœud, les batteries NVRAM commencent à se décharger. L’autonomie de la batterie dans la génération actuelle de nœuds (X200, S200, X400 et NL400) est d’environ cinq jours. Dans la génération précédente de nœuds, l’autonomie de la batterie NVRAM était d’environ trois jours.
Dell Technologies recommande d’arrêter correctement les nœuds afin d’éviter d’utiliser les batteries NVRAM pendant une longue période lors d’une panne d’alimentation.
Remarque : Pour plus d’informations sur la façon dont Isilon utilise la NVRAM pour préserver l’intégrité des données, reportez-vous à la section « Structure du système de fichiers » dans les guides d’administration Web OneFS et d’administration CLI.
Si les batteries NVRAM d’un nœud se déchargent complètement, le nœud démarre en mode lecture seule et reste en mode lecture seule pendant environ 30 minutes, jusqu’à ce que les batteries NVRAM soient complètement chargées. Lorsque les batteries sont rechargées, le nœud revient automatiquement en mode lecture/écriture normal.
Avertissement : Si les données sont toujours stockées dans la NVRAM en raison d’un arrêt incorrect et qu’un nœud est privé d’alimentation système pendant une durée supérieure à la durée de vie de la batterie NVRAM, vous subissez une perte de données, une longue procédure de récupération et parfois une reconstruction complète du cluster.
Étape 5 : Mettez sous tension chacun des nœuds du cluster.
Ces étapes doivent être effectuées lorsque vous êtes prêt à redémarrer votre cluster Isilon.
- Restaurez la source d’alimentation sur chaque nœud.
- Appuyez sur le bouton d’alimentation situé sur le panneau avant ou arrière de chaque nœud pour les démarrer.
- Une fois tous les nœuds sous tension, exécutez la commande
isi status -q
pour vérifier l’intégrité de votre cluster. Vérifiez que tous les nœuds sont OK dans la colonne Health DASR et ne sont pas en mode lecture seule (R) avant de continuer. Pour un cluster sain, un résultat similaire à ce qui suit doit s’afficher :
Cluster Name: mycluster
Cluster Health: [ OK ]
Cluster Storage: HDD SSD
Size: 11G (23G Raw) 0 (0 Raw)
VHS Size: 11G
Used: 7.9G (69%) 0 (n/a)
Avail: 3.5G (31%) 0 (n/a)
Health Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR | In Out Total| Used / Size |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs)
2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs)
3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs)
4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Reportez-vous à la liste des services activés qui a été créée lors de la phase 2, étape 1b et activez les services qui ont été désactivés en exécutant une ou plusieurs des commandes suivantes :
isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable
- Vérifiez que vos clients peuvent se connecter au cluster et exécuter leurs workflows habituels. Votre cluster doit fonctionner normalement.
- Mise à jourd’une collecte complète des logs
# isi_gather_info --esrs
- Effectuer ou demander un bilan de santé Isilon par l’équipe réactive à distance (support client).
Étapes d’exécution des bilans de santé.
PowerScale : Exécution de l’outil IOCA Cluster Analysis
- Demander un bilan de santé à l’aide de l’équipe de support réactif à distance
Elle est disponible pour tous les clients disposant d’un contrat de maintenance actif pour les clusters sur les versions de code prises en charge.
Si vous remplissez ces conditions, ouvrez une demande de service (SR) sur le site de support en ligne Dell pour demander un « bilan de santé Isilon ».
* Le bilan de santé n’est pas destiné à résoudre les problèmes de cluster ni à évaluer la configuration, les performances ou le workflow du cluster.