Introduction
Cet article fournit la procédure à suivre pour arrêter correctement votre cluster Dell Isilon et inclut des informations sur les risques associés à un arrêt incorrect du cluster.
Attention : L’arrêt incorrect du cluster peut entraîner des problèmes de disponibilité et d’intégrité des données.
Dans un cluster, les nœuds arrêtés incorrectement ne doivent pas rester sans alimentation électrique pendant une période supérieure à la durée de vie de la batterie NVRAM, qui est d’environ 3 à 5 jours, en fonction du type de nœud. Si un nœud conserve encore des données dans son journal et qu’il est sans alimentation électrique au-delà de la durée de vie de la batterie NVRAM, les données sont perdues et le cluster doit être reconstruit.
Si vous avez des questions sur les procédures ou les informations de cet article, contactez le support technique Dell Isilon.
Procédure
Pour arrêter le cluster, il faut avoir les informations d’identification root et l’accès à la console série pour tous les nœuds du cluster. La procédure est divisée en cinq phases.
Lisez l’intégralité de la procédure avant de commencer le processus d’arrêt. Vous vous assurez ainsi de comprendre le contexte et l’ordre de réalisation de chaque étape.
Attention : Si vous exécutez une version de OneFS qui a atteint sa fin de durée de vie (EOSL), effectuez une mise à niveau vers une version prise en charge de OneFS.
Phase 1 : Effectuez une maintenance préventive.
Ces étapes sont effectuées environ 4 à 8 semaines avant l’arrêt planifié. L’objectif de cette phase est d’identifier les problèmes matériels ou de firmware inconnus ou latents qui peuvent entraver la procédure d’arrêt.
Attention : Dell vous recommande vivement de suivre toutes les étapes de la phase 1 avant d’arrêter votre cluster Isilon.
Si les circonstances nécessitent un arrêt immédiat à l’échelle du cluster, vous pouvez arrêter tous les nœuds simultanément à l’aide de l’interface de ligne de commande OneFS ou de l’interface d’administration Web OneFS.
En cas de procédure d’arrêt d’urgence, Dell recommande vivement de suivre toutes les étapes de la
phase 3 pour préserver l’intégrité des données en cas d’arrêt d’urgence.
- Chargez les journaux pour une référence ultérieure en cas de besoin.
# isi_gather_info
- Effectuez ou demandez un contrôle d’intégrité Isilon.
- L’intégrité du cluster est ainsi évaluée pour s’assurer qu’il est dans un bon état opérationnel et compatible.
- Elle peut être effectuée par le client à l’aide de PowerScale : exécution de l’outil Isilon On-Cluster Analysis
- Elle peut être effectuée par l’équipe du support réactif (support client). Cela est disponible pour tous les clients disposant d’un contrat de maintenance actif pour les clusters sur les versions de code prises en charge. Si vous répondez à ces exigences, ouvrez une demande de service (SR) sur le site de support en ligne Dell pour demander un « contrôle d’intégrité Isilon ». Fournissez également les journaux complets pour le contrôle d’intégrité en exécutant la commande suivante
# isi_gather_info
* Le contrôle d’intégrité n’est pas destiné à résoudre les problèmes de cluster ou à évaluer la configuration, les performances ou le workflow du cluster.
- Effectuez un « redémarrage à froid » de chaque nœud en procédant comme suit. Une fenêtre de maintenance doit être planifiée pour cette activité.
Remarque : Ce processus vous permet d’identifier les erreurs de mémoire ou les modes de défaillance de disque détectés uniquement lorsque le nœud est remis sous tension.
Remarque : Ce processus perturbe toutes les connexions, à l’exception de NFSv3. Contactez le support Isilon pour obtenir des instructions sur un processus plus long qui n’interrompt pas l’activité du client pendant le redémarrage des nœuds pour ce test de maintenance.
- Arrêtez chaque nœud de votre cluster un par un. Pour arrêter chaque nœud :
- Ouvrez une connexion SSH à n’importe quel nœud. Arrêtez chaque nœud en exécutant la commande suivante
isi config
shutdown <node_lnn>
- Assurez-vous que chaque nœud est hors tension en vérifiant que le voyant d’alimentation vert à l’arrière du nœud n’est plus allumé.
- Appuyez sur le bouton d’alimentation afin de remettre le nœud sous tension.
- Vérifiez que le nœud s’est réintégré au cluster et est en bonne santé en exécutant la commande
isi status -q
et en recherchant OK dans la colonne Health DASR de la sortie.
- Si un nœud rencontre des problèmes indiqués dans la colonne Health DASR ou ne parvient pas à rejoindre le cluster, résolvez ces problèmes avant d’arrêter le nœud suivant.
Un exemple de problème est sélectionné. Le nœud 1 a rejoint le cluster avec succès, mais la colonne Health DASR indique qu’il nécessite une intervention.
mycluster-1# isi status -q
Cluster Name: mycluster
Cluster Health: [ ATTN]
Cluster Storage: HDD SSD
Size: 11G (23G Raw) 0 (0 Raw)
VHS Size: 11G
Used: 7.9G (69%) 0 (n/a)
Avail: 3.5G (31%) 0 (n/a)
Health Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR | In Out Total| Used / Size |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs)
2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs)
3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs)
4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Vérifiez l’intégrité de l’ensemble de votre cluster après avoir redémarré chaque nœud. Ouvrez une connexion SSH à n’importe quel nœud et exécutez la commande ci-dessous :
isi status -q
Vérifiez que la colonne Health DASR de chaque nœud indique OK.
Remarque : Si le temps ne vous permet pas d’adopter une approche de redémarrage à froid pour chaque nœud, vous pouvez découvrir proactivement certains problèmes matériels latents en effectuant un redémarrage consécutif ou un « redémarrage à chaud » en exécutant la commande suivante pour chaque nœud :
isi config
reboot <node_lnn>
Toutefois, Dell recommande vivement d’utiliser l’approche de redémarrage à froid pour identifier plus efficacement les problèmes matériels latents.
Phase 2 : Arrêtez chaque nœud du cluster.
Ces étapes doivent être effectuées le jour de l’arrêt de votre cluster Isilon. Lors d’un arrêt à l’échelle du cluster, certains facteurs peuvent avoir un impact sur le processus d’arrêt ou le retarder. Par exemple, les écritures de données en attente sur un nœud peuvent affecter l’arrêt. L’objectif des étapes 1 et 2 est de s’assurer que tous les clients sont déconnectés du cluster et que les données sont correctement enregistrées à partir des journaux de nœuds dans le système de fichiers avant d’exécuter la commande d’arrêt. Si vous disposez de clients iSCSI, assurez-vous d’arrêter les clients avant que le service iSCSI ne soit désactivé.
L’étape 3 explique comment arrêter chaque nœud de votre cluster de manière séquentielle à l’aide d’une console série. Cette méthode est recommandée, car elle vous permet de vérifier que chaque nœud est correctement arrêté avant de passer au nœud suivant, et d’effectuer les ajustements ou de résoudre les problèmes nécessaires pour garantir un arrêt correct du cluster. Cependant, cette méthode peut prendre beaucoup de temps, car il faut connecter une console série à chaque nœud afin d’exécuter la commande d’arrêt. La section Arrêter tous les nœuds de votre cluster simultanément explique comment utiliser l’interface de ligne de commande OneFS ou l’interface d’administration Web OneFS pour arrêter votre cluster. Moins chronophage que l’étape 3, cette méthode rend plus difficile l’identification des nœuds qui rencontrent des problèmes lors du processus d’arrêt.
- Isilon suggère de séparer le cluster des clients afin de garantir qu’un client qui consomme beaucoup d’écritures ne perturbe pas la procédure d’arrêt du cluster. Pour ce faire, désactivez les services orientés client qui s’exécutent sur votre cluster. Procédez comme suit pour désactiver les services orientés client :
- Identifiez les services ou protocoles orientés client qui s’exécutent sur votre cluster en exécutant les commandes suivantes pour chaque service orienté client :
isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd
- B. Documentez les services qui sont « activés » sur votre cluster en fonction du résultat de chaque commande. Sélectionné dans l’exemple ci-dessous, le service SMB est activé tandis que le service NFS est désactivé :
mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#
- Désactivez les services orientés client. À l’issue de cette étape, tous les clients perdent immédiatement la connexion au cluster. Pour désactiver un service, exécutez la commande suivante liée au service que vous avez activé.
isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable
Si vous disposez de clients iSCSI, assurez-vous que les clients iSCSI ont démonté leurs LUN avant d’effectuer l’étape 2. Exécutez la commande isi iscsi list
pour confirmer que tous les clients iSCSI sont déconnectés du cluster.
Remarque : Si vous désactivez le service iSCSI, assurez-vous d’avoir arrêté tous les clients iSCSI avant de lancer la commande. isi_iscsi_d disable
. L’interruption d’une LUN iSCSI montée peut endommager le client, ce qui nécessite généralement une restauration à partir d’une sauvegarde.
- Transférez les écritures de données stockées dans les journaux de nœuds vers le système de fichiers en exécutant la commande
isi_for_array isi_flush
. Un résultat similaire à celui qui suit apparaît sur chaque nœud :
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.
Remarque : Sur un grand cluster avec un nombre élevé d’écritures en attente, cette étape peut prendre plusieurs minutes.
Si un nœud ne parvient pas à vider ses données, vous recevez un résultat similaire à ce qui suit, où le nœud 1 et le nœud 2 échouent à exécuter la commande de vidage :
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty
Exécutez la commande isi_for_array isi_flush
à nouveau. En cas de problème lors du vidage d’un nœud, veuillez contacter le support technique Dell Isilon. Tous les nœuds doivent être vidés avec succès avant de passer à l’étape suivante.
Remarque : Si vous retirez une source d’alimentation d’un nœud qui n’a pas vidé les données de son journal vers le système de fichiers, le risque de perte de données augmente considérablement. Si vous avez besoin d’aide pour la procédure d’arrêt, contactez le support technique Dell Isilon.
- Arrêtez chaque nœud du cluster de manière séquentielle et surveillez la sortie. Cette approche est recommandée, car elle vous permet d’identifier et de résoudre les problèmes avant d’arrêter le nœud suivant du cluster. Arrêtez chaque nœud en procédant comme suit :
Attention : N’exécutez PAS la commande isi_for_array shutdown -p
pour arrêter le cluster.
Tout nœud qui présente un dysfonctionnement ou redémarre à cette étape est un nœud qui nécessite une investigation plus approfondie. Plus précisément, tous les nœuds doivent vider les données du journal des nœuds vers le système de fichiers avant de continuer.
Avertissement : Si vous retirez une source d’alimentation d’un nœud qui n’a pas vidé les données de son journal vers le système de fichiers, le risque de perte de données augmente considérablement. Si vous avez besoin d’aide pour la procédure d’arrêt, contactez le support technique Dell Isilon.
- Raccordez une console série à chaque nœud.
- Exécutez la commande suivante :
isi config
shutdown
Lors de l’arrêt réussi du nœud, une sortie similaire à la suivante s’affiche :
Powering the system off using ACPI
Remarque : Si vous n’avez pas accès à vos nœuds via un commutateur KVM (clavier, vidéo, souris) et que vous devez utiliser un ordinateur portable, cette étape peut prendre plusieurs heures.
- C. Visionnez la console et recherchez les événements de défaillance liés au matériel. Les sauvegardes réussies du journal de nœuds sont sélectionnées dans les variations de sortie suivantes :
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.
An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Si vous recevez une erreur indiquant que le journal du nœud n’a pas été enregistré, vous pouvez enregistrer manuellement le journal en effectuant les étapes de la phase 3.
Arrêtez tous les nœuds du cluster en même temps.
En cas d’urgence, vous pouvez arrêter simultanément tous les nœuds du cluster. Toutefois, cette méthode n’est pas recommandée, car elle ne vous permet pas de surveiller l’état et la sortie de chaque nœud en cas de problème. Si vous choisissez de suivre ces étapes, Dell vous recommande vivement de suivre toutes les étapes de la phase 3 pour vérifier que tous les nœuds se sont correctement arrêtés après avoir effectué les procédures ci-dessous.
Remarque : Tout nœud qui présente un dysfonctionnement ou redémarre à cette étape est un nœud qui nécessite une investigation plus approfondie. Plus précisément, tous les nœuds doivent vider les données du journal des nœuds vers le système de fichiers avant de continuer.
Avertissement : Si vous retirez une source d’alimentation d’un nœud qui n’a pas vidé les données de son journal vers le système de fichiers, le risque de perte de données augmente considérablement. Si vous avez besoin d’aide pour la procédure d’arrêt, contactez le support technique Dell Isilon.
Pour arrêter tous les nœuds de votre cluster, utilisez l’interface de ligne de commande OneFS ou l’interface d’administration Web OneFS.
À partir de l’interface de ligne de commande de OneFS, exécutez la commande suivante :
# isi config shutdown all
Remarque : N’exécutez PAS la commande isi_for_array shutdown -p
Pour arrêter votre cluster à partir de l’interface d’administration Web OneFS, dans OneFS 8.0 et versions ultérieures.
Phase 3 : Assurez-vous que les nœuds ont été arrêtés avec succès.
Vérifiez que les nœuds ont été correctement mis hors tension en regardant le voyant lumineux à l’arrière de chaque nœud. Toutes les LED d’indicateur de puissance doivent apparaître sombres, voire éteintes. Cela indique que le nœud s’est arrêté avec succès.
Avertissement : Si un nœud ne parvient pas à s’arrêter correctement et que vous débranchez la source d’alimentation du nœud, le risque de perte de données augmente considérablement. La récupération des données nécessite une longue procédure de récupération et parfois une reconstruction complète du cluster.
Avertissement : Contactez le support technique Dell si vous avez des doutes sur la réussite de l’opération d’arrêt, par exemple si le nœud ne s’arrête pas ou si le journal n’est pas enregistré.
Si le voyant d’alimentation à l’arrière du nœud est toujours allumé, cela signifie que le nœud ne s’est pas arrêté. Si le nœud ne s’est pas arrêté ou si vous recevez une sortie de la console indiquant que le journal du nœud n’a pas été enregistré correctement (à partir de
la phase 2, étape 3C), vous devez enregistrer manuellement le journal pour vous assurer que les données sont validées sur le disque avant d’arrêter le nœud.
- Pour enregistrer manuellement le journal et arrêter le nœud, procédez comme suit :
- Si le nœud répond à l’interface de ligne de commande, redémarrez le nœud en exécutant la commande suivante :
# isi config reboot
- Si le nœud ne répond pas à l’interface de ligne de commande, redémarrez manuellement le nœud en appuyant sur le bouton d’alimentation situé à l’arrière du nœud et en le maintenant enfoncé. Cela entraîne la mise hors tension du nœud. Attendez 30 s, puis appuyez une fois sur le bouton d’alimentation pour redémarrer la sauvegarde du nœud. Passez à l’étape suivante.
Avertissement : Il est recommandé de redémarrer manuellement le nœud pour cette étape uniquement. N’arrêtez pas manuellement le nœud pour toute autre condition. Cela peut entraîner une perte de données.
- Après le redémarrage du nœud, reconnectez-vous et suivez les étapes suivantes pour enregistrer le journal :
- Essayez à nouveau d’arrêter correctement le nœud en exécutant la commande suivante :
# isi config shutdown
- Si la sortie indique toujours que le journal n’a pas été enregistré, enregistrez manuellement le journal en exécutant la commande suivante :
# isi_save_journal
- Si le journal n’est toujours pas enregistré, démontez le système de fichiers /ifs, puis forcez l’enregistrement du journal en exécutant les commandes suivantes :
# isi_kill_busy && umount /ifs
- Vérifiez que le journal est enregistré en exécutant la commande isi_checkjournal.
# isi_checkjournal
- Ne passez pas à l’étape suivante tant que la sortie n’indique pas que le journal a été enregistré avec succès.
Contactez le support technique Dell si besoin.
Phase 4 : Débranchez la source d’alimentation.
Après l’arrêt réussi du cluster et la mise hors tension des nœuds, la source d’alimentation peut être déconnectée du cluster.
Avertissement : Si un nœud n’a pas été arrêté avec succès, ne débranchez pas la source d’alimentation du nœud. Cela peut entraîner une perte de données, une longue procédure de récupération et parfois une reconstruction complète du cluster.
Batteries NVRAM
Lorsqu’un client écrit un fichier sur un nœud, les écritures sont d’abord stockées dans la RAM non volatile (NVRAM) hébergée sur la carte journal du nœud. Plus tard, OneFS valide ces écritures sur le disque. Pour protéger les données stockées dans la NVRAM en cas de panne de courant non planifiée, chaque nœud est équipé de batteries NVRAM (deux pour la redondance). Un nœud qui est hors tension mais reste connecté à une source d’alimentation continue d’actualiser ses batteries NVRAM. Lorsque la source d’alimentation est déconnectée du nœud, les batteries NVRAM commencent à se décharger. L’autonomie de la batterie de la génération actuelle de nœuds (X200, S200, X400 et NL400) est d’environ cinq jours. Dans la génération précédente de nœuds, l’autonomie de la batterie NVRAM est d’environ trois jours.
Dell Technologies recommande d’éteindre correctement les nœuds pour éviter de devoir compter sur les batteries NVRAM pendant une longue durée en cas de panne de courant.
Remarque : Pour plus d’informations sur la façon dont Isilon utilise la NVRAM pour préserver l’intégrité des données, reportez-vous à la section « Structure du système de fichiers » des guides d’administration Web et CLI OneFS.
Si les batteries NVRAM d’un nœud se déchargent complètement, le nœud démarre en mode lecture seule et reste en mode lecture seule pendant environ 30 minutes jusqu’à ce que les batteries NVRAM se chargent complètement. Lorsque les batteries sont rechargées, le nœud revient automatiquement au mode de lecture/écriture normal.
Avertissement : Si les données sont toujours stockées dans la NVRAM en raison d’un arrêt incorrect et qu’un nœud reste sans alimentation du système pendant une durée supérieure à la durée de vie de la batterie NVRAM, vous êtes confronté à une perte de données, à une procédure de récupération longue et parfois à une reconstruction complète du cluster.
Phase 5 : Mettez sous tension chaque nœud du cluster.
Ces étapes doivent être effectuées lorsque vous êtes prêt à redémarrer votre cluster Isilon.
- Restaurez la source d’alimentation de chaque nœud.
- Appuyez sur le bouton d’alimentation situé sur le panneau avant ou à l’arrière de chaque nœud pour les démarrer.
- Après la mise sous tension de tous les nœuds, exécutez la commande
isi status -q
pour vérifier l’intégrité de votre cluster. Vérifiez que tous les nœuds sont OK dans la colonne Health DASR et qu’ils ne sont pas en mode lecture seule (R) avant de continuer. Pour un cluster sain, une sortie similaire à ce qui suit doit s’afficher :
Cluster Name: mycluster
Cluster Health: [ OK ]
Cluster Storage: HDD SSD
Size: 11G (23G Raw) 0 (0 Raw)
VHS Size: 11G
Used: 7.9G (69%) 0 (n/a)
Avail: 3.5G (31%) 0 (n/a)
Health Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR | In Out Total| Used / Size |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs)
2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs)
3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs)
4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Consultez la liste des services activés qui a été générée lors de la phase 2, étape 1b et activez les services qui avaient été désactivés en exécutant l’une ou plusieurs des commandes suivantes :
isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable
- Assurez-vous que vos clients peuvent se connecter au cluster et exécuter leurs workflows habituels. Votre cluster devrait fonctionner normalement.
- Charger un journal d’événements complet
# isi_gather_info --esrs
- Effectuez ou demandez un contrôle d’intégrité Isilon par l’équipe du support réactif (support client).
Étapes d’exécution des contrôles d’intégrité.
PowerScale : Exécution de l’outil Isilon On-Cluster Analysis.
- Demandez un contrôle d’intégrité auprès de l’équipe du support réactif
Tous les clients disposant d’un contrat de maintenance valide pour des clusters sur des versions de code prises en charge peuvent en bénéficier.
Si vous répondez à ces exigences, ouvrez une demande de service (SR) sur le site de support en ligne Dell pour demander un « bilan de santé Isilon ».
*Le contrôle d’intégrité n’est pas destiné à résoudre les problèmes de cluster ou à évaluer la configuration, les performances ou le workflow du cluster.