Introduktion
Den här artikeln innehåller anvisningar om hur du stänger av Dell Isilon-klustret på rätt sätt och innehåller information om riskerna med felaktig klusteravstängning.
Viktigt! Felaktig avstängning av klustret kan leda till problem med datatillgänglighet och integritet.
Noder som är felaktigt avstängda i klustret bör inte vara utan systemström under längre tid än NVRAM-batteriets livslängd, som är ungefär 3 till 5 dagar, beroende på nodtypen. Om data fortfarande lagras i en nodjournal och en nod är utan systemström under längre tid än NVRAM-batteriets livslängd, går data förlorade och klustret måste återskapas.
Kontakta teknisk support för Dell Isilon om du har frågor om procedurerna eller informationen i den här artikeln.
Procedur
Avstängningsproceduren för klustret kräver rotinloggningsuppgifter och seriell konsolåtkomst till noder i klustret. Förfarandet är indelat i fem faser.
Läs hela proceduren innan du påbörjar avstängningsprocessen. Detta säkerställer att du förstår kontexten och ordningen för att slutföra varje steg.
Viktigt! Om du kör en version av OneFS som har nått slutet av sin servicelivslängd (EOSL) uppgraderar du till en version av OneFS som stöds.
Fas 1: Utför förebyggande underhåll.
Dessa steg utförs cirka 4–8 veckor före den planerade avstängningen. Syftet med denna fas är att identifiera okända eller latenta problem med hårdvara eller fast mjukvara som kan hindra avstängningsproceduren.
Viktigt! Dell rekommenderar starkt att du följer alla steg i fas 1 innan du stänger av Isilon-klustret.
Om omständigheterna kräver en omedelbar avstängning av hela klustret kan du stänga av alla noder samtidigt med hjälp av OneFS-kommandoradsgränssnittet eller OneFS-webbadministrationsgränssnittet.
Dell rekommenderar starkt att du följer alla steg i
fas 3 för att bevara dataintegriteten om det finns en nödavstängningsprocedur.
- Ladda upp loggar för historisk referens om det behövs.
# isi_gather_info
- Utför eller begär en Isilon-hälsokontroll.
- Detta utvärderar klustrets hälsotillstånd för att säkerställa att det har en bra driftstatus som kan stödjas.
- Det kan utföras av kunden med hjälp av PowerScale: Så här kör du IOCA Cluster Analysis Tool
- Det kan utföras av Remote Reactive-teamet (kundsupport). Det här är tillgängligt för alla kunder med ett aktivt underhållsavtal för kluster på kodversioner som stöds. Om du uppfyller dessa krav öppnar du en tjänstebegäran (SR) på Dells supportwebbplats på webben och begär en "Isilon Health Check". Du tillhandahåller fullständiga loggar för hälsokontrollen genom att köra det här kommandot
# isi_gather_info
*Hälsokontrollen är inte avsedd att åtgärda klusterproblem eller utvärdera klustrets konfiguration, prestanda eller arbetsflöde.
- Utför en "kall omstart" av varje nod genom att utföra följande steg. En underhållsperiod bör schemaläggas för den här aktiviteten.
Obs! Den här processen gör att du kan identifiera eventuella minnesfel eller enhetsfellägen som bara upptäcks när noden slås på igen.
Obs! Den här processen stör alla anslutningar utom NFSv3. Kontakta Isilon-supporten för att få hjälp med instruktioner om en längre process som inte stör klientaktiviteten medan noderna startas om för det här underhållstestet.
- Stäng av varje nod i klustret en i taget. Så här stänger du av varje nod:
- Öppna en SSH-anslutning till valfri nod. Stäng av varje nod genom att köra följande kommando:
isi config
shutdown <node_lnn>
- Kontrollera att alla noder har stängts av genom att kontrollera att den gröna strömindikatorn på baksidan av noden inte längre lyser.
- Tryck på strömknappen för att slå på noden igen.
- Kontrollera att noden har återanslutit till klustret och är problemfri genom att köra
isi status -q
och letar efter OK i kolumnen Hälso-DASR i utdata.
- Om en nod stöter på problem som anges i kolumnen Hälso-DASR eller inte kan återansluta till klustret löser du dessa problem innan du stänger av nästa nod.
Ett exempel på ett problem väljs. Nod 1 har återanslutit klustret, men kolumnen Hälso-DASR anger att den behöver åtgärdas.
mycluster-1# isi status -q
Cluster Name: mycluster
Cluster Health: [ ATTN]
Cluster Storage: HDD SSD
Size: 11G (23G Raw) 0 (0 Raw)
VHS Size: 11G
Used: 7.9G (69%) 0 (n/a)
Avail: 3.5G (31%) 0 (n/a)
Health Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR | In Out Total| Used / Size |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs)
2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs)
3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs)
4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Dubbelkolla hälsotillståndet för hela klustret när du har startat om varje nod. Öppna en SSH-anslutning till valfri nod och kör kommandot nedan:
isi status -q
Kontrollera att varje nods hälso-DASR-kolumn är OK.
Obs! Om tiden inte tillåter kall omstart för varje nod kan du proaktivt upptäcka vissa latenta maskinvaruproblem genom att i stället utföra en löpande omstart eller "varm omstart" genom att köra följande kommando för varje nod:
isi config
reboot <node_lnn>
Dell rekommenderar dock starkt att du använder metoden med kall omstart för att mer effektivt identifiera latenta hårdvaruproblem.
Fas 2: Stäng av varje nod i klustret.
De här stegen ska utföras samma dag som du stänger av Isilon-klustret. Under en avstängning i hela klustret kan vissa faktorer påverka eller fördröja avstängningsprocessen. Till exempel kan utestående dataskrivningar till en nod påverka avstängningen. Syftet med steg 1–2 är att säkerställa att alla klienter är frånkopplade från klustret och att data sparas korrekt från nodjournaler i filsystemet innan du kör avstängningskommandot. Om du har iSCSI-klienter ska du se till att du stänger av klienterna innan iSCSI-tjänsten avaktiveras.
Steg 3 beskriver hur du stänger av varje nod i klustret sekventiellt med hjälp av en seriekonsol. Den här metoden rekommenderas eftersom den gör att du kan kontrollera att varje nod är korrekt avstängd innan du går vidare till nästa nod och göra justeringar eller åtgärda problem efter behov för att säkerställa en korrekt klusteravstängning. Den här metoden kan dock vara tidskrävande eftersom den kräver att en seriekonsol ansluts till varje nod för att köra avstängningskommandot. I avsnittet Stänga av alla noder i klustret samtidigt beskrivs hur du använder OneFS-kommandoradsgränssnittet eller OneFS-webbadministrationsgränssnittet för att stänga av klustret. Den här metoden är mindre tidskrävande än steg 3, men gör det svårare att identifiera noder som stöter på problem under avstängningsprocessen.
- Isilon rekommenderar att du isolerar klustret från klienter för att säkerställa att skrivintensiva klienter inte hindrar avstängningsproceduren. Du kan göra detta genom att inaktivera de klientriktade tjänster som körs i klustret. Utför följande procedur för att inaktivera klientriktade tjänster:
- Identifiera de klientriktade tjänster eller protokoll som körs i klustret genom att köra följande kommandon för varje klientriktad tjänst:
isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd
- B. B. Dokumentera de tjänster som är "aktiverade" i klustret baserat på utdata för varje kommando. Valt i exemplet nedan är SMB-tjänsten aktiverad medan NFS-tjänsten är inaktiverad:
mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#
- Inaktivera klientriktade tjänster. Efter det här steget förlorar alla klienter omedelbart anslutningen till klustret. Om du vill inaktivera en tjänst kör du följande kommando som är relaterat till den tjänst som du har aktiverat.
isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable
Om du har iSCSI-klienter bör du se till att iSCSI-klienterna har avmonterat sina LUN innan du utför steg 2. Kör isi iscsi list
för att bekräfta att alla iSCSI-klienter är frånkopplade från klustret.
Obs! Om du inaktiverar iSCSI-tjänsten måste du kontrollera att du har stängt av iSCSI-klienterna innan du kör isi_iscsi_d disable
befallning. Störning av en monterad iSCSI LUN kan resultera i skada på klienten, vilket vanligtvis kräver återställning från en säkerhetskopiering.
- Flytta dataskrivningar som lagras i nodjournaler till filsystemet genom att köra
isi_for_array isi_flush
befallning. Utdata som liknar följande visas på varje nod:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.
Obs! I ett stort kluster med ett stort antal utestående skrivningar kan det här steget ta flera minuter att slutföra.
Om en nod inte kan tömma sina data får du utdata som liknar följande nedan, där nod 1 och nod 2 misslyckas med tömningskommandot:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty
Kör isi_for_array isi_flush
kommando igen. Om det inte går att tömma någon nod kontaktar du teknisk support för Dell Isilon. Alla noder måste tömmas innan du går vidare till nästa steg.
Obs! Om du tar bort en strömkälla från en nod som inte har tömt data från journalen till filsystemet ökar risken för dataförlust avsevärt. Kontakta teknisk support för Dell Isilon om du behöver hjälp med avstängningsproceduren.
- Stäng av varje nod i klustret sekventiellt och övervaka utdata. Den här metoden rekommenderas eftersom den gör att du kan identifiera och lösa eventuella problem innan du stänger av nästa nod i klustret. Stäng av varje nod genom att utföra följande steg:
Viktigt! Kör INTE isi_for_array shutdown -p
för att stänga av klustret.
Alla noder som får panik eller startas om i det här steget är en nod som kräver ytterligare undersökning. I synnerhet måste alla noder tömma data från nodjournalen till filsystemet innan de fortsätter.
Varning! Om du tar bort en strömkälla från en nod som inte har tömt data från journalen till filsystemet ökar risken för dataförlust avsevärt. Kontakta teknisk support för Dell Isilon om du behöver hjälp med avstängningsproceduren.
- Anslut en seriekonsol till varje nod.
- Kör följande kommando:
isi config
shutdown
När noden har stängts av visas utdata som liknar följande:
Powering the system off using ACPI
Obs! Om du inte har åtkomst till noderna via en KVM-switch (tangentbord, video eller mus) och istället måste använda en bärbar dator kan det här steget ta flera timmar att slutföra.
- C. Titta på konsolen och leta efter maskinvarurelaterade felhändelser. Lyckade besparingar i nodjournalen väljs i följande utdatavarianter:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.
An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Om du får ett felmeddelande om att nodjournalen inte sparades kan du spara journalen manuellt genom att utföra stegen i fas 3.
Stäng av alla noder i klustret samtidigt.
Om det uppstår en nödsituation kan du stänga av alla noder i klustret samtidigt. Den här metoden rekommenderas dock inte eftersom den inte gör att du kan övervaka status och utdata för varje nod om ett problem uppstår. Om du väljer att följa dessa steg rekommenderar Dell starkt att du följer alla steg i fas 3 för att kontrollera att alla noder har stängts av korrekt efter att du har utfört procedurerna nedan.
Obs! Alla noder som får panik eller startas om i det här steget är en nod som kräver ytterligare undersökning. I synnerhet måste alla noder tömma data från nodjournalen till filsystemet innan de fortsätter.
Varning! Om du tar bort en strömkälla från en nod som inte har tömt data från journalen till filsystemet ökar risken för dataförlust avsevärt. Kontakta teknisk support för Dell Isilon om du behöver hjälp med avstängningsproceduren.
Om du vill stänga av alla noder i klustret använder du OneFS-kommandoradsgränssnittet eller OneFS-webbadministrationsgränssnittet.
Kör följande kommando i OneFS-kommandoradsgränssnittet:
# isi config shutdown all
Obs! Kör INTE isi_for_array shutdown -p
för att stänga av klustret från OneFS-webbadministrationsgränssnittet i OneFS 8.0 och senare.
Fas 3: Kontrollera att noderna har stängts av.
Kontrollera att noderna har stängts av ordentligt genom att titta på strömindikatorn lysdiod (LED) på baksidan av noden. Alla lysdioder för strömindikatorer ska vara mörka eller släckta. Detta indikerar att noden har stängts av.
Varning! Om en nod inte har stängts av och du kopplar bort strömkällan till noden ökar risken för dataförlust avsevärt. Återställning av data kräver en lång återställningsprocedur och ibland ett fullständigt klusteråterskapande.
Varning! Kontakta Dells tekniska support om du är osäker på om avstängningen har lyckats, till exempel om noden inte stängs av eller om journalen inte har sparats.
Om strömindikatorlampan på baksidan av noden fortfarande lyser har noden inte stängts av. Om noden inte har stängts av, eller om du får konsolutdata som anger att nodjournalen inte sparades korrekt (från
fas 2, steg 3C), måste du spara journalen manuellt för att säkerställa att data checkas in på disken innan du stänger av noden.
- Om du vill spara journalen manuellt och stänga av noden utför du följande steg:
- Om noden svarar på kommandoradsgränssnittet startar du om noden genom att köra följande kommando:
# isi config reboot
- Om noden inte svarar på kommandoradsgränssnittet startar du om noden manuellt genom att trycka och hålla ned strömknappen på baksidan av noden. Detta gör att noden stängs av. Vänta 30 sekunder och tryck sedan på strömknappen en gång för att starta nodsäkerhetskopieringen igen. Gå till nästa steg.
Varning! Vi rekommenderar att du startar om noden manuellt endast för det här steget. Stäng inte av noden manuellt för något annat villkor. Det kan leda till dataförlust.
- När du har startat om noden loggar du in igen och använder följande steg för att spara journalen:
- Försök att stänga av noden igen genom att köra följande kommando:
# isi config shutdown
- Om utdata fortfarande anger att journalen inte har sparats sparar du journalen manuellt genom att köra följande kommando:
# isi_save_journal
- Om journalen fortfarande inte sparas demonterar du filsystemet /ifs och tvingar sedan journalen att spara genom att köra följande kommandon:
# isi_kill_busy && umount /ifs
- Kontrollera att journalen har sparats genom att köra kommandot isi_checkjournal.
# isi_checkjournal
- Gå inte till nästa steg förrän utdata visar att journalen har sparats.
Kontakta Dells tekniska support om det behövs.
Fas 4: Koppla bort strömkällan.
Först när klustret har stängts av och noderna har stängts av kan strömkällan kopplas bort från klustret.
Varning! Om en nod inte har stängts av ska du inte koppla bort nodens strömkälla. Om du gör det kan det leda till dataförlust, en långdragen återställningsprocedur och ibland ett fullständigt återskapande av klustret.
NVRAM-batterier
När en klient skriver en fil till en nod lagras skrivningarna först i NVRAM (Nonvolatile RAM) som finns på nodens journalkort. En tid senare genomför OneFS dessa skrivningar på disken. För att skydda data som lagras i NVRAM vid ett oplanerat strömavbrott är varje nod utrustad med NVRAM-batterier (två för redundans). En nod som är avstängd men förblir ansluten till en strömkälla fortsätter att uppdatera sina NVRAM-batterier. När strömkällan kopplas bort från noden börjar NVRAM-batterierna att laddas ur. Batteritiden i den aktuella generationen noder (X200, S200, X400 och NL400) är cirka fem dagar. I den föregående generationen noder är NVRAM-batteriets livslängd ungefär tre dagar.
Dell Technologies rekommenderar att noder stängs av på rätt sätt för att undvika att vara beroende av NVRAM-batterier under en längre tid under ett strömavbrott.
Obs! Mer information om hur Isilon använder NVRAM för att bevara dataintegriteten finns i avsnittet "Filsystemets struktur" i administrationsmanualerna för OneFS och CLI.
Om NVRAM-batterierna på en nod laddas ur helt startar noden till skrivskyddat läge och förblir i skrivskyddat läge i cirka 30 minuter tills NVRAM-batterierna är helt laddade. När batterierna laddas återgår noden automatiskt till normalt läs-/skrivläge.
Varning! Om data fortfarande lagras i NVRAM på grund av en felaktig avstängning och en nod är utan systemström längre än NVRAM-batteriets livslängd, drabbas du av dataförlust, en långdragen återställningsprocedur och ibland en fullständig återskapning av klustret.
Fas 5: Slå på alla noder i klustret.
De här stegen ska utföras när du är redo att starta om Isilon-klustret.
- Återställ strömkällan till varje nod.
- Tryck på strömknappen på frontpanelen eller på baksidan av varje nod för att starta dem.
- När alla noder har slagits på kör du
isi status -q
för att granska hälsotillståndet för klustret. Kontrollera att alla noder är OK i kolumnen Hälso-DASR och inte är i skrivskyddat läge (R) innan du fortsätter. För ett felfritt kluster bör utdata som liknar följande visas:
Cluster Name: mycluster
Cluster Health: [ OK ]
Cluster Storage: HDD SSD
Size: 11G (23G Raw) 0 (0 Raw)
VHS Size: 11G
Used: 7.9G (69%) 0 (n/a)
Avail: 3.5G (31%) 0 (n/a)
Health Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR | In Out Total| Used / Size |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs)
2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs)
3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs)
4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Se listan över aktiverade tjänster som skapades i fas 2, steg 1b och aktivera de tjänster som har inaktiverats genom att köra ett eller flera av följande kommandon:
isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable
- Kontrollera att klienterna kan ansluta till klustret och utföra sina vanliga arbetsflöden. Klustret bör fungera normalt.
- Uppdateraoch samla in en fullständig logg
# isi_gather_info --esrs
- Utför eller begär en Isilon-hälsokontroll av fjärrsupportteamet (kundsupport).
Steg för att köra hälsokontroller.
PowerScale: Så här kör du IOCA Cluster Analysis Tool.
- Begär en hälsokontroll med hjälp av Remote Reactive-supportteamet
Det här är tillgängligt för alla kunder med ett aktivt underhållsavtal för kluster på kodversioner som stöds.
Om du uppfyller dessa krav öppnar du en tjänstebegäran (SR) på Dells supportwebbplats på webben och begär en "Isilon Health Check".
*Hälsokontrollen är inte avsedd att åtgärda klusterproblem eller utvärdera klustrets konfiguration, prestanda eller arbetsflöde.