Article Number: 000018989

PowerScale, Isilon, OneFS: Sådan slukker du en klynge korrekt

Summary: Bedste fremgangsmåder til korrekt nedlukning af din PowerScale-klynge og omfatter oplysninger om de risici, der er forbundet med en forkert klyngenedlukning. Trinvise procedurer til korrekt nedlukning af klyngen. Nogle trin bør køres 4-8 uger før den planlagte opgradering. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Instructions

Indledning

Denne artikel beskriver proceduren for korrekt nedlukning af Dell Isilon-klyngen og indeholder oplysninger om de risici, der er forbundet med en forkert nedlukning af klyngen.

Advarsel: Forkert nedlukning af klyngen kan medføre problemer med datatilgængelighed og integritet.

Noder, der lukkes forkert ned i klyngen, bør ikke være uden systemstrøm i længere tid end NVRAM-batteriets levetid, som er ca. 3 til 5 dage, afhængigt af nodetypen. Hvis data stadig er gemt i en nodejournal, og en node er uden systemstrøm i længere tid end NVRAM-batteriet, går data tabt, og klyngen skal genopbygges.

Kontakt Dell Isilons tekniske support for at få hjælp, hvis du har spørgsmål om procedurerne eller oplysningerne i denne artikel.

Procedure

Klyngens nedlukningsprocedure kræver rodlegitimationsoplysninger og seriel konsoladgang til noder i klyngen. Proceduren er opdelt i fem faser.

Fase 1: Udfør forebyggende vedligeholdelse
Fase 2: Luk hver node i klyngen
Fase 3: Kontrollér, at noderne er blevet lukket ned
Fase 4: Frakobl strømkilden
Fase 5: Tænd for hver node i klyngen
Fase 6: Kør et tilstandstjek af klyngen

Læs hele proceduren, før du begynder nedlukningsprocessen. Dette sikrer, at du forstår konteksten og rækkefølgen for at fuldføre hvert trin.

Advarsel: Hvis du kører en version af OneFS, der har nået slutningen af sin levetid (EOSL), skal du opgradere til en understøttet version af OneFS.

Fase 1: Udfør forebyggende vedligeholdelse.
Disse trin udføres ca. 4-8 uger før den planlagte nedlukning. Formålet med denne fase er at identificere ukendte eller latente hardware- eller firmwareproblemer, som kan hæmme nedlukningsproceduren.

Advarsel: Dell anbefaler på det kraftigste, at du følger alle trin i fase 1, før du lukker din Isilon-klynge.

Hvis omstændighederne kræver øjeblikkelig nedlukning af hele klyngen, kan du lukke alle noder samtidigt ved hjælp af OneFS-kommandolinjegrænsefladen eller OneFS-webadministrationsgrænsefladen.

Dell anbefaler på det kraftigste, at du følger alle trin i fase 3 for at bevare dataintegriteten, hvis der er en nødnedlukningsprocedure.

Upload logfiler til historisk reference, hvis det er nødvendigt.

# isi_gather_info

Udfør eller anmod om et Isilon-helbredstjek.
- Dette evaluerer klyngens tilstand for at sikre, at den har en god understøttet driftsstatus.
- Det kan udføres af kunden ved hjælp af PowerScale: Sådan køres analyseværktøjet på klyngen
- Af Remote Reactive-teamet (kundesupport). Dette er tilgængeligt for alle kunder med en aktiv vedligeholdelsesaftale for klynger på understøttede kodeversioner. Hvis du opfylder disse krav, skal du åbne en serviceanmodning (SR) på Dells online supportwebsted og anmode om et "Isilon-sundhedstjek". Og angiv komplette logfiler til tilstandstjekket ved at køre denne kommando

# isi_gather_info

*Tilstandstjekket er ikke beregnet til at løse klyngeproblemer eller vurdere klyngens konfiguration, ydeevne eller arbejdsgang.

Udfør en "kold genstart" af hver node ved at udføre følgende trin. Der bør planlægges et vedligeholdelsesvindue for denne aktivitet.

Bemærk: Denne proces giver dig mulighed for at identificere eventuelle hukommelsesfejl eller drevfejltilstande, der kun registreres, når noden tændes igen.

Bemærk: Denne proces er forstyrrende for alle forbindelser, undtagen NFSv3. Kontakt Isilon-support for at få hjælp med instruktioner til en længere proces, der ikke forstyrrer klientaktiviteten, mens noderne genstartes til denne vedligeholdelsestest.

Luk hver node i klyngen én ad gangen. Sådan lukker du hver node:
1. Åbn en SSH-forbindelse til en node. Luk hver node ved at køre følgende kommando

isi config
shutdown <node_lnn>

Kontrollér, at hver node er slukket, ved at bekræfte, at LED-indikatoren for den grønne strømindikator bag på noden ikke længere lyser.
Tryk på tænd/sluk-knappen for at tænde noden igen.
Kontrollér, at noden er tilsluttet klyngen igen og er sund ved at køre isi status -q kommando og leder efter OK i kolonnen Health DASR i outputtet.
Hvis der opstår problemer med en node, der er angivet i kolonnen Tilstands-DASR, eller hvis forbindelsen ikke tilsluttes klyngen igen, skal du løse disse problemer, før den næste node lukkes.

Der er valgt et eksempel på et problem. Node 1 har sluttet sig til klyngen igen, men kolonnen Tilstand DASR angiver, at den kræver opmærksomhed.

mycluster-1# isi status -q

Cluster Name: mycluster
Cluster Health:     [ ATTN]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-A-- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

Dobbelttjek tilstanden for hele din klynge, når du har genstartet hver node. Åbn en SSH-forbindelse til en vilkårlig node, og kør nedenstående kommando:

 isi status -q

Kontroller, at hver nodes tilstands-DASR-kolonne læser OK.

Bemærk: Hvis tiden ikke tillader en kold genstart for hver node, kan du proaktivt afdække nogle latente hardwareproblemer ved i stedet at udføre en rullende genstart eller "varm genstart" ved at køre følgende kommando for hver node:

isi config
reboot <node_lnn>

Dell anbefaler dog på det kraftigste, at man bruger koldgenstart for mere effektivt at identificere latente hardwareproblemer.

Fase 2: Luk hver node i klyngen.
Disse trin skal udføres den dag, du lukker Isilon-klyngen ned. Under en nedlukning for hele klyngen kan nogle faktorer påvirke eller forsinke nedlukningsprocessen. Udestående dataskrivninger til en node kan f.eks. påvirke nedlukningen. Formålet med trin 1-2 er at sikre, at alle klienter frakobles klyngen, og at data gemmes korrekt fra nodejournalerne i filsystemet, før nedlukningskommandoen køres. Hvis du har iSCSI-klienter, skal du sørge for at lukke klienter, før iSCSI-tjenesten deaktiveres.

Trin 3 beskriver, hvordan du lukker hver node i din klynge sekventielt ved hjælp af en seriel konsol. Denne metode anbefales, fordi den giver dig mulighed for at kontrollere, at hver node er lukket korrekt ned, før du går videre til næste node, og foretage justeringer eller løse problemer efter behov for at sikre en korrekt klyngenedlukning. Denne metode kan dog være tidskrævende, fordi den kræver, at der sluttes en seriel konsol til hver node for at køre nedlukningskommandoen. Afsnittet Luk alle noder i klyngen beskriver samtidig, hvordan du bruger OneFS-kommandolinjegrænsefladen eller OneFS-webadministrationsgrænsefladen til at lukke klyngen. Denne metode er mindre tidskrævende end trin 3, men gør det mere udfordrende at identificere noder, der støder på problemer under nedlukningsprocessen.

Isilon anbefaler, at klyngen isoleres fra klienter for at sikre, at skrivetunge klienter ikke hindrer nedlukningsproceduren. Du kan gøre dette ved at deaktivere de klienttjenester, der kører på din klynge. Udfør følgende procedure for at deaktivere klientorienterede tjenester:
1. Identificer de klientorienterede tjenester eller protokoller, der kører på din klynge, ved at køre følgende kommandoer for hver klientorienteret tjeneste:

isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd

B. Dokumentér de tjenester, der er "aktiveret" på din klynge, baseret på outputtet for hver kommando. SMB-tjenesten, der er valgt i eksemplet nedenfor, er aktiveret, mens NFS-tjenesten er deaktiveret:

mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#

Deaktiver klientorienterede tjenester. Efter dette trin mister alle klienter straks forbindelsen til klyngen. Hvis du vil deaktivere en tjeneste, skal du køre følgende kommando, som er relateret til den tjeneste, du har aktiveret.

isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable

Hvis du har iSCSI-klienter, skal du sørge for, at iSCSI-klienter har frakoblet deres LUN'er, før du udfører trin 2. Kør isi iscsi list kommando til at bekræfte, at alle iSCSI-klienter er frakoblet klyngen.

Bemærk: Hvis du deaktiverer iSCSI-tjenesten, skal du sørge for, at du har lukket iSCSI-klienter, før du kører isi_iscsi_d disable Kommando. Afbrydelse af en tilsluttet iSCSI LUN kan medføre skade på klienten, hvilket typisk kræver genoprettelse fra sikkerhedskopiering.

Flyt dataskrivninger, der er gemt i nodejournaler, til filsystemet ved at køre isi_for_array isi_flush Kommando. Output, der ligner følgende, vises på hver node:

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.

Bemærk: På en stor klynge med et stort antal udestående skrivninger kan det tage flere minutter at fuldføre dette trin.

Hvis en node ikke kan tømme sine data, modtager du output svarende til følgende nedenfor, hvor node 1 og node 2 fejler deres flush-kommando:

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty

Kør isi_for_array isi_flush kommando igen. Hvis en node ikke skyller, skal du kontakte Dell Isilons tekniske support. Alle noder skal skylles med succes, før du fortsætter til næste trin.

Bemærk: Hvis du fjerner en strømkilde fra en node, der ikke har skyllet data fra journalen til filsystemet, øges risikoen for datatab betydeligt. Kontakt Dell Isilons tekniske support, hvis du har brug for hjælp til nedlukningsproceduren.

Luk hver node i klyngen sekventielt, og overvåg outputtet. Denne fremgangsmåde anbefales, fordi den giver dig mulighed for at identificere og løse eventuelle problemer, før du lukker den næste node i klyngen. Luk hver node ved at udføre følgende trin:

Advarsel: Kør ikke isi_for_array shutdown -p kommando til at lukke klyngen ned.

Enhver node, der går i panik eller genstarter på dette trin, er en node, der kræver yderligere undersøgelse. Især skal alle noder skylle data fra nodejournalen til filsystemet, før de fortsætter.

Advarsel: Hvis du fjerner en strømkilde fra en node, der ikke har skyllet data fra journalen til filsystemet, øges risikoen for datatab betydeligt. Kontakt Dell Isilons tekniske support, hvis du har brug for hjælp til nedlukningsproceduren.

Tilslut en seriel konsol til hver node.
Kør følgende kommando:

isi config
shutdown

Når noden er lukket ned, vises output svarende til følgende:

Powering the system off using ACPI

Bemærk: Hvis du ikke har adgang til dine noder via en KVM-switch (tastatur, video, mus) og i stedet skal bruge en bærbar pc, kan dette trin tage flere timer at gennemføre.

C. Hold øje med konsollen, og se efter hardwarerelaterede fejlhændelser. Vellykkede nodekladdelagringer er valgt i følgende outputvariationer:

2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully

2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.

An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:

Hvis du modtager en fejl om, at nodekladden ikke blev gemt, kan du gemme kladden manuelt ved at udføre trinnene i fase 3.

Luk alle noder i klyngen samtidig.

Hvis der opstår en nødsituation, kan du lukke alle noder i klyngen samtidig. Denne metode anbefales dog ikke, fordi den ikke giver dig mulighed for at overvåge status og output for hver node, hvis der opstår et problem. Hvis du vælger at følge disse trin, anbefaler Dell på det kraftigste, at du følger alle trinnene i fase 3 for at kontrollere, at alle noder er lukket korrekt, når du har udført nedenstående procedurer.

Bemærk: Enhver node, der går i panik eller genstarter på dette trin, er en node, der kræver yderligere undersøgelse. Især skal alle noder skylle data fra nodejournalen til filsystemet, før de fortsætter.

Hvis du vil lukke alle noder i klyngen, skal du bruge OneFS-kommandolinjegrænsefladen eller OneFS-webadministrationsgrænsefladen.

Kør følgende kommando fra OneFS-kommandolinjegrænsefladen:

# isi config shutdown all

Bemærk: Kør IKKE isi_for_array shutdown -p kommando til at lukke klyngen Fra OneFS-webadministrationsgrænsefladen i OneFS 8.0 og nyere.

Fase 3: Kontrollér, at noderne er blevet lukket ned.
Bekræft, at noderne er lukket korrekt ned ved at se på strømindikatorens lysemitterende diode (LED) bag på noden. Alle strømindikatorens LED-indikatorer skal være mørke eller SLUKKET. Dette angiver, at noden er lukket ned.

Advarsel: Hvis en node ikke er lukket ned, og du kobler strømkilden fra til noden, øges risikoen for datatab betydeligt. Gendannelse af data kræver en langvarig gendannelsesprocedure og nogle gange en komplet klyngegenopbygning.

Kontakt Dells tekniske support , hvis du er i tvivl om nedlukningens succes, f.eks. hvis noden ikke lukker ned, eller journalen ikke er gemt.

Hvis strømindikatorlampen bag på noden stadig lyser, er noden ikke lukket ned. Hvis noden ikke er lukket ned, eller hvis du modtager konsoloutput, der angiver, at nodejournalen ikke blev gemt korrekt (fra fase 2, trin 3C), skal du gemme journalen manuelt for at sikre, at disse data er bundet til disken, før du lukker noden ned.

Hvis du vil gemme kladden manuelt og lukke noden, skal du udføre følgende trin:
1. Hvis noden reagerer på kommandolinjegrænsefladen, skal du genstarte noden ved at køre følgende kommando:

# isi config reboot

Hvis noden ikke reagerer på kommandolinjegrænsefladen, skal du genstarte noden manuelt ved at trykke på tænd/sluk-knappen bag på noden og holde den nede. Dette får noden til at slukke. Vent 30 sekunder, og tryk derefter én gang på tænd/sluk-knappen for at starte nodesikkerhedskopien igen. Gå til næste trin.

Advarsel: Manuel genstart af noden anbefales kun til dette trin. Luk ikke noden manuelt ned på grund af andre tilstande. Det kan føre til tab af data.

Når du har genstartet noden, skal du logge på igen og bruge følgende trin til at gemme journalen:
1. Forsøg at lukke noden kontrolleret ned igen ved at køre følgende kommando:

# isi config shutdown

Hvis outputtet stadig angiver, at kladden ikke blev gemt, skal du gemme kladden manuelt ved at køre følgende kommando:

# isi_save_journal

Hvis kladden stadig ikke gemmes, skal du afmontere filsystemet, /ifs og derefter gennemtvinge at gemme kladden ved at køre følgende kommandoer:

# isi_kill_busy && umount /ifs

Kontroller, at kladden gemmes ved at køre kommandoen isi_checkjournal.

# isi_checkjournal

Gå ikke til næste trin, før output angiver, at kladden er gemt korrekt.

Kontakt Dells tekniske support, hvis det er nødvendigt.

Fase 4: Frakobl strømkilden.
Når klyngen er blevet lukket ned, og noderne er slukket, kan strømkilden frakobles fra klyngen.

Advarsel: Hvis en node ikke er blevet lukket ned, må du ikke frakoble nodens strømkilde. Hvis du gør det, kan det resultere i tab af data, en langvarig gendannelsesprocedure og nogle gange en komplet klyngegenopbygning.

NVRAM-batterier
Når en klient skriver en fil til en node, gemmes skrivningerne først i ikke-flygtig RAM (NVRAM), der hostes på nodens journalkort. Nogen tid senere forpligter OneFS disse skrivninger til disken. For at beskytte de data, der er gemt i NVRAM i tilfælde af en ikke-planlagt strømafbrydelse, er hver node udstyret med NVRAM-batterier (to til redundans). En node, der er slukket, men forbliver tilsluttet en strømkilde, fortsætter med at opdatere sine NVRAM-batterier. Når strømkilden kobles fra noden, begynder NVRAM-batterierne at tømmes. Batterilevetiden i den aktuelle generation af noder (X200, S200, X400 og NL400) er cirka fem dage. I den forrige generation af noder er NVRAM-batteriets levetid ca. tre dage.

Dell Technologies anbefaler, at noder lukkes korrekt for at undgå at være afhængige af NVRAM-batterier i længere tid under en strømafbrydelse.

Bemærk: Du kan finde flere oplysninger om, hvordan Isilon bruger NVRAM til at bevare dataintegriteten, i afsnittet "Filsystemets struktur" i OneFS-webadministrations- og CLI-administrationsvejledningerne.

Hvis NVRAM-batterierne på en node aflades helt, starter noden i skrivebeskyttet tilstand og forbliver i skrivebeskyttet tilstand i ca. 30 minutter, indtil NVRAM-batterierne er helt opladet. Når batterierne genoplades, vender noden automatisk tilbage til normal læse-/skrivetilstand.

Advarsel: Hvis data stadig er gemt i NVRAM på grund af en forkert nedlukning, og en node er uden systemstrøm i længere tid end NVRAM-batteriets levetid, oplever du datatab, en langvarig gendannelsesprocedure og nogle gange en komplet klyngegenopbygning.

Fase 5: Tænd for hver node i klyngen.
Disse trin skal udføres, når du er klar til at genstarte din Isilon-klynge.

Gendan strømkilden til hver node.
Tryk på tænd/sluk-knappen på frontpanelet eller bagsiden af hver node for at starte dem.
Når alle noder er tændt, skal du køre isi status -q kommando til at gennemgå klyngens tilstand. Kontroller, at alle noder er OK i kolonnen Health DASR og ikke er i skrivebeskyttet tilstand (R), før du fortsætter. For en sund klynge skal output svarende til følgende vises:

Cluster Name: mycluster
Cluster Health:     [ OK ]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-OK- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

Se listen over aktiverede tjenester, der blev oprettet i fase 2, trin 1b, og aktivér de tjenester, der blev deaktiveret ved at køre en eller flere af følgende kommandoer:

isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable

Kontroller, at dine klienter kan oprette forbindelse til klyngen og udføre deres sædvanlige arbejdsgange. Din klynge skal fungere normalt.

Fase 6: POST CHECK - Kør et tilstandstjek på klyngen.

Upload en fuld log indsamle

# isi_gather_info --esrs

Udfør eller anmod om et Isilon-sundhedstjek af Remote Reactive-teamet (kundesupport).

Trin til at køre helbredstjek.

Isilon: Sådan køres analyseværktøjet til Isilon On-Cluster

Anmod om et helbredstjek ved hjælp af Remote Reactive Support-teamet

Dette er tilgængeligt for alle kunder med en aktiv vedligeholdelsesaftale for klynger på understøttede kodeversioner.

Hvis du opfylder disse krav, skal du åbne en serviceanmodning (SR) på Dells online supportwebsted og anmode om et "Isilon-sundhedstjek".

*Tilstandstjekket er ikke beregnet til at løse klyngeproblemer eller vurdere klyngens konfiguration, ydeevne eller arbejdsgang.

Additional Information

Her er nogle anbefalede ressourcer relateret til dette emne, som kan være af interesse:

PowerScale, Isilon, OneFS: Sådan slukker du en klynge korrekt

Summary: Bedste fremgangsmåder til korrekt nedlukning af din PowerScale-klynge og omfatter oplysninger om de risici, der er forbundet med en forkert klyngenedlukning. Trinvise procedurer til korrekt nedlukning af klyngen. Nogle trin bør køres 4-8 uger før den planlagte opgradering. ...

Article Content

Instructions

Indledning

Procedure

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

PowerScale, Isilon, OneFS: Sådan slukker du en klynge korrekt

Article Content

Instructions

Indledning

Procedure

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type