Innledning
Denne artikkelen inneholder fremgangsmåten for å slå av Dell Isilon-klyngen på riktig måte, og inneholder informasjon om risikoene forbundet med feil avslutning av klyngen.
Forsiktig: Feil avslutning av klyngen kan føre til problemer med datatilgjengelighet og integritet.
Noder som er feilaktig slått av i klyngen, bør ikke være uten systemstrøm lenger enn levetiden til NVRAM-batteriet, som er omtrent 3 til 5 dager, avhengig av nodetypen. Hvis data fortsatt lagres i en nodejournal og en node er uten systemstrøm lenger enn NVRAM-batterilevetiden, går data tapt, og klyngen må gjenoppbygges.
Kontakt teknisk støtte hos Dell Isilon for hjelp hvis du har spørsmål om fremgangsmåtene eller informasjonen i denne artikkelen.
Fremgangsmåte
Prosedyren for avslutning av klynge krever rotlegitimasjon og seriell konsolltilgang til noder i klyngen. Prosedyren er delt inn i fem faser.
Les hele prosedyren før du begynner avslutningsprosessen. Dette sikrer at du forstår konteksten og rekkefølgen for å fullføre hvert trinn.
Forsiktig: Hvis du kjører en OneFS-versjon som har nådd slutten av levetiden (EOSL), må du oppgradere til en støttet versjon av OneFS.
Fase 1: Utfør forebyggende vedlikehold.
Disse trinnene utføres omtrent 4-8 uker før den planlagte nedstengningen. Formålet med denne fasen er å identifisere ukjente eller latente maskinvare- eller fastvareproblemer som kan hindre avslutningsprosedyren.
Forsiktig: Dell anbefaler på det sterkeste at du følger alle trinnene i fase 1 før du slår av Isilon-klyngen.
Hvis situasjonen krever umiddelbar avslutning i hele klyngen, kan du slå av alle noder samtidig ved hjelp av OneFS-kommandolinjegrensesnittet eller OneFS-webadministrasjonsgrensesnittet.
Dell anbefaler på det sterkeste å følge alle trinnene i
fase 3 for å bevare dataintegriteten hvis det finnes en prosedyre for nødavstengning.
- Last opp logger for historisk referanse om nødvendig.
# isi_gather_info
- Utfør eller be om en Isilon-helsesjekk.
- Dette evaluerer tilstanden til klyngen for å sikre at den har en god driftsstatus som kan støttes.
- Dette kan utføres av kunden ved hjelp av PowerScale: Slik kjører du IOCA Cluster Analysis Tool
- Det kan utføres av Remote Reactive (Customer Support) team. Dette er tilgjengelig for alle kunder med en aktiv vedlikeholdsavtale for klynger på støttede kodeversjoner. Hvis du oppfyller disse kravene, åpner du en serviceforespørsel (SR) på nettstedet for Dells online kundestøtte og ber om en "Isilon Health Check". Oppgi fullstendige logger for tilstandskontrollen ved å kjøre denne kommandoen
# isi_gather_info
*Tilstandskontrollen er ikke ment for å løse klyngeproblemer eller vurdere klyngens konfigurasjon, ytelse eller arbeidsflyt.
- Utfør en "kald omstart" av hver node ved å utføre følgende trinn. Det bør planlegges et vedlikeholdsvindu for denne aktiviteten.
Merk: Denne prosessen gjør at du kan identifisere eventuelle minnefeil eller stasjonsfeilmoduser som bare oppdages når noden slås på igjen.
Merk: Denne prosessen er forstyrrende for alle tilkoblinger, unntatt NFSv3. Kontakt Isilon-kundestøtten for å få hjelp med instruksjoner om en lengre prosess som ikke forstyrrer klientaktiviteten mens nodene startes på nytt for denne vedlikeholdstesten.
- Slå av hver node i klyngen, én om gangen. Slik slår du av hver node:
- Åpne en SSH-tilkobling til en node. Slå av hver node ved å kjøre følgende kommando:
isi config
shutdown <node_lnn>
- Kontroller at hver node er slått av ved å bekrefte at den grønne LED-lampen for strømindikatoren på baksiden av noden ikke lenger lyser.
- Trykk på av/på-knappen for å slå på noden igjen.
- Kontroller at noden er koblet til klyngen igjen og er i god stand, ved å kjøre
isi status -q
kommando og ser etter OK i kolonnen Helse DASR i utdataene.
- Hvis en node støter på problemer som er angitt i Health DASR-kolonnen, eller ikke klarer å bli med i klyngen igjen, kan du løse disse problemene før du slår av neste node.
Et eksempel på et problem er valgt. Node 1 har sluttet seg til klyngen vellykket, men Helse DASR-kolonnen indikerer at den trenger oppmerksomhet.
mycluster-1# isi status -q
Cluster Name: mycluster
Cluster Health: [ ATTN]
Cluster Storage: HDD SSD
Size: 11G (23G Raw) 0 (0 Raw)
VHS Size: 11G
Used: 7.9G (69%) 0 (n/a)
Avail: 3.5G (31%) 0 (n/a)
Health Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR | In Out Total| Used / Size |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs)
2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs)
3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs)
4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Dobbeltsjekk tilstanden til hele klyngen etter at du har startet hver node på nytt. Åpne en SSH-tilkobling til en node og kjør kommandoen nedenfor:
isi status -q
Kontroller at Health DASR-kolonnen for hver node leser OK.
Merk: Hvis tiden ikke tillater en kald omstart-tilnærming for hver node, kan du proaktivt avdekke noen latente maskinvareproblemer ved i stedet å utføre en rullerende omstart eller "varm omstart" ved å kjøre følgende kommando for hver node:
isi config
reboot <node_lnn>
Dell anbefaler imidlertid på det sterkeste at du bruker kald omstart-tilnærmingen for å identifisere latente maskinvareproblemer mer effektivt.
Fase 2: Slå av hver node i klyngen.
Disse trinnene skal utføres samme dag som du slår av Isilon-klyngen. Under en klyngeomfattende avslutning kan enkelte faktorer påvirke eller forsinke avslutningsprosessen. Utestående dataskrivinger til en node kan for eksempel påvirke avslutningen. Hensikten med trinn 1–2 er å sikre at alle klienter kobles fra klyngen, og at data lagres riktig fra nodejournaler til filsystemet før avslutningskommandoen kjøres. Hvis du har iSCSI-klienter, må du sørge for at du avslutter klientene før iSCSI-tjenesten deaktiveres.
Trinn 3 beskriver hvordan du slår av hver node i klyngen sekvensielt ved hjelp av en seriell konsoll. Denne metoden anbefales fordi den gjør det mulig å kontrollere at hver node er ordentlig slått av før du fortsetter til neste node, og foreta justeringer eller løse problemer etter behov for å sikre en riktig avslutning av klyngen. Denne metoden kan imidlertid være tidkrevende fordi den krever tilkobling av en seriell konsoll til hver node for å kjøre avslutningskommandoen. Delen Slå av alle noder i klyngen samtidig beskriver hvordan du bruker OneFS-kommandolinjegrensesnittet eller OneFS-grensesnittet for nettadministrasjon til å slå av klyngen. Denne metoden er mindre tidkrevende enn trinn 3, men gjør det mer utfordrende å identifisere noder som støter på problemer under avslutningsprosessen.
- Isilon anbefaler å isolere klyngen fra klienter for å sikre at skrivetunge klienter ikke hindrer avslutningsprosedyren. Du kan gjøre dette ved å deaktivere klientrettede tjenester som kjører på klyngen. Utfør følgende fremgangsmåte for å deaktivere klientrettede tjenester:
- Identifiser klientrettede tjenester eller protokoller som kjører på klyngen, ved å kjøre følgende kommandoer for hver klientrettede tjeneste:
isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd
- B. Dokumenter tjenestene som er "aktivert" på klyngen basert på utdataene for hver kommando. Valgt i eksemplet nedenfor, er SMB-tjenesten aktivert mens NFS-tjenesten er deaktivert:
mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#
- Deaktiver klientrettede tjenester. Etter dette trinnet mister alle klientene umiddelbart tilkoblingen til klyngen. Hvis du vil deaktivere en tjeneste, kjører du følgende kommando som er knyttet til tjenesten du har aktivert.
isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable
Hvis du har iSCSI-klienter, må du sørge for at iSCSI-klientene har demontert LUN-ene før du utfører trinn 2. Kjør isi iscsi list
-kommandoen for å bekrefte at alle iSCSI-klienter er koblet fra klyngen.
Merk: Hvis du deaktiverer iSCSI-tjenesten, må du kontrollere at du har slått av iSCSI-klienter før du kjører isi_iscsi_d disable
kommando. Avbrudd i en montert iSCSI LUN kan føre til skade på klienten, noe som vanligvis krever gjenoppretting fra sikkerhetskopiering.
- Flytt dataskrivinger som er lagret i nodejournaler, til filsystemet ved å kjøre
isi_for_array isi_flush
kommando. Utdata som ligner på følgende, vises på hver node:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.
Merk: På en stor klynge med et høyt antall utestående skriveoperasjoner kan dette trinnet ta flere minutter å fullføre.
Hvis en node ikke tømmer dataene sine, får du utdata som ligner på følgende nedenfor, der node 1 og node 2 ikke klarer spylekommandoen:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty
Kjør isi_for_array isi_flush
kommando igjen. Hvis en node ikke spyler, kan du kontakte Dell Isilons tekniske kundestøtte. Alle noder må tømmes før du går videre til neste trinn.
Merk: Hvis du fjerner en strømkilde fra en node som ikke har fordypet data fra journalen til filsystemet, øker risikoen for tap av data betydelig. Kontakt Dell Isilon teknisk støtte hvis du trenger hjelp med avslutningsprosedyren.
- Slå av hver node i klyngen sekvensielt og overvåk utdataene. Denne tilnærmingen anbefales fordi den gjør det mulig å identifisere og løse eventuelle problemer før du slår av neste node i klyngen. Avslutt hver node ved å utføre følgende trinn:
Forsiktig: IKKE kjør isi_for_array shutdown -p
kommando for å slå av klyngen.
Enhver node som får panikk eller starter på nytt ved dette trinnet, er en node som krever ytterligere undersøkelser. Spesielt må alle noder tømme data fra nodejournalen til filsystemet før de fortsetter.
Advarsel: Hvis du fjerner en strømkilde fra en node som ikke har fordypet data fra journalen til filsystemet, øker risikoen for tap av data betydelig. Kontakt Dell Isilon teknisk støtte hvis du trenger hjelp med avslutningsprosedyren.
- Koble en seriekonsoll til hver node.
- Kjør følgende kommando:
isi config
shutdown
Når noden slås av, vises utdata som ligner på følgende:
Powering the system off using ACPI
Merk: Hvis du ikke har tilgang til nodene via en KVM-svitsj (tastatur, video, mus) og må bruke en bærbar PC i stedet, kan dette trinnet ta timer å fullføre.
- C. Hold øye med konsollen, og se etter maskinvarerelaterte feilhendelser. Vellykkede lagring av nodejournaler velges i følgende utdatavarianter:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.
An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Hvis du får en feilmelding som nodejournalen ikke lagret, kan du lagre journalen manuelt ved å utføre trinnene i fase 3.
Slå av alle noder i klyngen samtidig.
Hvis det oppstår et nødstilfelle, kan du slå av alle noder i klyngen samtidig. Denne metoden anbefales imidlertid ikke fordi den ikke lar deg overvåke statusen og utdataene til hver node i tilfelle det oppstår et problem. Hvis du velger å følge disse trinnene, anbefaler Dell på det sterkeste at du følger alle trinnene i fase 3 for å bekrefte at alle nodene er slått av på riktig måte, etter at du har utført prosedyrene nedenfor.
Merk: Enhver node som får panikk eller starter på nytt ved dette trinnet, er en node som krever ytterligere undersøkelser. Spesielt må alle noder tømme data fra nodejournalen til filsystemet før de fortsetter.
Advarsel: Hvis du fjerner en strømkilde fra en node som ikke har fordypet data fra journalen til filsystemet, øker risikoen for tap av data betydelig. Kontakt Dell Isilon teknisk støtte hvis du trenger hjelp med avslutningsprosedyren.
Hvis du vil slå av alle noder i klyngen, bruker du OneFS-kommandolinjegrensesnittet eller OneFS-grensesnittet for nettadministrasjon.
Kjør følgende kommando fra kommandolinjegrensesnittet for OneFS:
# isi config shutdown all
Merk: IKKE kjør isi_for_array shutdown -p
kommando for å slå av klyngen fra OneFS-grensesnittet for nettadministrasjon i OneFS 8.0 og nyere.
Fase 3: Kontroller at nodene er slått av.
Bekreft at nodene er ordentlig slått av ved å se på strømindikatoren lysdiode (LED) på baksiden av noden. Alle strømindikatorlampene skal lyse mørke eller AV. Dette indikerer at noden er avsluttet.
Advarsel: Hvis en node ikke slår seg av og du kobler strømkilden til noden, øker sjansen for tap av data betraktelig. Gjenoppretting av data krever en langvarig gjenopprettingsprosedyre, og noen ganger en fullstendig gjenoppbygging av klyngen.
Advarsel: Kontakt Dells tekniske kundestøtte hvis du er i tvil om avslutningsoperasjonen skal lykkes, for eksempel hvis noden ikke avsluttes, eller hvis journalen ikke lagres.
Hvis strømindikatorlampen på baksiden av noden fortsatt lyser, har ikke noden slått seg av. Hvis noden ikke er slått av, eller hvis du mottar konsollutdata som indikerer at nodejournalen ikke ble lagret riktig (fra
fase 2, trinn 3C), må du lagre journalen manuelt for å sikre at dataene er koblet til disken før du avslutter noden.
- Hvis du vil lagre journalen manuelt og avslutte noden, utfører du følgende trinn:
- Hvis noden reagerer på kommandolinjegrensesnittet, starter du noden på nytt ved å kjøre følgende kommando:
# isi config reboot
- Hvis noden ikke reagerer på kommandolinjegrensesnittet, starter du den på nytt manuelt ved å trykke på og holde inne strømknappen på baksiden av noden. Dette fører til at noden slås av. Vent i 30 sekunder, og trykk deretter én gang på strømknappen for å starte nodesikkerhetskopien på nytt. Gå til neste trinn.
Advarsel: Det anbefales bare å starte noden på nytt manuelt for dette trinnet. Ikke slå av noden manuelt for andre forhold. Det kan føre til tap av data.
- Når du har startet noden på nytt, logger du på igjen og bruker følgende trinn for å lagre journalen:
- Prøv å slå av noden på nytt ved å kjøre følgende kommando:
# isi config shutdown
- Hvis utdataene fremdeles indikerer at journalen ikke ble lagret, lagrer du journalen manuelt ved å kjøre følgende kommando:
# isi_save_journal
- Hvis journalen fremdeles ikke lagrer, demonterer du filsystemet, /ifs og tvungen lagrer journalen ved å kjøre følgende kommandoer:
# isi_kill_busy && umount /ifs
- Kontroller at journalen er lagret ved å kjøre isi_checkjournal-kommandoen.
# isi_checkjournal
- Ikke gå til neste trinn før utdataene indikerer at journalen er lagret.
Kontakt Dells tekniske kundestøtte ved behov.
Fase 4: Koble fra strømkilden.
Etter at klyngen er avsluttet og nodene er slått av, må strømkilden kobles fra klyngen.
Advarsel: Hvis en node ikke er slått av, må du ikke koble fra strømkilden til noden. Dette kan føre til tap av data, langvarig gjenoppretting og noen ganger fullstendig gjenoppbygging av klyngen.
NVRAM-batterier
Når en klient skriver en fil til en node, lagres skriveoperasjonene først i permanent RAM (NVRAM) på nodens journalkort. Noe senere sender OneFS disse skrivingene til disk. For å beskytte dataene som er lagret i NVRAM hvis et ikke-planlagt strømbrudd, er hver node utstyrt med NVRAM-batterier (to for redundans). En node som er slått av, men fortsatt er koblet til en strømkilde, fortsetter å oppdatere NVRAM-batteriene. Når strømkilden kobles fra noden, begynner NVRAM-batteriene å tømmes. Batterilevetiden i den nåværende generasjonen av noder (X200, S200, X400 og NL400) er omtrent fem dager. I forrige generasjon noder er NVRAM-batterilevetiden omtrent tre dager.
Dell Technologies anbefaler at du slår av noder på riktig måte for å unngå å være avhengig av NVRAM-batterier i lengre tid under strømbrudd.
Merk: Hvis du vil ha mer informasjon om hvordan Isilon bruker NVRAM til å bevare dataintegriteten, kan du se delen "Filsystemets struktur" i administrasjonsveiledningene for OneFS-webadministrasjon og CLI.
Hvis NVRAM-batteriene på en node tømmes helt, starter noden opp til skrivebeskyttet modus og forblir i skrivebeskyttet modus i ca. 30 minutter til NVRAM-batteriene er fulladet. Når batteriene lades, går noden automatisk tilbake til normal lese-/skrivemodus.
Advarsel: Hvis data fortsatt er lagret i NVRAM på grunn av feil avslutning, og en node er uten systemstrøm lenger enn NVRAM-batterilevetiden, opplever du tap av data, en langvarig gjenopprettingsprosedyre og noen ganger en fullstendig gjenoppbygging av klyngen.
Fase 5: Slå på hver node i klyngen.
Disse trinnene må utføres når du er klar til å starte Isilon-klyngen på nytt.
- Gjenopprett strømkilden til hver node.
- Trykk på strømknappen på frontpanelet eller baksiden av hver node for å starte dem opp.
- Når alle nodene er slått på, kjører du
isi status -q
Kommando for å gjennomgå tilstanden til klyngen din. Kontroller at alle noder er OK i Helse DASR-kolonnen og ikke er i skrivebeskyttet modus (R) før du fortsetter. For en sunn klynge skal utdata som ligner på følgende, vises:
Cluster Name: mycluster
Cluster Health: [ OK ]
Cluster Storage: HDD SSD
Size: 11G (23G Raw) 0 (0 Raw)
VHS Size: 11G
Used: 7.9G (69%) 0 (n/a)
Avail: 3.5G (31%) 0 (n/a)
Health Throughput (bps) HDD Storage SSD Storage
ID |IP Address |DASR | In Out Total| Used / Size |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs)
2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs)
3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs)
4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs)
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs)
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Se listen over aktiverte tjenester som ble opprettet i fase 2, trinn 1b, og aktiver tjenestene som ble deaktivert ved å kjøre én eller flere av følgende kommandoer:
isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable
- Kontroller at klientene kan koble til klyngen og utføre sine vanlige arbeidsflyter. Klyngen skal fungere som normalt.
- Upload en full logg samle
# isi_gather_info --esrs
- Utføre eller be om en Isilon-helsesjekk av det eksterne reaktive teamet (kundestøtte).
Trinn for å kjøre tilstandskontroller.
PowerScale: Slik kjører du IOCA Cluster Analysis Tool.
- Be om en helsesjekk ved hjelp av eksternt reaktivt støtteteam
Dette er tilgjengelig for alle kunder med en aktiv vedlikeholdsavtale for klynger på støttede kodeversjoner.
Hvis du oppfyller disse kravene, åpner du en serviceforespørsel (SR) på nettstedet for Dells online kundestøtte og ber om en "Isilon Health Check".
*Tilstandskontrollen er ikke ment for å løse klyngeproblemer eller vurdere klyngens konfigurasjon, ytelse eller arbeidsflyt.