Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products
  • Manage your Dell EMC sites, products, and product-level contacts using Company Administration.

PowerScale, Isilon, OneFS: Jak správně vypnout cluster

Summary: Doporučené postupy pro správné vypnutí clusteru PowerScale a informace o rizicích spojených s nesprávným vypnutím clusteru. Podrobné postupy správného vypnutí clusteru. Některé kroky je třeba provést 4–8 týdnů před plánovaným upgradem. ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content


Instructions

Úvod

Tento článek obsahuje postup správného vypnutí clusteru Dell Isilon a informace o rizicích spojených s nesprávným vypnutím clusteru.
 
Upozornění: Nevhodné vypnutí clusteru může vést k problémům s dostupností a integritou dat.

Uzly, které jsou v clusteru nesprávně vypnuty, by neměly být bez napájení systému po dobu delší, než je životnost baterie NVRAM, což je přibližně 3 až 5 dní v závislosti na typu uzlu. Pokud jsou data stále uložena v deníku uzlů a uzel je bez napájení systému déle, než je životnost baterie paměti NVRAM, dojde ke ztrátě dat a cluster bude nutné znovu vybudovat.

Pokud máte dotazy k postupům nebo informacím v tomto článku, obraťte se na technickou podporu Isilon společnosti Dell a požádejte o pomoc.


Postup

Postup vypnutí clusteru vyžaduje přihlašovací údaje root a přístup k uzlům v clusteru ze sériové konzole. Postup je rozdělen do pěti fází. Před zahájením procesu vypnutí si přečtěte celý postup. Tím zajistíte, že porozumíte kontextu a pořadí dokončení jednotlivých kroků.
 
Upozornění: Pokud používáte verzi systému OneFS, která dosáhla konce své životnosti (EOSL), proveďte upgrade na podporovanou verzi systému OneFS.


1. fáze: Proveďte preventivní údržbu.
Tyto kroky se provádějí přibližně 4–8 týdnů před plánovanou odstávkou. Účelem této fáze je identifikovat neznámé nebo skryté problémy s hardwarem nebo firmwarem, které mohou bránit procesu vypnutí.
 
Upozornění: Společnost Dell důrazně doporučuje, abyste před vypnutím clusteru Isilon provedli všechny kroky ve fázi 1.

Pokud okolnosti vyžadují okamžité vypnutí celého clusteru, můžete vypnout všechny uzly současně pomocí rozhraní příkazového řádku OneFS nebo rozhraní

webové správy OneFS.Společnost Dell důrazně doporučuje provést všechny kroky ve fázi 3 , aby byla zachována integrita dat v případě postupu nouzového vypnutí.
  1. V případě potřeby nahrajte protokoly pro historické reference.
# isi_gather_info
  1. Proveďte kontrolu stavu Isilon nebo o ni požádejte.
    • Tím se vyhodnotí stav clusteru, aby se zajistilo, že je v dobrém provozním stavu.
    • To může zákazník provést pomocí softwaru PowerScale: Jak spustit nástroj On-Cluster Analysis
    • Tým Remote Reactive (zákaznická podpora). To je k dispozici všem zákazníkům s aktivní smlouvou o údržbě clusterů s podporovanými verzemi kódu. Pokud tyto požadavky splňujete, otevřete na webu online podpory společnosti Dell žádost o "kontrolu stavu Isilon". Spuštěním tohoto příkazu zadejte úplné protokoly pro kontrolu stavu
# isi_gather_info             

*Kontrola stavu není určena k opravě problémů s clusterem ani k posouzení konfigurace, výkonu nebo pracovního postupu clusteru.

  1. Proveďte "studený restart" každého uzlu provedením následujících kroků. Pro tuto činnost by mělo být naplánováno časové období údržby.
Poznámka: Tento proces umožňuje identifikovat jakékoli chyby paměti nebo režimy selhání disku, které jsou zjištěny pouze při opětovném zapnutí uzlu.
 
Poznámka: Tento proces přeruší všechna připojení s výjimkou NFSv3. Kontaktujte podporu Isilon a požádejte o pomoc s pokyny k delšímu procesu, který nenaruší aktivitu klienta během restartování uzlů za účelem tohoto testu údržby.
  1. Postupně vypínejte jednotlivé uzly v clusteru. Vypnutí jednotlivých uzlů:
    1. Navažte připojení SSH k libovolnému uzlu. Vypněte každý uzel spuštěním následujícího příkazu:
isi config
shutdown <node_lnn>
  1. Ověřte, zda jsou všechny uzly vypnuté, a to tak, že zelená kontrolka LED napájení na zadní straně uzlu již nesvítí.
  2. Stisknutím tlačítka napájení uzel znovu zapněte.
  3. Spuštěním příkazu ověřte, zda se uzel znovu připojil ke clusteru a je v pořádku isi status -q příkaz a hledání OK ve sloupci DASR stavu výstupu.
  4. Pokud u uzlu dojde k problémům uvedeným ve sloupci DASR stavu nebo se nepodaří znovu připojit ke clusteru, vyřešte tyto problémy před vypnutím dalšího uzlu.

Je vybrán příklad problému. Uzel 1 se úspěšně znovu připojil ke clusteru, ale sloupec DASR stavu označuje, že vyžaduje pozornost.

mycluster-1# isi status -q

Cluster Name: mycluster
Cluster Health:     [ ATTN]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-A-- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only   
  1. Po restartování každého uzlu znovu zkontrolujte stav celého clusteru. Navažte připojení SSH k libovolnému uzlu a spusťte následující příkaz:
 isi status -q
Ověřte, že sloupec DASR stavu každého uzlu je OK.
 
Poznámka: Pokud čas neumožňuje u každého uzlu restartování za studena, můžete proaktivně odhalit některé skryté problémy s hardwarem tím, že místo toho provedete postupný restart nebo "měkký restart" spuštěním následujícího příkazu pro každý uzel:
isi config
reboot <node_lnn>

Společnost Dell však důrazně doporučuje používat studený restart, abyste mohli efektivněji identifikovat skryté problémy s hardwarem.
 

2. fáze: Vypněte všechny uzly v clusteru.
Tyto kroky je třeba provést v den, kdy vypnete cluster Isilon. Během vypnutí v rámci celého clusteru mohou některé faktory ovlivnit nebo zpozdit proces vypnutí. Vypnutí mohou ovlivnit například nedokončené zápisy dat do uzlu. Účelem kroků 1–2 je zajistit, aby byli všichni klienti odpojeni od clusteru a aby byla data správně uložena z deníků uzlů do systému souborů před spuštěním příkazu shutdown. Pokud máte klienty iSCSI, ujistěte se, že jste je vypnuli dříve, než bude služba iSCSI zakázána.

Krok 3 popisuje, jak postupně vypínat jednotlivé uzly v clusteru pomocí sériové konzole. Tato metoda se doporučuje, protože umožňuje ověřit, zda je každý uzel správně vypnut, než přejdete k dalšímu uzlu, a podle potřeby provést úpravy nebo opravit problémy, aby bylo zajištěno správné vypnutí clusteru. Tato metoda však může být časově náročná, protože ke spuštění příkazu Shutdown vyžaduje připojení sériové konzoly ke každému uzlu. Část Vypnout současně všechny uzly v clusteru popisuje, jak k vypnutí clusteru použít rozhraní příkazového řádku OneFS nebo webové rozhraní OneFS pro správu. Tato metoda je časově méně náročná než krok 3, ale ztěžuje identifikaci uzlů, u kterých dochází k problémům během procesu vypnutí.

  1. Společnost Isilon doporučuje izolovat cluster od klientů, aby klienti s velkým podílem zápisu nebránili procesu vypnutí. To lze provést zakázáním klientských služeb spuštěných ve vašem clusteru. Chcete-li zakázat služby orientované na klienty, proveďte následující postup:
    1. Identifikujte služby nebo protokoly orientované na klienty, které jsou spuštěny v clusteru, spuštěním následujících příkazů pro každou službu orientovanou na klienty:
isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd
  1. B. Zdokumentujte služby, které jsou v clusteru povoleny, na základě výstupu jednotlivých příkazů. Služba SMB vybraná v níže uvedeném příkladu je povolena, zatímco služba NFS je zakázána:
mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#
  1. Zakažte klientské služby. Po tomto kroku všichni klienti okamžitě ztratí připojení ke clusteru. Chcete-li službu zakázat, spusťte následující příkaz související se službou, kterou jste povolili.
isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable

Pokud máte klienty iSCSI, ujistěte se, že klienti iSCSI před provedením kroku 2 odpojili své jednotky LUN. Spusťte isi iscsi list příkaz k potvrzení, že jsou všichni klienti iSCSI odpojeni od clusteru.  

Poznámka: Pokud zakazujete službu iSCSI, ujistěte se, že jste před spuštěním příkazu vypnuli klienty iSCSI isi_iscsi_d disable . Narušení připojené jednotky iSCSI LUN může způsobit poškození klienta, což obvykle vyžaduje obnovení ze zálohy.
  1. Přesuňte zápisy dat uložené v žurnálech uzlů do systému souborů spuštěním příkazu isi_for_array isi_flush . Na každém uzlu se zobrazí výstup podobný následujícímu:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.

Poznámka: U velkého clusteru s vysokým počtem nevyřízených zápisů může dokončení tohoto kroku trvat několik minut.

Pokud se uzlu nepodaří vyprázdnit data, zobrazí se výstup podobný následujícímu, kde uzel 1 a uzel 2 selžou svým příkazem empty:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty

Spusťte isi_for_array isi_flush příkaz znovu. Pokud se některý uzel nevyprázdní, obraťte se na technickou podporu Dell Isilon. Než budete pokračovat dalším krokem, musí se všechny uzly úspěšně vyprázdnit.  

Poznámka: Pokud odpojíte zdroj napájení z uzlu, který nevyprázdnil data ze svého deníku do systému souborů, riziko ztráty dat se podstatně zvýší. Pokud potřebujete pomoc s vypnutím, obraťte se na technickou podporu společnosti Dell Isilon.
  1. Postupně vypněte každý uzel v clusteru a sledujte výstup. Tento přístup se doporučuje, protože umožňuje identifikovat a vyřešit všechny problémy před vypnutím dalšího uzlu v clusteru. Vypněte každý uzel provedením následujících kroků:
Upozornění: Nespouštějte isi_for_array shutdown -p příkaz k vypnutí clusteru.
 
Každý uzel, u kterého v tomto kroku dojde k panice nebo restartování, je uzel, který vyžaduje další šetření. Než budete pokračovat, musí všechny uzly vyprázdnit data z deníku uzlů do systému souborů.
 
Varování: Pokud odpojíte zdroj napájení z uzlu, který nevyprázdnil data ze svého deníku do systému souborů, riziko ztráty dat se podstatně zvýší. Pokud potřebujete pomoc s vypnutím, obraťte se na technickou podporu společnosti Dell Isilon.
  1. Připojte sériovou konzoli ke každému uzlu.
  2. Zadejte následující příkaz:
isi config
shutdown
Po úspěšném vypnutí uzlu se zobrazí výstup podobný následujícímu:
Powering the system off using ACPI
Poznámka: Pokud nemáte přístup ke svým uzlům prostřednictvím přepínače klávesnice, videa a myši (KVM) a musíte místo toho použít notebook, může dokončení tohoto kroku trvat hodiny.
 
  1. C. Sledujte konzoli a hledejte chybové události související s hardwarem. Úspěšná uložení deníku uzlů jsou vybrána v následujících variantách výstupu:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully

2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.

An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:

Pokud se zobrazí chyba, že deník uzlů nebyl uložen, můžete deník uložit ručně provedením kroků ve fázi 3.

Vypněte současně všechny uzly v clusteru.

V případě nouze můžete vypnout všechny uzly v clusteru současně. Tato metoda se však nedoporučuje, protože neumožňuje monitorovat stav a výstup jednotlivých uzlů v případě, že dojde k problému. Pokud se rozhodnete postupovat podle těchto kroků, společnost Dell důrazně doporučuje provést všechny kroky ve fázi 3 a ověřit, zda se všechny uzly po provedení níže uvedených postupů správně vypnuly.

Poznámka: Každý uzel, u kterého v tomto kroku dojde k panice nebo restartování, je uzel, který vyžaduje další šetření. Než budete pokračovat, musí všechny uzly vyprázdnit data z deníku uzlů do systému souborů.
 
Varování: Pokud odpojíte zdroj napájení z uzlu, který nevyprázdnil data ze svého deníku do systému souborů, riziko ztráty dat se podstatně zvýší. Pokud potřebujete pomoc s vypnutím, obraťte se na technickou podporu společnosti Dell Isilon.

Chcete-li vypnout všechny uzly v clusteru, použijte rozhraní příkazového řádku OneFS nebo webové rozhraní OneFS pro správu. 

V rozhraní příkazového řádku OneFS spusťte následující příkaz:
# isi config shutdown all
 
Poznámka: NESPOUŠTĚJTE isi_for_array shutdown -p Příkaz k vypnutí clusteru Z webového rozhraní pro správu OneFS v systému OneFS 8.0 a novějším.

3. fáze: Ověřte, že se uzly úspěšně vypnuly.
Podívejte se na kontrolku LED (Power Ingitting Diode) na zadní straně uzlu, která potvrzuje, že se uzly správně vypnuly. Všechny kontrolky LED napájení by měly ztmavnout nebo zhasnout. To znamená, že uzel byl úspěšně vypnut.
 
Varování: Pokud se uzel úspěšně nevypnul a odpojíte od něj zdroj napájení, pravděpodobnost ztráty dat se podstatně zvyšuje. Obnovení dat vyžaduje zdlouhavý postup obnovení a někdy i úplné opětovné sestavení clusteru.
 
Pokud máte pochybnosti o úspěšnosti operace vypnutí, například pokud se uzel nevypne nebo není uložen deník, obraťte se na technickou podporu společnosti Dell.

Pokud kontrolka napájení na zadní straně uzlu stále svítí, uzel se nevypnul. Pokud se uzel nevypnul nebo pokud se zobrazí výstup konzoly oznamující, že deník uzlů nebyl správně uložen (od fáze 2, krok 3C), je nutné deník uložit ručně, abyste zajistili, že data budou před vypnutím uzlu potvrzena na disk.
  1. Chcete-li ručně uložit deník a vypnout uzel, proveďte následující kroky:
    1. Pokud uzel reaguje na rozhraní příkazového řádku, restartujte uzel spuštěním následujícího příkazu:
# isi config reboot
  1. Pokud uzel nereaguje na rozhraní příkazového řádku, restartujte uzel ručně stisknutím a přidržením vypínače na zadní straně uzlu. To způsobí vypnutí uzlu. Počkejte 30 sekund a poté jedním stisknutím tlačítka napájení znovu spusťte zálohu uzlu. Přejděte k dalšímu kroku.
Varování: Pouze pro tento krok se doporučuje ruční restartování uzlu. Kvůli žádným jiným stavům uzel ručně nevypínejte. Může to vést ke ztrátě dat.
  1. Po restartování uzlu se znovu přihlaste a deník uložte pomocí následujících kroků:
    1. Pokuste se uzel znovu řádně vypnout spuštěním následujícího příkazu:
# isi config shutdown
  1. Pokud výstup stále naznačuje, že se deník neukládal, uložte jej ručně spuštěním následujícího příkazu:
# isi_save_journal
  1. Pokud se deník stále neukládá, odpojte systém souborů /ifs a pak vynuťte uložení deníku spuštěním následujících příkazů:
# isi_kill_busy && umount /ifs
  1. Ověřte, zda je deník uložen, spuštěním příkazu isi_checkjournal.
# isi_checkjournal
  1. Nepřecházejte k dalšímu kroku, dokud výstup neindikuje, že deník byl úspěšně uložen.

V případě potřeby se obraťte na technickou podporu společnosti Dell.
 

4. fáze: Odpojte zdroj napájení.
Teprve po úspěšném vypnutí clusteru a vypnutí uzlů lze od clusteru odpojit zdroj napájení.
 
Varování: Pokud uzel nebyl úspěšně vypnut, neodpojujte jeho zdroj napájení. To může vést ke ztrátě dat, zdlouhavému postupu obnovení a někdy i k úplnému opětovnému sestavení clusteru.

Baterie
NVRAMKdyž klient zapíše soubor do uzlu, zápisy se nejprve uloží do stálé paměti RAM (NVRAM) hostované na kartě deníku uzlu. O něco později systém OneFS potvrdí tyto zápisy na disk. Kvůli ochraně dat uložených v paměti NVRAM v případě neplánovaného výpadku napájení je každý uzel vybaven bateriemi NVRAM (dvěma pro redundanci). Uzel, který je vypnutý, ale zůstává připojený ke zdroji napájení, pokračuje v obnově baterií NVRAM. Když je zdroj napájení odpojen od uzlu, baterie NVRAM se začnou vybíjet. Životnost baterie v aktuální generaci uzlů (X200, S200, X400 a NL400) je přibližně pět dní. U předchozí generace uzlů je výdrž baterie NVRAM přibližně tři dny.

Společnost Dell Technologies doporučuje uzly řádně vypnout, aby při výpadku napájení nedocházelo po delší dobu k závislosti na bateriích NVRAM.
 
Poznámka: Další informace o tom, jak řešení Isilon využívá paměť NVRAM k zachování integrity dat, naleznete v části "Struktura systému souborů" v příručkách pro webovou správu systému OneFS a správu pomocí rozhraní příkazového řádku.

Pokud se baterie NVRAM v uzlu zcela vybijí, uzel se spustí do režimu pouze pro čtení a zůstane v něm přibližně 30 minut, dokud se baterie NVRAM plně nenabijí. Po nabití baterií se uzel automaticky vrátí do normálního režimu čtení/zápisu.
 
Varování: Pokud jsou data stále uložena v paměti NVRAM z důvodu nesprávného vypnutí a uzel je bez napájení systému po dobu delší, než je životnost baterie paměti NVRAM, může dojít ke ztrátě dat, zdlouhavému postupu obnovení a někdy i k úplnému opětovnému vytvoření clusteru.


5. fáze: Zapněte každý uzel v clusteru.
Tyto kroky je třeba provést, až budete připraveni restartovat cluster Isilon.
  1. Obnovte zdroj napájení pro každý uzel.
  2. Stisknutím vypínače na předním panelu nebo na zadní straně každého uzlu je spusťte.
  3. Po zapnutí všech uzlů spusťte příkaz isi status -q příkaz ke kontrole stavu clusteru. Než budete pokračovat, ověřte, že jsou všechny uzly ve sloupci Health DASR v pořádku a nejsou v režimu jen pro čtení (R). U clusteru, který je v pořádku, by se měl zobrazit výstup podobný následujícímu:
Cluster Name: mycluster
Cluster Health:     [ OK ]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-OK- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only   
  1. Podívejte se na seznam povolených služeb, který byl vytvořen ve fázi 2, kroku 1b, a povolte služby, které byly zakázány, spuštěním jednoho nebo více z následujících příkazů:
isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable
  1. Ověřte, zda se klienti mohou připojit ke clusteru a provádět obvyklé pracovní postupy. Cluster by měl fungovat normálně.
 
  1. Upload a full log shromáždit
# isi_gather_info --esrs
  1. Provedení kontroly stavu Isilon týmem Remote Reactive (zákaznická podpora) nebo si ji vyžádejte.

Postup spuštění kontrol stavu.

Isilon: Jak spustit nástroj Isilon On-Cluster Analysis

  1. Žádost o kontrolu stavu pomocí týmu vzdálené reaktivní podpory

To je k dispozici všem zákazníkům s aktivní smlouvou o údržbě clusterů s podporovanými verzemi kódu.

Pokud tyto požadavky splňujete, otevřete na webu online podpory společnosti Dell žádost o "kontrolu stavu Isilon".

*Kontrola stavu není určena k opravě problémů s clusterem ani k posouzení konfigurace, výkonu nebo pracovního postupu clusteru.

Additional Information

Zde je několik doporučených zdrojů k tomuto tématu, které by vás mohly zajímat:

Article Properties


Affected Product

PowerScale, Isilon

Product

Isilon

Last Published Date

22 May 2024

Version

14

Article Type

How To