Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

PowerScale、Isilon、OneFS:如何正確關閉叢集電源

Summary: 正確關閉 PowerScale 叢集的最佳實務,並包含叢集關機不當相關風險的相關資訊。正確關閉群集的分步過程。某些步驟應在排定升級的 4-8 週前執行。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

簡介

本文提供正確關閉 Dell Isilon 叢集的程序,並包含與叢集關機不當相關的風險資訊。
 
警示:不當關閉叢集可能會導致資料可用性和完整性問題。

叢集中不當關閉的節點在沒有系統電源的情況下,不應超過 NVRAM 電池的使用壽命,約為 3 至 5 天,視節點類型而定。如果資料仍儲存在節點日誌中,且節點沒有系統電源的時間超過 NVRAM 電池使用時間,則會遺失資料,且必須重建叢集。

如果您對本文中的程序或資訊有任何疑問,請聯絡 Dell Isilon 技術支援部門以取得協助。


程序

叢集關機程序需要根認證和對叢集中節點的序列主控台存取權限。該過程分為五個階段。 在開始關機程序前,請先閱讀整個程序。這可確保您瞭解完成每個步驟的上下文和順序。
 
警示:如果您執行的 OneFS 版本已達到服務終止 (EOSL),請升級至支援的 OneFS 版本。


第 1 階段:執行預防性維護。
這些步驟大約在計劃關閉前 4-8 周執行。此階段的目的是識別可能妨礙關閉過程的未知或潛在的硬體或固件問題。
 
警示:Dell 強烈建議您在關閉 Isilon 叢集之前,先遵循第 1 階段的所有步驟。

如果情況需要立即在全叢集範圍內關機,您可以使用 OneFS 命令列介面或 OneFS Web 管理介面同時關閉所有節點。

如果有緊急關機程序,Dell 強烈建議您遵循 第 3 階段 的所有步驟,以維護資料的完整性。
  1. 如有需要,請上傳記錄以供歷史參考。
# isi_gather_info
  1. 執行或要求 Isilon 執行狀況檢查。
    • 這會評估叢集的健全狀況,以確保其處於良好可支援的運作狀態。
    • 可由客戶使用 PowerScale 執行:如何執行 IOCA 叢集分析工具
    • 它可以由遠端反應(客戶支援)團隊執行。這適用於所有擁有受支援代碼版本叢集有效維護協議的客戶。如果您符合這些要求,請在 Dell 線上支援網站上開立服務要求 (SR),要求「Isilon 執行狀況檢查」。執行此命令,提供執行狀況檢查的完整記錄
# isi_gather_info             

*執行狀況檢查並非為了修正叢集問題,或評估叢集的組態、效能或工作流程。

  1. 執行下列步驟,為每個節點執行「冷重新開機」。應為此活動排定一個維護時段。

注意:此程序可讓您識別只有在節點重新開機時才會偵測到的任何記憶體錯誤或磁碟機故障模式。
 
注意:此程序會中斷所有連線,NFSv3 除外。聯絡 Isilon 支援以取得協助,並提供有關在節點重新開機進行此維護測試時不會中斷用戶端活動的較長程序說明。
 
  1. 一次關閉群集中的每個節點。若要關閉每個節點:
    1. 開啟與任何節點的 SSH 連線。執行下列命令,關閉每個節點:
isi config
shutdown <node_lnn>
  1. 確認節點背面的綠色電源指示燈 LED 不再亮起,確認每個節點已關閉電源。
  2. 按下電源按鈕以重新開啟節點電源。
  3. 執行此命令,確認節點是否已重新加入叢集且狀況良好。 isi status -q 命令,然後在輸出的「運行狀況 DASR」 列中查找 “確定 ”。
  4. 如果節點遇到運行狀況 DASR 列中指示的問題,或者無法重新加入群集,請在關閉下一個節點之前解決這些問題。

選取了問題的範例。節點 1 已成功重新加入群集,但“運行狀況 DASR”列指示它需要注意。

mycluster-1# isi status -q

Cluster Name: mycluster
Cluster Health:     [ ATTN]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-A-- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only   
  1. 將每個節點重新開機後,請仔細檢查整個叢集的健全狀況。開啟與任何節點的 SSH 連線,並執行下列命令:
 isi status -q
確認每個節點的健全狀況 DASR 欄顯示為「OK」。
 
注意:如果時間不允許對每個節點採用冷重新開機方法,您可以改為執行輪流重新開機或「暖重新開機」,為每個節點執行下列命令,以主動發現一些潛在的硬體問題:
isi config
reboot <node_lnn>

但是, Dell 強烈建議 使用冷重新開機方法,更有效地識別潛在的硬體問題。
 

第 2 階段:關閉叢集中的每個節點。
這些步驟會在您關閉 Isilon 叢集的當天執行。在全叢集關機期間,某些因素可能會影響或延遲關機程序。例如,對節點的未完成數據寫入可能會影響關閉。步驟 1-2 的目的是確保在執行 shutdown 命令之前,所有用戶端都已從叢集中斷連線,且節點日誌中的資料已正確儲存至檔案系統。如果您有 iSCSI 用戶端,請務必在停用 iSCSI 服務前關閉用戶端。

步驟 3 介紹如何使用串行控制台按順序關閉群集中的每個節點。建議使用此方法,因為它使您能夠在繼續下一個節點之前驗證每個節點是否正確關閉,並根據需要進行調整或修復問題以確保群集正確關閉。但是,此方法可能很耗時,因為它需要將串行主控台連接到每個節點以運行關閉命令。同時關閉叢集中的所有節點章節說明如何使用 OneFS 命令列介面或 OneFS Web 管理介面來關閉叢集。此方法比步驟 3 耗時少,但使得識別在關機過程中遇到問題的節點更具挑戰性。

  1. Isilon 建議將叢集與用戶端隔離,以確保寫入密集的用戶端不會妨礙關閉程序。為此,您可以停用叢集上執行的用戶端對應服務。執行以下過程以關閉面向客戶端的服務:
    1. 通過為每個面向客戶端的服務運行以下命令,確定群集上運行的面向客戶端的服務或協定:
isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd
  1. 二. 根據每個命令的輸出,記錄叢集上「啟用」的服務。在以下範例中選取,SMB 服務已啟用,而 NFS 服務已停用:
mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#
  1. 禁用面向客戶端的服務。完成此步驟后,所有用戶端都會立即失去與群集的連接。若要禁用服務,請運行以下與您已啟用的服務相關的命令。
isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable

如果您有 iSCSI 用戶端,請確定 iSCSI 用戶端已在執行步驟 2 前取消掛接其 LUN。執行 isi iscsi list 命令,確認所有 iSCSI 用戶端都已與群集斷開連接。


注意:如果您要停用 iSCSI 服務,請確定您已關閉 iSCSI 用戶端,再執行 isi_iscsi_d disable 命令。掛接的 iSCSI LUN 中斷可能會導致用戶端受損,這通常需要從備份復原。
 
  1. 執行 isi_for_array isi_flush 命令。每個節點上都會顯示類似於以下內容的輸出:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.
 
注意:在具有大量未完成寫入的大型群集上,此步驟可能需要幾分鐘才能完成。
 
如果節點無法刷新其數據,您會收到類似於以下內容的輸出,其中節點 1 和節點 2 的刷新命令失敗:
mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty

執行 isi_for_array isi_flush 再次命令。若有任何節點無法排清,請聯絡 Dell Isilon 技術支援。所有節點都必須成功排清,才能繼續下一個步驟。

 
注意:如果從尚未將數據從其日誌刷新到文件系統的節點中移除電源,則數據丟失的風險將大大增加。如果您需要關機程序的協助,請聯絡 Dell Isilon 技術支援。
 
  1. 依照順序關閉叢集中的每個節點,並監控輸出。建議使用此方法,因為它使您能夠在關閉群集中的下一個節點之前識別並解決任何問題。執行下列步驟,關閉每個節點:

警示:請勿執行 isi_for_array shutdown -p 命令以關閉群集。
 
在此步驟發生錯誤或重新開機的任何節點皆為需要進一步調查的節點。特別是,在繼續之前,所有節點都必須將數據從節點日誌刷新到文件系統。
 
警告:如果從尚未將數據從其日誌刷新到文件系統的節點中移除電源,則數據丟失的風險將大大增加。如果您需要關機程序的協助,請聯絡 Dell Isilon 技術支援。
 
  1. 將串行主控台連接到每個節點。
  2. 執行下列命令:
isi config
shutdown
當節點成功關閉時,將顯示類似於以下內容的輸出:
Powering the system off using ACPI
 
注意:如果您無法透過鍵盤、視訊、滑鼠 (KVM) 交換器存取節點,而必須改用筆記型電腦,則此步驟可能需要數小時才能完成。
 
  1. C. 觀察主控台並尋找與硬體相關的故障事件。節點日誌儲存成功的選項會在下列輸出變化中選取:
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully

2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.

An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:

如果收到節點日誌未保存的錯誤,可以通過執行 階段 3 中的步驟手動保存日誌。
 

同時關閉叢集中的所有節點。


如果發生緊急情況,您可以同時關閉集群中的所有節點。但是,不建議使用此方法,因為它無法讓您在發生問題時監視每個節點的狀態和輸出。如果您選擇執行這些步驟,Dell 強烈建議您遵循 第 3 階段 的所有步驟,以驗證在執行下列程序後,所有節點是否已正確關機。

 
注意:在此步驟發生錯誤或重新開機的任何節點皆為需要進一步調查的節點。特別是,在繼續之前,所有節點都必須將數據從節點日誌刷新到文件系統。

警告:如果從尚未將數據從其日誌刷新到文件系統的節點中移除電源,則數據丟失的風險將大大增加。如果您需要關機程序的協助,請聯絡 Dell Isilon 技術支援。
 
若要關閉叢集中的所有節點,請使用 OneFS 命令列介面或 OneFS Web 管理介面。 
 
從 OneFS 命令行介面,執行下列命令:
# isi config shutdown all
 
注意:請勿執行 isi_for_array shutdown -p 命令以從 OneFS Web 管理介面關閉您的叢集 - 在 OneFS 8.0 及更新版本中。

第 3 階段:檢查節點是否已成功關機。
查看節點背面的電源指示燈發光二極體 (LED),確認節點已正確關機。所有電源指示燈 LED 應顯示為暗色或熄滅。這表示節點已成功關機。
 
警告:如果節點尚未成功關機,且您中斷了節點的電源連接,則資料遺失的機率便會大幅增加。恢復數據需要漫長的恢復過程,有時需要完整的群集重建。
 
警告:如果您對關機操作是否成功有任何疑問,例如節點未關機或未儲存日誌,請聯絡 Dell 技術支援。

如果節點背面的電源指示燈仍亮起,則表示節點尚未關機。如果節點尚未關閉,或者您收到指示節點日誌未正確保存的控制台輸出(從 階段 2 的步驟 3C 開始),則必須手動保存日誌以確保在關閉節點之前將數據提交到磁碟。
  1. 若要手動儲存日誌並關閉節點,請執行下列步驟:
    1. 如果節點回應命令行介面,請執行下列命令,將節點重新開機:
# isi config reboot
  1. 如果節點未回應命令行介面,請按住節點背面的電源按鈕,手動將節點重新開機。這會導致節點關閉電源。等待 30 秒鐘,然後按下電源按鈕一次,以再次啟動節點備份。請前往下一個步驟。
 
警告:僅建議在此步驟中手動為節點重新開機。請勿在任何其他情況下手動關閉節點。這可能會導致資料遺失。
 
  1. 重新啟動節點後,重新登入並使用下列步驟儲存日誌:
    1. 嘗試透過執行下列命令,以順利再次關閉節點:
# isi config shutdown
  1. 如果輸出仍指出紀錄未儲存,請執行下列命令,手動儲存紀錄:
# isi_save_journal
  1. 如果日誌仍未儲存,請卸載檔案系統 /ifs,然後執行下列命令強制儲存紀錄:
# isi_kill_busy && umount /ifs
  1. 執行 isi_checkjournal 命令以確認已儲存紀錄。
# isi_checkjournal
  1. 在輸出指出已成功儲存日誌之前,請勿前往下一個步驟。

如有需要,請聯絡 Dell 技術支援
 

第 4 階段:拔下電源。
在叢集成功關機並關閉節點電源後,只有這樣,才能從叢集中斷電源連接。
 
警告:如果節點尚未成功關機,請勿中斷節點的電源連接。否則可能會導致資料遺失、執行冗長的復原程序,有時甚至需要完整重新建置叢集。

NVRAM 電池
當用戶端將檔寫入節點時,寫入首先存儲在節點日誌卡上託管的非易失性 RAM (NVRAM) 中。一段時間之後,OneFS 會將這些寫入寫入磁碟。為了在發生意外電源中斷時保護儲存在 NVRAM 中的資料,每個節點都配備 NVRAM 電池 (兩顆用於備援)。已關閉電源但仍連接至電力來源的節點會繼續重新整理其 NVRAM 電池。從節點中斷電源後,NVRAM 電池開始耗盡。目前世代節點 (X200、S200、X400 和 NL400) 的電池使用時間約為五天。在上一代節點中,NVRAM 電池使用時間約為三天。

Dell Technologies 建議您妥善關閉節點,避免在電源中斷期間長時間依賴 NVRAM 電池。
 
注意:如需 Isilon 如何使用 NVRAM 來保持資料完整性的詳細資訊,請參閱 OneFS Web 管理和 CLI 管理指南中的「檔案系統結構」一節。

如果節點上的 NVRAM 電池完全耗盡,節點會開機至唯讀模式,並保持唯讀模式約 30 分鐘,直到 NVRAM 電池完全充電。電池充電後,節點會自動返回正常讀/寫模式。
 
警告:如果由於關機不當導致資料仍儲存在 NVRAM 中,且節點沒有系統電源的時間超過 NVRAM 電池使用時間,您會遇到資料遺失、復原程序冗長,有時甚至需要完整叢集重建。


第 5 階段:開啟叢集中每個節點的電源。
當您準備好重新啟動 Isilon 叢集時,將會執行這些步驟。
  1. 還原每個節點的電力來源。
  2. 按下每個節點前面板或背面的電源按鈕以啟動它們。
  3. 開啟所有節點電源後,請執行 isi status -q 命令,以檢閱叢集的健全狀況。在繼續操作之前,請確認運行狀況 DASR 列中的所有節點都 正常 ,並且未處於唯讀 (R) 模式。對於運行狀況良好的群集,應顯示類似於以下內容的輸出:
Cluster Name: mycluster
Cluster Health:     [ OK ]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-OK- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only   
  1. 請參閱 在第 2 階段步驟 1b 中建立的已啟用服務清單,並透過執行下列一或多個命令啟用已停用的服務:
isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable
  1. 驗證用戶端是否可以連接到群集並執行其常規工作流。您的叢集應可正常運作。
 
  1. Uplo廣告完整記錄收集
# isi_gather_info --esrs
  1. 由遠端反應 (客戶支援) 團隊執行或要求 Isilon 執行狀況檢查。

執行狀況檢查的步驟。

PowerScale:如何執行 IOCA 聚類分析工具。

  1. 使用 Remote Reactive 支援小組要求執行狀況檢查

這適用於所有擁有受支援代碼版本叢集有效維護協議的客戶。

如果您符合這些要求,請在 Dell 線上支援網站上開立服務要求 (SR),要求「Isilon 執行狀況檢查」。

*執行狀況檢查並非為了修正叢集問題,或評估叢集的組態、效能或工作流程。

Additional Information

以下是一些可能與本主題相關的建議資源,您可能會感興趣:

Affected Products

PowerScale, Isilon

Products

Isilon
Article Properties
Article Number: 000018989
Article Type: How To
Last Modified: 26 Jul 2024
Version:  15
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.