PowerScale、Isilon、OneFS：如何正确关闭群集电源

Summary: 正确关闭 PowerScale 群集的最佳实践，包括与群集不当关闭相关的风险的相关信息。正确关闭群集的分步过程。某些步骤应在计划升级前 4-8 周运行。

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Check out other resources

Instructions

简介

本文提供了正确关闭 Dell Isilon 群集的步骤，并提供了与不正确关闭群集相关的风险的相关信息。

注意：不正确地关闭群集可能会导致数据可用性和完整性问题。

群集中未正常关闭的节点没有系统电源的时间不应超过 NVRAM 电池的使用寿命（大约为 3 到 5 天），具体取决于节点类型。如果数据仍存储在节点日志中，并且节点没有系统电源的时间超过 NVRAM 电池续航时间，则数据会丢失，并且必须重建群集。

如果您对本文中的步骤或信息有疑问，请联系 Dell Isilon 技术支持寻求帮助。

流程

群集关闭过程需要 root 凭据和对群集中节点的串行控制台访问权限。该过程分为五个阶段。

阶段 1：执行预防性维护
阶段 2：关闭群集中的每个节点
阶段 3：验证节点是否已成功关闭
第 4 阶段：断开电源
第 5 阶段：打开群集中每个节点的电源
第 6 阶段：在群集上运行运行状况检查

在开始关机过程之前，请阅读整个过程。这可确保您了解完成每个步骤的上下文和顺序。

注意：如果您运行的 OneFS 版本已达到服务终止（EOSL），请升级到受支持的 OneFS 版本。

阶段 1：执行预防性维护。
这些步骤在计划关闭前大约 4-8 周执行。此阶段的目的是识别可能妨碍关闭程序的未知或潜在硬件或固件问题。

注意：戴尔强烈建议您在关闭 Isilon 群集之前执行第 1 阶段中的所有步骤。

如果情况需要立即在群集范围内关闭，您可以使用 OneFS 命令行界面或 OneFS Web 管理界面同时关闭所有节点。

戴尔强烈建议遵循第 3 阶段中的所有步骤，以在发生紧急关闭程序时保持数据的完整性。

如果需要，上传日志以供历史参考。

# isi_gather_info

执行或请求 Isilon 运行状况检查。
- 这将评估群集的运行状况，以确保其处于良好的可支持、可运行状态。
- 客户可以使用 PowerScale 执行此操作：如何运行 IOCA 群集分析工具
- 它可以由远程响应（客户支持）团队执行。这适用于针对受支持代码版本的群集签订有效维护协议的所有客户。如果您满足这些要求，请在戴尔在线支持网站上打开服务请求（SR），请求“Isilon 运行状况检查”。通过运行此命令，提供运行状况检查的完整日志

# isi_gather_info

*运行状况检查不用于修复群集问题或评估群集的配置、性能或工作流。

通过执行以下步骤，对每个节点执行“冷重新启动”。应为此活动安排维护窗口。

提醒：通过此过程，您可以识别仅在节点重新开机时才检测到的任何内存错误或驱动器故障模式。

提醒：此过程会中断除 NFSv3 以外的所有连接。请联系 Isilon 支持部门，以获取有关在重新启动节点以进行此维护测试时不会中断客户端活动的更长过程的说明。

逐个关闭群集中的每个节点。要关闭每个节点，请执行以下操作：
1. 打开与任何节点的 SSH 连接。通过运行以下命令关闭每个节点

isi config
shutdown <node_lnn>

通过确认节点背面的绿色电源指示灯 LED 不再亮起，验证每个节点是否已关闭电源。
按下电源按钮以重新打开节点电源。
通过运行以下命令，验证节点是否已重新加入群集且运行状况良好 isi status -q 命令，然后在输出的 Health DASR 列中查找 OK 。
如果节点遇到 HealthDASR列中指示的问题，或者无法重新加入群集，请在关闭下一个节点之前解决这些问题。

已选择问题的示例。节点 1 已成功重新加入群集，但 Health DASR列指示它需要注意。

mycluster-1# isi status -q

Cluster Name: mycluster
Cluster Health:     [ ATTN]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-A-- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

重新启动每个节点后，仔细检查整个群集的运行状况。打开与任何节点的 SSH 连接，然后运行以下命令：

 isi status -q

验证每个节点的HealthDASR列是否显示OK。

提醒：如果时间不允许对每个节点采用冷重启方法，您可以通过为每个节点运行以下命令来执行滚动重启或“热重启”，从而主动发现一些潜在的硬件问题：

isi config
reboot <node_lnn>

但是， 戴尔强烈建议 使用冷重新启动方法更有效地识别潜在的硬件问题。

阶段 2：关闭群集中的每个节点。
这些步骤将在您关闭 Isilon 群集的当天执行。在群集范围关闭期间，某些因素可能会影响或延迟关闭过程。例如，对节点的未完成数据写入可能会影响关闭。步骤 1-2 的目的是确保所有客户端都与群集断开连接，并且在运行 shutdown 命令之前，数据已从节点日志正确保存到文件系统。如果您有 iSCSI 客户端，请确保在禁用 iSCSI 服务之前关闭客户端。

步骤 3 介绍了如何使用串行控制台按顺序关闭群集中的每个节点。建议使用此方法，因为它使您能够在继续下一个节点之前验证每个节点是否已正确关闭，并根据需要进行调整或修复问题以确保群集正确关闭。但是，此方法可能非常耗时，因为它需要将串行控制台连接到每个节点以运行 shutdown 命令。同时关闭群集中的所有节点部分介绍了如何使用 OneFS 命令行界面或 OneFS Web 管理界面关闭群集。此方法比步骤 3 耗时更少，但使得识别在关闭过程中遇到问题的节点更具挑战性。

Isilon 建议将群集与客户端隔离开来，以确保写入频繁的客户端不会妨碍关闭程序。您可以通过禁用群集上运行的面向客户端的服务来执行此操作。执行以下过程以禁用面向客户端的服务：
1. 通过对每个面向客户端的服务运行以下命令，识别群集上运行的面向客户端的服务或协议：

isi services apache2
isi services isi_hdfs_d
isi services isi_iscsi_d
isi services ndmpd
isi services nfs
isi services smb
isi services vsftpd

湾。根据每个命令的输出，记录群集上“启用”的服务。在下面的示例中选择此选项，SMB 服务处于启用状态，而 NFS 服务处于禁用状态：

mycluster-4# isi services smb
Service 'smb' is enabled.
mycluster-4# isi services nfs
Service 'nfs' is disabled.
mycluster-4#

禁用面向客户端的服务。完成此步骤后，所有客户端会立即失去与群集的连接。要禁用某项服务，请运行以下与您已启用的服务相关的命令。

isi services apache2 disable
isi services isi_hdfs_d disable
isi services isi_iscsi_d disable
isi services ndmpd disable
isi services nfs disable
isi services smb disable
isi services vsftpd disable

如果您有 iSCSI 客户端，请确保 iSCSI 客户端在执行步骤 2 之前已卸载其 LUN。运行 isi iscsi list 命令确认所有 iSCSI 客户端都已与群集断开连接。

提醒：如果要禁用 iSCSI 服务，请确保在运行 isi_iscsi_d disable 命令启用和配置 SRS。对已装载的 iSCSI LUN 的中断可能会对客户端造成损坏，这通常需要从备份中恢复。

通过运行 isi_for_array isi_flush 命令启用和配置 SRS。每个节点上将显示如下输出：

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
mycluster-1: Cache flushing complete.

提醒：在具有大量未完成写入的大型群集上，此步骤可能需要几分钟才能完成。

如果节点无法刷新其数据，您将收到类似于以下内容的输出，其中节点 1 和节点 2 的刷新命令失败：

mycluster-4# isi_for_array isi_flush
mycluster-1: Flushing cache...
vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining
mycluster-2: Flushing cache...
fsync: giving up on dirty

运行 isi_for_array isi_flush 命令。如果任何节点刷新失败，请联系戴尔 Isilon 技术支持。在继续执行下一步之前，所有节点都必须成功刷新。

提醒：如果从尚未将数据从其日志刷新到文件系统的节点移除电源，则数据丢失的风险会大大增加。如果您在关机过程中需要帮助，请联系戴尔 Isilon 技术支持。

按顺序关闭群集中的每个节点并监视输出。建议使用此方法，因为它使您能够在关闭群集中的下一个节点之前识别并解决任何问题。通过执行以下步骤关闭每个节点：

注意：请勿运行 isi_for_array shutdown -p 用于关闭群集的命令。

在此步骤中崩溃或重新启动的任何节点都是需要进一步调查的节点。特别是，在继续操作之前，所有节点都必须将数据从节点日志刷新到文件系统。

警告：如果从尚未将数据从其日志刷新到文件系统的节点移除电源，则数据丢失的风险会大大增加。如果您在关机过程中需要帮助，请联系戴尔 Isilon 技术支持。

将串行控制台连接到每个节点。
运行以下命令：

isi config
shutdown

成功关闭节点后，将显示类似于以下内容的输出：

Powering the system off using ACPI

提醒：如果您无法通过键盘、视频、鼠标（KVM）交换机访问节点，而必须改用笔记本电脑，则此步骤可能需要几个小时才能完成。

三. 监视控制台并查找与硬件相关的故障事件。在以下输出变体中，选择成功保存节点日志：

2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully

2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location
2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving.

An example of a node journal save failure is highlighted in the output below:
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted
2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:

如果您收到节点日志未保存的错误，您可以通过执行阶段 3 中的步骤手动保存日志。

同时关闭群集中的所有节点。

如果发生紧急情况，您可以同时关闭群集中的所有节点。但是，不建议使用此方法，因为它无法在出现问题时监视每个节点的状态和输出。如果您选择执行这些步骤，戴尔强烈建议执行第 3 阶段中的所有步骤，以验证在执行以下步骤后所有节点均已正确关闭。

提醒：在此步骤中崩溃或重新启动的任何节点都是需要进一步调查的节点。特别是，在继续操作之前，所有节点都必须将数据从节点日志刷新到文件系统。

要关闭群集中的所有节点，请使用 OneFS 命令行界面或 OneFS Web 管理界面。

从 OneFS 命令行界面中，运行以下命令：

# isi config shutdown all

提醒：请勿运行 isi_for_array shutdown -p 命令从 OneFS Web 管理界面（在 OneFS 8.0 及更高版本中）关闭群集。

阶段 3：验证节点是否已成功关闭。
通过查看节点背面的电源指示灯发光二极管（LED），确认节点已正确关闭。所有电源指示灯 LED 指示灯都应暗起或熄灭。这表示节点已成功关闭。

警告：如果某个节点未成功关闭，并且您断开了节点的电源，则数据丢失的可能性会大大增加。恢复数据需要漫长的恢复过程，有时还需要进行完整的群集重建。

警告：如果您对关闭操作是否成功有任何疑问（例如，节点未关闭或日志未保存），请联系戴尔技术支持。

如果节点背面的电源指示灯仍然亮起，则节点尚未关闭。如果节点尚未关闭，或者您收到控制台输出，指示节点日志未正确保存（来自阶段 2 步骤 3C），则必须手动保存日志以确保在关闭节点之前将数据提交到磁盘。

要手动保存日志并关闭节点，请执行以下步骤：
1. 如果节点响应命令行界面，请通过运行以下命令重新启动节点：

# isi config reboot

如果节点对命令行界面没有响应，请通过按住节点背面的电源按钮手动重新启动节点。这会导致节点关闭电源。等待 30 秒，然后按一次电源按钮以再次启动节点备份。转至下一个步骤。

警告：仅建议在此步骤中手动重新启动节点。请勿针对任何其他情况手动关闭节点。这可能会导致数据丢失。

重新启动节点后，重新登录并使用以下步骤保存日志：
1. 通过运行以下命令，尝试再次正常关闭节点：

# isi config shutdown

如果输出仍指示日志未保存，请通过运行以下命令手动保存日志：

# isi_save_journal

如果日志仍未保存，请卸载文件系统 /ifs，然后通过运行以下命令强制保存日志：

# isi_kill_busy && umount /ifs

通过运行 isi_checkjournal 命令验证日志是否已保存。

# isi_checkjournal

在输出指示日志已成功保存之前，请勿转至下一步。

如果需要，请联系戴尔技术支持。

第 4 阶段：断开电源。
在群集成功关闭且节点关机后，才能断开电源与群集的连接。

警告：如果节点尚未成功关闭，请勿断开节点的电源。这样做可能会导致数据丢失、恢复过程冗长，有时还会导致完整的群集重建。

NVRAM 电池
当客户端将文件写入节点时，写入首先存储在节点的日志卡上托管的非易失性 RAM （NVRAM）中。稍后，OneFS 会将这些写入提交到磁盘。为了在计划外断电时保护存储在 NVRAM 中的数据，每个节点都配备 NVRAM 电池（两个用于冗余）。已关闭但仍连接到电源的节点将继续刷新其 NVRAM 电池。当电源与节点断开连接时，NVRAM 电池开始耗尽。当前一代节点（X200、S200、X400 和 NL400）中的电池续航时间约为五天。在上一代节点中，NVRAM 电池寿命约为三天。

Dell Technologies 建议正确关闭节点，以避免在断电期间长时间依赖 NVRAM 电池。

提醒：有关 Isilon 如何使用 NVRAM 保持数据完整性的详细信息，请参阅 OneFS Web 管理和 CLI 管理指南中的“文件系统结构”部分。

如果节点上的 NVRAM 电池完全耗尽，则该节点将引导至只读模式，并在大约 30 分钟内保持只读模式，直至 NVRAM 电池充满电。为电池充电后，节点会自动恢复正常读/写模式。

警告：如果由于不当关闭，数据仍存储在 NVRAM 中，并且节点没有系统电源的时间超过 NVRAM 电池寿命，则您会遇到数据丢失、漫长的恢复过程，有时甚至会遇到完整的群集重建。

第 5 阶段：打开群集中每个节点的电源。
当您准备好重新启动 Isilon 群集时，将执行这些步骤。

恢复每个节点的电源。
按每个节点的前面板或背面的电源按钮以启动它们。
所有节点均已开机后，运行 isi status -q 命令来检查群集的运行状况。在继续操作之前，请验证“运行状况”DASR列中的所有节点是否正常，并且未处于只读（R）模式。对于运行状况良好的群集，应显示类似于以下内容的输出：

Cluster Name: mycluster
Cluster Health:     [ OK ]
Cluster Storage:  HDD                 SSD           
Size:             11G (23G Raw)       0 (0 Raw)     
VHS Size:         11G                
Used:             7.9G (69%)          0 (n/a)       
Avail:            3.5G (31%)          0 (n/a)       
                   Health  Throughput (bps)  HDD Storage      SSD Storage
ID |IP Address     |DASR |  In   Out  Total| Used / Size     |Used / Size
-------------------+-----+-----+-----+-----+-----------------+-----------------
  1|10.1.16.141    |-OK- |    0| 150K| 150K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  2|10.1.16.142    |-OK- |  98K|  13K| 112K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  3|10.1.16.143    |-OK- |    0|  44K|  44K| 2.0G/ 2.8G( 69%)|    (No SSDs)   
  4|10.1.16.144    |-OK- |    0|  512|  512| 2.0G/ 2.8G( 69%)|    (No SSDs)   
-------------------+-----+-----+-----+-----+-----------------+-----------------
Cluster Totals:          |  98K| 208K| 306K| 7.9G/  11G( 69%)|    (No SSDs)   
Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only

查看在第 2 阶段步骤 1b 中创建的已启用服务的列表，并通过运行以下一个或多个命令启用已禁用的服务：

isi services apache2 enable
isi services isi_hdfs_d enable
isi services isi_iscsi_d enable
isi services ndmpd enable
isi services nfs enable
isi services smb enable
isi services vsftpd enable

验证您的客户端是否可以连接到群集并执行其常规工作流。您的群集应正常运行。

第 6 阶段：POST CHECK— 在群集上运行运行状况检查。

上传并收集完整日志

# isi_gather_info --esrs

由远程响应（客户支持）团队执行或请求 Isilon 运行状况检查。

运行运行状况检查的步骤。

PowerScale：如何运行 IOCA 聚类分析工具。

使用远程响应支持团队请求运行状况检查

这适用于针对受支持代码版本的群集签订有效维护协议的所有客户。

如果您满足这些要求，请在戴尔在线支持网站上打开服务请求（SR），请求“Isilon 运行状况检查”。

*运行状况检查不用于修复群集问题或评估群集的配置、性能或工作流。

Additional Information

以下是一些可能引起您感兴趣的与此主题相关的推荐资源：

Affected Products

PowerScale, Isilon

Products

Isilon

Article Number: 000018989

Article Type: How To

Last Modified: 26 Jul 2024

Version: 15

Check if your device is covered by Support Services.

PowerScale、Isilon、OneFS：如何正确关闭群集电源

Summary: 正确关闭 PowerScale 群集的最佳实践，包括与群集不当关闭相关的风险的相关信息。正确关闭群集的分步过程。某些步骤应在计划升级前 4-8 周运行。

Instructions

简介

流程

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

PowerScale、Isilon、OneFS：如何正确关闭群集电源

Summary: 正确关闭 PowerScale 群集的最佳实践，包括与群集不当关闭相关的风险的相关信息。正确关闭群集的分步过程。某些步骤应在计划升级前 4-8 周运行。

Detailed Article

Instructions

Additional Info

Affected Products

Instructions

简介

流程

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services