问题
在将一体机初始安装到新群集期间,或将新设备添加到现有群集时,有一些硬件和网络检查可能会失败,这可能会将应用装置的状态从"未配置"更改为"未配置的故障"。此状态意味着一体机无法加入新群集,或无法添加到现有群集。 必须先清除故障,然后才能将设备添加到群集中。
原因
要确定是否存在导致 "未配置的故障"状况的 硬件或网络问题,请执行以下步骤:
如果您要将设备添加到现有群集(从 PowerStore Manager):
- 使用服务 LAN 端口访问方法访问系统(请参阅 PowerStore:访问节点 了解详细信息)。
- 以服务用户身份登录到服务容器后,运行以下服务脚本以确定是否存在硬件或网络问题:
svc_diag list --icw_hardware
svc_diag list --network
- 如果未报告任何错误或问题,则 ICW 或添加应用装置操作期间出现的原始症状可能是暂时性的。
- 如果指示错误或问题,并且您无法确定如何解决,请运行以下脚本以生成数据收集,并联系您的服务提供商寻求帮助:
svc_dc run
- 如果您要将一体机安装到新群集并准备好重试安装:
- 关闭 Discovery Tool 和/或浏览器。
- 重新启动 Discovery Tool 或使用节点 A 的静态服务 LAN IP 地址打开浏览器 [即 128.221.1.252]。
- 如果系统显示它处于"未配置"状态,请恢复初始配置/ICW 步骤
- 重试 Add Appliance 操作,以查看任务是否成功。
- 如果任务仍然失败,请执行数据收集以获取相关日志,并联系您的服务提供商寻求帮助。
以下是 svc_diag list --icw_hardware
左侧列中" "成功输出的示例;右侧列包含您可能会看到的错误说明。
输出示例 |
描述 |
hw_type节 点 A 上运行的 Warnado-EX |
|
节点 A FRU 状态 正常|对等节点|0x0f80 正常|本地节点|0x1480 正常|嵌入式模块|0x8b81 OK | 4 端口卡| 0x8b81 OK |I/O 模块 0 |0x8b81 正常|I/O 模块 1 |0x8b81 正常|内部备用电池模块|0x3380 节点 B FRU 状态 正常|对等节点|0x0f80 正常|本地节点|0x1580 正常|嵌入式模块|0x8b81 4 端口卡|正常| 0x8b81 正常|I/O 模块 0 |0x8b81 正常|I/O 模块 1 |0x8b81 正常|内部备用电池模块|0x1380 |
这些表包含三列: 摘要|FRU 名称|状态传感器值 左侧的 Summary 列应如下所示: OK = FRU 状态良好 空 = FRU 缺失和/或设备未检测到。由于 I/O 模块是可选的,因此查看 I/O 模块的"空"状态可能是正常的。(在这种情况下,两个节点上的相同 I/O 模块插槽必须为空)。所有其他 FRU 都是必需的硬件,并且应始终为"正常"。 熄灭 = FRU 已关闭。可能需要更换 FRU。 Unknown = Status Sensor 值包含意外值。可能需要更换 FRU。 针对故障的建议操作:有关如何解决这些硬件问题的详细信息,请参阅相关的知识库文章。其中包括:SLN317238/SLN320677(节点)、SLN317221(I/O 模块、4 端口卡)和 SLN320676(嵌入式模块)。 |
IO 模块一致性检查 = 成功 节点一致性检查 = 成功 电池检查 = 正常 |
这些检查会比较每个节点的 FRU 状态摘要值。两个节点都应报告每个 FRU 的相同摘要值。 针对故障的建议操作 :
- 对于 I/O 模块,请参阅知识库文章 SLN317221 。
- 对于节点,请参阅知识库文章 SLN317238/SLN320677 。
- 内部备份电池模块 检查将始终正常,除非无法从一个或两个节点读取 FRU 状态。如果这是icw_hardware命令报告的唯一故障,重新启动 ICW 应允许其通过。
|
节点 A 故障状态寄存器状态 = 成功 正常 |节点 正常|嵌入式模块 OK |内部备用电池 模块模块 正常|DIMM00 正常|DIMM01 正常|DIMM02 正常|DIMM03 正常|DIMM04 正常|DIMM05 正常|DIMM06 正常|DIMM07 正常|DIMM08 正常|DIMM09 正常|DIMM10 正常|DIMM11 正常|DIMM12 正常|DIMM13 正常|DIMM14 正常|DIMM15 正常|DIMM16 正常|DIMM17 正常|DIMM18 正常|DIMM19 正常|DIMM20 正常|DIMM21 正常|DIMM22 正常|DIMM23 正常|I/O 模块 0 正常|4 端口卡| I/O 模块 1 正常 节点 B 故障状态寄存器状态 = 成功 正常 |节点 正常|嵌入式模块 OK |内部备用电池 模块模块 正常|DIMM00 正常|DIMM01 正常|DIMM02 正常|DIMM03 正常|DIMM04 正常|DIMM05 正常|DIMM06 正常|DIMM07 正常|DIMM08 正常|DIMM09 正常|DIMM10 正常|DIMM11 正常|DIMM12 正常|DIMM13 正常|DIMM14 正常|DIMM15 正常|DIMM16 正常|DIMM17 正常|DIMM18 正常|DIMM19 正常|DIMM20 正常|DIMM21 正常|DIMM22 正常|DIMM23 正常|I/O 模块 0 正常|I/O 模块 1 | 4 端口卡正常 |
左侧列中的状态值为"OK"或"FLT"。这些是从故障状态寄存器 (FSR) 中读取的。 "FLT"表示 FRU 已发生硬件错误。 "OK"表示该 FRU 没有记录硬件错误。如果不存在 FRU,则此表中的状态应为"OK"。(在这些表中,空 I/O 模块插槽将显示为"OK",但在上面的 FRU 状态表中将列为"空"。) 针对故障的建议操作: 搜索相关知识库文章以解决硬件问题。其中包括:SLN317238/SLN320677(节点)、SLN317213(内部备用电池模块)、SLN317221(I/O 模块、4 端口卡)和 SLN320676(嵌入式模块)。 |
NVRAM 高速缓存驱动器 节点核心计数 (NodeA:12, NodeB:12) 根据核心计数需要的 NVRAM 驱动器数量:找到 2 个 NVRAM 驱动器(节点 2,节点:2) 需要 NVMe 驱动器的 NVMe 存储驱动器数量:找到 6 个 SCM 驱动器(节点 A:0,节点 B:0) 找到的 SSD 驱动器(节点:12(NVMe 6、SAS 6)、节点 B:12(NVMe 6、SAS 6)) NVMe 驱动器检查 = Success compareNodeDrives - NVEe 驱动器计数, NodeA 8, NodeB 8 compareNodeDrives - 两个节点都看到相同的 NVMe 驱动器 compareNodeDrives - SAS SSD 驱动器计数, NodeA 12, NodeB 12 compareNodeDrives - 两个节点都看到相同的驱动器 比较节点驱动器检查 = 成功 检查ExpansionEnclosures - nodeAEnclCount 2, nodeBEnclCount 2 存储模块检查 = 成功 |
驱动器相关的检查包括: 1. 一体机必须包含正确数量的 NVRAM 高速缓存驱动器(特定数量取决于设备的型号)。如果显示故障,建议的操作:查找缺失、出现故障或未正确安装的 NVRAM 驱动器。"svc_diag list --nvme_drive"命令的输出可能很有帮助。 2. 系统中的数据驱动器必须遵循 SCM、SCD 和 SAS 驱动器的官方配置规则(在此示例中,应用装置中没有 SCM 驱动器)。如果显示故障,建议的操作:检查所有 NVMe 和/或 SAS 驱动器的驱动器标签。如果混合使用 SCM 和 SSD 驱动器类型,请根据需要更换或卸下驱动器。 3. 必须从两个节点看到相同数量的驱动器(仅从一个节点可见的驱动器将导致问题)。如果显示故障,建议的操作:您可以使用"svc_diag list --nvme_drive"显示有关 NVMe 驱动器的详细状态,以确定哪些驱动器或驱动器仅在一个节点上可见。 4. 必须从两个节点看到相同数量的驱动器存储模块(仅从一个节点可见的机柜将导致问题)。如果显示故障,建议的操作:检查所有机柜线缆并验证机柜是否已正确布线。 |
checkIoms - nodeAIoms:[u' 303-321-000C', u' 313-202-000B'] checkIoms — nodeBIoms:[u' 303-321-000C', u' 313-202-000B'] 比较节点 IOM 检查 = 成功 |
一个节点上每个插槽中的 I/O 模块必须与对等节点上同一插槽中的 I/O 模块相匹配。 如果一个节点中存在错误类型的 I/O 模块,或者每个节点包含一个 I/O 模块,但它们位于不同的插槽中(例如:一个节点上的插槽 0,但对等节点上的插槽 1),则可能会发生这种情况。如果 I/O 模块缺失或关闭,您还可以在此处看到故障(请参阅上面的"故障状态注册簿"部分)。 针对故障的建议操作:比较两个节点上两个 I/O 模块插槽中的 I/O 模块的部件号。如果有任何不一致,请根据需要移动或更换 I/O 模块以纠正问题。KB SLN317221 也可能很有帮助。 |
总体状态:True,return_code 0 IOM 一致性检查:成功 节点一致性检查:成功 电池检查:OK Fault Status Register A:Success Fault Status Register B :成功 节点 A 可访问:真正的 节点 B 可访问:真正的 驱动器检查:成功 节点驱动器比较检查:成功 存储模块检查:Success IO Module Compare Check:Success |
本部分是上述信息的摘要。 |
下面是来自 " 成功输出的示例 svc_diag_list --network"
:
输出示例 |
开始最小布线检查 **** OCP_MEZZ 0 在节点 A 上 LINK_STATUS_UP OCP_MEZZ 0 在节点 B 上LINK_STATUS_UP OCP_MEZZ节点 A 上LINK_STATUS_UP 1 OCP_MEZZ 1 在节点 B 上LINK_STATUS_UP **** 最小布线检查:总体错误:0 总体错误:0,返回代码:0 |