主机丢失路径。
[注 — Scott 也请参阅摘要中的注释]
ESX 主机挂起,并且需要重新启动才能恢复。[Scott — 它只是可能会挂起的 ESX 主机吗?摘要指出“分区到 VPLEX 的所有 HBA”]
从 ESXi“vmkernel”日志:
2020-08-30T03:52:23.501Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 Unknown ELS command x7f26e705 received from NPORT x1f04c0
2020-08-30T03:52:28.325Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 Unknown ELS command x7effc405 received from NPORT x1f04c0
从 VPLEX 固件日志:
事件 fc/4: “此端口已发现构造中所指示的端口离开。”
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36008:<6>2020/08/30 03:39:07.65: fc/4 A0-FC02.0: port 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (speed <unsupported by fabric>) departed
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36009:<4>2020/08/30 03:39:07.65: stdf/18 FCP connection lost. IT: [Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)][Scott — 返回到“分区到 VPLEX 的所有 HBA”的问题,如果此 cisco 问题影响分区到 VPLEX 的所有 HBA,那么我们是否应该在固件日志中显示其他主机离开的报告?我们是否看到其他主机与上面所示的 esx 主机一样离开?]
事件 fc/3:“此端口已发现构造中所指示的端口到达。”
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36020:<6>2020/08/30 03:40:37.66: fc/3 A0-FC02.0: port 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (speed <unsupported by fabric>) arrived
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36027:<4>2020/08/30 04:03:28.34: stdf/17 FCP connection established. IT: [Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)]
[Scott:我们是否有其他 HBA 的数据也已到达?]
更改:
区域激活。
区域更改不涉及 HBA 端口和 VPLEX 前端端口。
[Scott — 最后一句话没有意义,据我所知,问题是当 Cisco 交换机上的区域集激活时,所有 HBA 和 VPLEX 前端端口“均”被涉及。另外,这还会影响哪些 Cisco 交换机代码级别?]
VPLEX 每 90 秒钟在所有光纤通道端口(前端、后端和 FC-WANCOM)上执行一次构造发现,并使用“Get all next”(GA_NXT) 名称服务器命令来执行此操作。除了从交换机接收 RSCN 或从分区 HBA 接收 PLOGI 之外,它将执行此操作。
由于 Cisco 错误 CSCvw75655 的缘故,当区域集激活/提交正在进行时,如果 VPLEX 在前端 (FE) 端口上执行其构造发现,则 VPLEX 有很小的机率会仅收到其自身的光纤通道地址 (FCID),接着将会假设登录到它的任何 HBA 不再连接到该构造,并向每个分区到它的 HBA 发送注销 (PLOGO)。[Scott — VPLEX 和/或交换机日志是否显示此操作正在发生,是否显示正在发送 PLOGO,如果这可以在两个产品上看到,那么我们是否可以包含此示例,从哪些日志中可看到这方面内容呢?]
从交换机名称服务器接收到正确信息时,VPLEX 将在接下来的 90 秒构造发现中记录它注销的每个 HBA 的 fc/4 事件和 fc/3 事件。
HBA 如何处理此注销将取决于其驱动程序/固件。此示例中的 ESX 主机挂起并需要重新启动。[Scott — 我们是否有受此事件影响的其他主机的日志数据?如果有,我们是否还可以列出一些,以便看起来不像只有 ESX 主机受到影响?]
注:
定期执行构造发现,以确保 VPLEX 已更新构造数据,因为有可能并非所有 RSCN 均能够从构造到达 VPLEX。
解决办法:
在 Cisco 交换机上,禁用名称服务器/区域服务器共享数据库 (db) 功能,如下所示:
产品 (1)
Cisco MDS 9000 NX-OS 和 SAN-OS 软件
已知受影响的版本
8.3(2)
VPLEX 构造发现
示例:
分区到单个 VPLEX FE 端口的主机 1、主机 2 和主机 3。
VPLEX FE 端口:FCID 0x200b20
主机 1:FCID 0x340000
主机 2:FCID 0x340020
主机 3:FCID 0x340040
正在工作...[Scott — 这是什么?这是从信息中获取/复制的吗?如果是,我们可以删除“正在工作...”信息]
Cisco 错误 CSCvw75655 ...