Article Number: 000181952

Switch MDS Cisco: Los hosts pierden una ruta a puertos VPLEX de front-end (FE) en una activación de zona

Summary: En una activación de zona, todos los HBA que se encuentran divididos en zonas en un puerto de front-end de VPLEX cierran sus sesiones y pierden una ruta. Es posible que los hosts ESX no respondan y requieran un reinicio para la recuperación. [Scott: ¿esto solo afecta a los hosts ESX? En este resumen, se indica que son "todos los HBA divididos en zonas de un VPLEX" ¿deseamos limitar esto solo a los hosts ESX, o reformular para decir "Es posible que los hosts no respondan y requieran un reinicio para recuperarse?] ...

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Symptoms

El host pierde rutas.
[NOTA: Scott también consulta la nota en el resumen]

El host ESX se bloquea y requiere un reinicio para la recuperación. [Scott, ¿solo los hosts ESX dejan de responder? En el resumen, se indica que son "todos los HBA divididos en zonas en VPLEX"]

Desde el registro "vmkernel" de ESXi:

2020-08-30T03:52:23.501Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 Comando ELS desconocido x7f26e705 recibido de NPORT x1f04c0
2020-08-30T03:52:28.325Z cpu187:66638)WARNING: lpfc: lpfc_els_unsol_buffer:8330: 0:(0):0115 Comando ELS desconocido x7effc405 recibido de NPORT x1f04c0

Desde los registros de firmware de VPLEX:
event fc/4: "This port has discovered the departure of the indicated port from the fabric."

128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36008:<6>2020/08/30 03:39:07.65: fc/4 A0-FC02.0: port 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (speed <unsupported by fabric>) departed
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36009:<4>2020/08/30 03:39:07.65: stdf/18 FCP connection lost. TI: [Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)] [Scott: retomando el problema "Todos los HBA divididos en zonas en VPLEX", si este problema de Cisco impacta a todos los HBA divididos en zonas a VPLEX, ¿debemos mostrar informes de otros hosts provenientes de los registros de fw? ¿Vemos otros hosts que salgan igual que el host ESX que se muestra anteriormente?]

evento fc/3: "This port has discovered the arrival of the indicated port on the fabric."

128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36020:<6>2020/08/30 03:40:37.66: fc/3 A0-FC02.0: port 200000109b59a55d:100000109b59a55d:330fc0
(spn Emulex PPN-10:00:00:10:9b:59:a5:5d) (snn Emulex LPe16002B-M6 FV12.2.299.27 DV12.2.373.1 HN:localhost OS:VMware ESXi 6.5.0) (speed <unsupported by fabric>) arrived
128.221.253.37/cpu0/log:5988:W/"006016abc83a153324-2":36027:<4>2020/08/30 04:03:28.34: stdf/17 FCP connection established. TI: [Host1_vmhba1 (0x100000109b59a55d)
A0-FC02 (0xc00144879a780200)]
[Scott: ¿tenemos estos datos en otros HBA que hayan llegado? ]

Cambiar:
activación de la zona.
Los puertos de HBA y los puestos VPLEX de front-end no participan en los cambios de división por zonas.
[Scott: esta última oración no tiene sentido, el problema, según entiendo, es cuando existe una activación de un conjunto de zonas en un switch Cisco y todos los puertos HBA y VPLEX FE "están” involucrados. Además, ¿qué niveles de código de switch Cisco se ven afectados?]

Cause

VPLEX ejecuta una detección de fabric en todos los puertos Fibre Channel (front-end, back-end y FC-WANCOM) cada 90 segundos y hace esto mediante el comando "Get all next" (GA_NXT) del servidor de nombres. Esto se realizará fuera de la recepción de un RSCN desde el switch o PLOGI desde un HBA en zonas.

Debido al error de Cisco CSCvw75655, si VPLEX lleva a cabo su detección de fabric, en un puerto front-end (FE), mientras se realiza una activación/asignación de un conjunto de zonas, existe una baja probabilidad de que VPLEX solo devuelva su propia dirección de Fibre Channel (FCID) y, luego supondrá que cualquier HBA que haya iniciado sesión en este ya no estará conectado a fabric y enviará un cierre de sesión (PLOGO) a cada HBA con zonas asignadas a este. [Scott: ¿los registros de VPLEX o de switch muestran que se produce esta acción, el PLOGO que se envía, si esto se puede ver en ambos productos? ¿podemos incluir muestras de esto y de qué registros se muestran?]

VPLEX registrará los eventos de FC/4 por cada HBA que cierren sesión y los eventos de FC/3, en la próxima detección de fabric de 90 segundos, cuando reciba la información correcta del servidor con el nombre del switch.

La forma en que HBA maneje este cierre de sesión dependerá de su controlador/firmware. El host de ESX en este ejemplo no responde y se requiere un reinicio. [Scott: ¿tenemos datos de los registros de otros hosts que se vean afectados por este evento? si es así, podemos enumerar algunos, para que no se vean afectados por el impacto solo los hosts ESX?]

NOTA:
se realiza la detección periódica de fabric para garantizar que VPLEX haya actualizado los datos de fabric, ya que existe la posibilidad de que no todos los RSCN lleguen a VPLEX desde fabric.

Resolution

Solución:

En el switch Cisco, deshabilite la característica de la base de datos (db) compartida del servidor de zonas/servidor de nombres de la siguiente manera:

switch# no zoneset capability active mode shared-db vsan <vsan-id>

NOTA: La función de base de datos compartida por conjunto de zonas es solo una eficiencia en que el servidor de nombres y el servidor de zonas comparten información. Deshabilitar la característica no tendrá un impacto negativo en el entorno.

Cisco confirmó que el cambio es a nivel local y no global. Este comando se debe ejecutar en cada switch que tenga VPLEX conectado a este. [Scott: ¿hay una base de conocimientos de Cisco que abarque este problema y a la cual podamos hacer referencia en este artículo de la base de conocimientos?]

Corrección:

NX-OS 8.4(2c). Dell EMC no ha dispuesto disponibilidad general para esta versión.
[Scott: no se puede enumerar una corrección que aún no entregue Dell EMC, una vez que esté disponible, se vuelve a publicar este artículo de la base de conocimientos para su revisión y eliminación de la frase "Dell EMC no ha dispuesto disponibilidad general para esta versión"]

Additional Information

Productos (1)
Software Cisco MDS 9000 NX-OS y SAN-OS

Versiones afectadas conocidas
8.3(2)

Detección de VPLEX Fabric

Ejemplo:
host 1, host 2 y host 3 divididos en un único puerto VPLEX FE.

Puerto VPLEX FE: FCID 0x200b20
Host 1: FCID 0x340000
Host 2: FCID 0x340020
Host 3: FCID 0x340040

Working… [Scott: ¿Qué es esto? ¿Esto se tomó/copió de la información? Si es así, podemos quitar la información "Working…"]

VPLEX enviará un comando "Get all next" al servidor de nombres con la dirección de Fibre Channel (FCID) de "0xffffff" (la más alta)
En el nombre del servidor, se responderá con los detalles de puerto VPLEX FE (el más bajo)
VPLEX enviará un comando "Get all next" al servidor de nombres con la dirección de Fibre Channel (FCID) del puerto VPLEX FE
En el nombre del servidor, se responderá con los detalles del host 1
VPLEX enviará un comando "Get all next" al servidor de nombres con la dirección de Fibre Channel (FCID) del host 1
En el nombre del servidor, se responderá con los detalles del host 2
VPLEX enviará un comando "Get all next" al servidor de nombres con la dirección de Fibre Channel (FCID) del host 2
En el nombre del servidor, se responderá con los detalles del host 3
VPLEX enviará un comando "Get all next" al servidor de nombres con la dirección de Fibre Channel (FCID) del host 3
En el nombre del servidor, se responderá con los detalles de puerto VPLEX FE
VPLEX se detiene aquí, ya que ha recibido la dirección Fibre Channel (FCID) de sí mismo, la cual ya se ha detectado (resuperado)

Error de Cisco CSCvw75655…

VPLEX enviará un comando "Get all next" al servidor de nombres con la dirección de Fibre Channel (FCID) de "0xffffff" (la más alta)
En el nombre del servidor, se responderá con los detalles de puerto VPLEX FE (el más bajo)
VPLEX enviará un comando "Get all next" al servidor de nombres con la dirección de Fibre Channel (FCID) del puerto VPLEX FE
En el nombre del servidor, se responderá con los detalles de puerto VPLEX FE
VPLEX se detiene aquí, ya que ha recibido la dirección Fibre Channel (FCID) de sí mismo, la cual ya se ha detectado (resuperado)

Detalles adicionales sobre la corrección del error CSCvw75655 que se agregó a NX-OS 8.4(2c).

Un recordatorio de lo que causa este error:

El problema se produce cuando un dispositivo objetivo emite un comando FCNS GA_NXT y solo recupera su propia FCID, lo que indica que no está dividido en zonas con otros dispositivos. Algunos dispositivos objetivo emiten GA_NXT de manera periódica. No están impulsados por RSCN u otros estímulos y, por lo tanto, son vulnerables a este problema.
La causa es que, cuando se encuentra en curso una activación/confirmación de un conjunto de zonas, hay una pequeña ventana de tiempo en que FCNS solo devolverá la FCID del emisor en una respuesta de GA_NXT y ninguna de las otras que tenga asignada la zona. Esto es una consecuencia de la función de base de datos compartida en conjuntos de zonas que se implementó en Cisco MDS NX-OS 7.3(0)D1(1).

Esta es la descripción de la corrección de Cisco:

como parte de la activación, la desactivación se activa, lo que borra la SDB. Junto con borrar la SDB, se envía una notificación a todos los suscriptores. Esto todavía no se hace. Además, se agregó una nueva secuencia que enviará la notificación de confirmación de la SDB por separado. De esta manera, se creará una zona para crear la SDB y se enviará una notificación final
Solo hay una corrección en la versión 8.4(2c).

SDB = base de datos compartida del conjunto de zonas.

Article Properties

Affected Product

VPLEX, Connectrix MDS-Series Firmware 7.X, Connectrix MDS-Series Firmware 8.X, VMware ESXi 6.5.X

Product

Connectrix, Connectrix MDS-Series, Connectrix MDS-Series Firmware, VMware ESXi, VPLEX GeoSynchrony, VPLEX Series, VPLEX VS6

Switch MDS Cisco: Los hosts pierden una ruta a puertos VPLEX de front-end (FE) en una activación de zona

Article Content

Symptoms

Cause

Resolution

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

Switch MDS Cisco: Los hosts pierden una ruta a puertos VPLEX de front-end (FE) en una activación de zona

Article Content

Symptoms

Cause

Resolution

Additional Information

Article Properties

Affected Product

Product

Last Published Date

Version

Article Type