Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Switch Connectrix B-Series: Defeitos FOS-849642 & FOS-847091 - Directors e switches Ger 7 podem encontrar uma condição de falha que causa erros de CRC, falhas de portas ou causa uma reinicialização disruptiva

Summary: Directors e switches de 7ª geração (X7-8, X7-4, 7730 e 7720) executando qualquer versão do Fabric OS (FOS) v9.1.x antes de v9.1.1c ou executar no FOS v9.2.0 pode encontrar uma condição de falha que causa erros de CRC, falhas de portas ou causa uma reinicialização disruptiva em resposta ao congestionamento grave e à ativação do comportamento de gerenciamento de superatribuição do Recurso De otimização de tráfego Defeitos FOS-849642 e FOS-847091 Esses dois defeitos serão corrigidos no FOS v9.1.1c e v9.2.0a. Pendentes dessa qualificação, os clientes afetados podem optar por implementar a solução temporária. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Produtos afetados
Brocade X7-8, X7-4, 7730 e 7720 executando FOS v9.1.x ou FOS v9.2.0

Corrigido nas versões Brocade FOS v9.1.1c, v9.2.0a

e versões posteriores Somente os produtos gen 7 estão em risco.
Os directors de 7ª geração (X7-8 e X7-4) com um blade de porta FC64-48 e/ou FC32-X7-48 instalado estão em risco de identificar erros de overflow e "verificar". Os blades de porta FC32-64 e FC32-48 instalados nos directors gen 7 não estão em risco de encontrar nenhuma das falhas.
Os switches de 7ª geração (G730 e G720) estão apenas em risco de encontrar a falha de estouro de buffer. Esses switches não estão expostos nem estão em risco de encontrar a condição de falha de erro de "verificação".
Para ainda mais estar em risco, o fabric deve experimentar um congestionamento grave, resultando em gerenciamento de superatribuição pelo Traffic
Optimizer. A seguinte mensagem RASlog será observada se esse nível de resposta já tiver sido encontrado:
[TO-1006], 1011618/1002267, FID 128, INFO, Switch_100, Fluxos destinados ao dispositivo dev02 foram movidos para PG_OVER_SUBSCRIPTION_4G_16G PG., cfs_ctrlr.c, linha: 1470, comp:cfsd, ltime:2023/05/17-06:15:33:923058
A ação de gerenciamento de superatribuição pelo Traffic Optimizer só existe no firmware do FOS v9.1.x. Os produtos Gen 7
em execução no FOS v9.0.x não estão em risco para nenhuma das condições de falha.


Condições de risco de falha de overflow de buffer
Para que a condição de estouro de buffer ocorra, além de exigir um período de congestionamento grave, as portas F no director ou switch de 7ª
geração também precisam ter sido configuradas do valor padrão para um número maior de buffers. O FOS atribuirá
no máximo 28 buffers por padrão.
Qualquer director ou switch de 7ª geração que teve suas contagens máximas de buffer
F-Port aumentadas acima dos valores padrão usados pelo FOS podem estar em risco, e qualquer director X7-8 ou X7-4 que estava executando o FOS v9.0.x
pode estar em risco para identificar erros de "verificação". Em ambos os casos, o Traffic Optimizer
também deve tentar gerenciar o roteamento de quadros em resposta a um evento de superatribuição causado durante um período de congestionamento grave.

Para determinar directors e switches que podem estar em risco, use o comando "portbuffershow"
image.png
para visualizar o uso do buffer Se o total de uso de buffer para portas no mesmo ASIC/chip que também estão zoneados juntos agregar um valor maior que 256 buffers, o switch Gen 7 será considerado como risco de encontrar uma superação de buffer caso um evento de congestionamento grave exija gerenciamento de superatribuição do Traffic Optimizer. A falha não será encontrada em todos os eventos de gerenciamento de superatribuição, pois o número de buffers gerenciados no momento do evento precisa exceder 256, enquanto o Traffic Optimizer está gerenciando a superatribuição, mas a configuração para lidar potencialmente com mais de 256 buffers colocará o switch em risco.
No exemplo de resultado mostrado acima, se todas as 8 portas F estão em uma zona juntas, o switch está em risco de encontrar um overflow de buffer de quadros enquanto o Traffic Optimizer está gerenciando uma condição de superatribuição, pois a
contagem total de uso do buffer neste exemplo é 360.
No entanto, no exemplo a seguir em que as portas F não estão todas zoneada juntas, esse switch não estará em risco, pois as duas zonas (mostradas em verde) totalizam até 232 buffers e 128 buffers, respectivamente.
image.png
O número máximo de portas utilizadas para gerenciamento de superatribuição é de 8 portas. Se mais de 8 portas forem zoneada juntas do mesmo ASIC/chip, então totalize as 8 portas com os valores mais altos de uso de buffer para determinar o risco.

NOTA: Os directors e switches de 7ª geração que nunca tiveram suas contagens de buffer de porta F alteradas do padrão não estão em risco de encontrar esse problema de estouro de buffer de quadros. O valor máximo usado como uma configuração padrão para buffers máximos/reservados é 28 para produtos Gen 7, no entanto, menos buffers podem ser alocados, dependendo do tipo de switch e da velocidade óptica. Os
clientes que nunca aumentaram suas contagens de buffer máximo/reservado do padrão não encontrarão o problema de estouro de
buffer. Mesmo com 8 portas zoneada juntas, usando a alocação padrão máxima de 28 buffers por porta, o valor total
do uso máximo do buffer é de apenas 224 quadros.

"Verificar" condições de risco de falha
Além do problema de estouro de buffer, os directors X7-8 e X7-4 também podem estar em risco para "verificar" mensagens de erro se as seguintes condições forem atendidas nesta ordem:
  • Director X7-8 ou X7-4 executado anteriormente no FOS v9.0.x
  • Em seguida, o director é atualizado para FOX v9.1.x
  • Em seguida, o director tem as portas F que faz log-out e log-in na versão v9.1.x
  • Em seguida, o director encontra um evento de superatribuição que requer gerenciamento do Traffic Optimizer
  • Em seguida, o director executa um failover de HA (o upgrade do firmware faz com que ocorra um failover)
  • O director encontra outro evento de superatribuição que requer gerenciamento do Traffic Optimizer 
Os directors X7-8 ou X7-4 que atendem a todas essas condições, na sequência especificada, podem estar em risco de encontrar erros de "verificação" durante o gerenciamento de superatribuição do Traffic Optimizer.
  • Os directors X7-8 ou X7-4 que já foram executados apenas no firmware do FOS v9.1.x não estão em risco de encontrar o erro de "verificação", pois apenas o modelo de programação v9.1 está sendo usado para todas as portas. Os directors gen 7 devem ter sido executados anteriormente com o FOS v9.0.x para serem suscetíveis a esse problema.
  • Os directors X7-8 ou X7-4 que foram inicializados/religados a frio durante a execução no firmware do FOS v9.1.x também não estão em risco de encontrar o erro de "verificação", pois todas as portas usarão a programação v9.1 após a reinicialização

Sintomas
Os directors e switches de 7ª geração que identificaram um evento de gerenciamento de superatribuição observarão o seguinte
RASlog do Traffic Optimizer:
[TO-1006], 1011618/1002267, FID 128, INFO, Switch_100, Fluxos destinados ao dispositivo b1a02 foram movidos para PG_OVER_SUBSCRIPTION_4G_16G PG., cfs_ctrlr.c, linha: 1470, comp:cfsd, ltime:2023/05/17-06:15:33:923058
Os sintomas adicionais que podem aparecer devido a esses problemas identificados podem ser:
  • Podem ser observados grandes números de erros de CRC em um link que não são corrigidos com a substituição de cabos/componentes ópticos
  • Os quadros podem ser descartados, o crédito em um link pode ser perdido
  • As portas podem estar com defeito, o ASIC pode parar e estar com defeito
  • Um director pode observar um failover inesperado de HA ou até mesmo uma reinicialização a frio do director
  • Os switches podem observar uma reinicialização a frio

Cause

O gerenciamento de superatribuição pelo recurso Otimizador de tráfego sob condições específicas pode causar cenários
de falha que afetam a transmissão de quadros ou portas que estão sendo gerenciados. Em cenários graves de congestionamento,
essas falhas também podem afetar o desempenho de outros daemons do FABRIC OS (FOS), ativos no switch, levando a tempos limite de watchdog
de software, resultando em failover de HA ou pane do switch.

Directors e switches de 7ª geração (X7-8, X7-4, 7730 e 7720) que encontram um estouro de buffers de quadros ao tentar gerenciar e reenviar fluxos superatribuídos em resposta a um evento grave de congestionamento podem causar erros inesperados
. Se
o número de quadros ultrapassar o buffer usado para gerenciar o tratamento de superatribuição,
esses quadros em excesso poderão ser perdidos durante o tratamento do Traffic Optimizer. Esses quadros em excesso podem ser substituídos
por outros quadros, levando a erros de CRC de quadro ou até mesmo a falhas de porta se as informações do cabeçalho forem sobregravadas. Em cenários de congestionamento graves, o gerenciamento desses excessos/quadros em excesso pode levar ao bloqueio de outros daemons
do FOS, o que pode resultar em tempo limite de watchdog. Daemons críticos que o tempo limite causará failover de HA ou reinicialização disruptiva do switch.

Além do tratamento de estouro de quadros em potencial, os directors X7-8 e X7-4 que anteriormente estavam operando no FOS v9.0.x e, posteriormente, atualizados para o FOS v9.1.x poderiam identificar erros de verificação após failovers de HA (inclusive aqueles causados por upgrades de firmware para versões mais altas da v9.1.x). Várias mensagens de erro de "verificação" serão observadas durante o gerenciamento de superatribuição pelo Traffic Optimizer devido a um conflito detectado na programação de portas criadas quando algumas portas, mas nem todas as portas são redefinidas na versão v9.1.x. O conflito entre a programação de gerenciamento de congestionamento em portas que nunca foram redefinidas na versão v9.0.x e, posteriormente, encontrou o gerenciamento de congestionamento enquanto na v9.1.x nas portas que foram redefinidas pode aparecer após um evento de failover de HA.

Resolution

Solução temporária
" Directors e switches em risco" podem desativar a ação de gerenciamento de superatribuição do Traffic Optimizer.
Execute o seguinte comando da CLI na conta
de manutenção para desativar o comportamento da ação de gerenciamento de superatribuição no Traffic Optimizer
maintenance> serviceexec trafoptdebug --enableosclassification 0
Nota: O comando de manutenção precisa ser executado em todos os switches lógicos do chassi.
NOTA: A configuração será persistente em failovers eciclos


de alimentação Ação corretiva Uma solução de software fornecida no FOS v9.1.1c e versões posteriores impedirá essas falhas. As mesmas soluções também são fornecidas
no FOS v9.2.0a e nas versões posteriores do FOS v9.2.x. O upgrade para essas versões do FOS
impedirá uma sobreposição de quadros devido ao gerenciamento de superatribuição e também impedirá erros de "verificação" nos directors X7.

Para qualquer director ou switch de 7ª geração (X7-8, X7-4, 7730 e 7720) que ainda esteja executando uma versão do FOS v9.0.x e pode estar "em risco"
para identificar os problemas descritos, é recomendável aguardar o lançamento do FOS v9.1.1c antes do upgrade.

Os directors e switches de 7ª geração que estão atualmente operando em versões v9.1.x ou v9.2.0 e
que estão determinados como em risco devem implementar a solução temporária. A desativação da ação de gerenciamento de superatribuição
do Traffic Optimizer impedirá que ocorram erros de overrun de buffer e de "verificação". Depois de fazer upgrade para v9.1.1c ou v9.2.0a,
a ação de gerenciamento de superatribuição pode ser reativada por meio do seguinte comando:
Execute o seguinte comando da CLI da conta de manutenção para reativar o comportamento da ação de gerenciamento de superatribuição no Traffic Optimizer
maintenance> serviceexec trafoptdebug --enableosclassification 1
Nota: O comando de manutenção precisa ser executado em todos os switches lógicos do chassi.

Qualquer director ou switch gen 7 que já tenha encontrado a
falha de "overflow de buffer" precisará executar uma reinicialização a frio para se recuperar totalmente da condição de falha:
Diretores: O slot desliga/liga os comutadores blade da porta afetada
: Reinicialize (reinicialização a frio) o comutador
Opção 1: Execute a ação de reinicialização mostrada acima e, em seguida, implemente a solução alternativa para desativar a ação de gerenciamento de superatribuição a partir da Opção 2 do Traffic Optimizer
: Faça upgrade para uma versão do FOS com a solução e execute a ação de reinicialização mostrada acima.

O upgrade para uma versão do FOS com a solução fornecida impedirá que a falha de "overflow de buffer" ocorra,
mas depois que a condição de falha for encontrada, apenas uma reinicialização a frio do ASIC resolverá a condição de falha.
O upgrade para uma versão do FOS com a solução fornecida impedirá e se recuperará automaticamente da condição de erro "verify"
sem nenhuma outra ação.

Após o upgrade para uma versão do FOS que contém a solução, será realizada uma verificação da memória interna para determinar se o director ou o switch encontrou anteriormente a falha e requer uma reinicialização para se recuperar da condição de erro.
O seguinte RASlog será exibido se a condição de falha for detectada após o upgrade do FOS para uma versão com a solução:
06/01/2023-17:07:50 (GMT), [C5-1057], 5, SLOT 2 | CHASSI, CRÍTICO, SWITCH_3,
S10, C0: O chip ASIC de hardware está em um estado inconsistente = 0x1002.
Se o RASlog acima for observado após o upgrade do FOS, o director ou o switch já encontrou anteriormente a falha de "overflow de buffer
" antes do upgrade e precisará executar uma reinicialização a frio para se recuperar totalmente da condição de falha:
Diretores: O slot desliga/liga os comutadores blade da porta afetada
: Reinicialize (reinicialização a frio) o comutador

Affected Products

Connectrix DS-7720B, Connectrix DS-7730B, Connectrix ED-DCX7-4B, Connectrix ED-DCX7-8B
Article Properties
Article Number: 000215512
Article Type: Solution
Last Modified: 26 Oct 2023
Version:  3
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.