Connectrix Série B: Como interpretar a saída porterrshow do Brocade e o que significam os contadores. Autoajuda
Summary:Explicação dos contadores no comando porterrshow
Please select a product to check article relevancy
This article applies to This article does not apply toThis article is not tied to any specific product.Not all product versions are identified in this article.
Como interpretar o resultado do porterrshow no Brocade
O que os contadores do porterrshow significam?
Eles interpretam e explicam o resultado do porterrshow (erros de porta) dos switches Brocade SAN e as possíveis causas dos erros.
Este comando exibe um resumo de erro para todas as portas.
Uma linha de resultado é exibida por porta e mostra contadores de erro em unidades, milhares (o número é seguido por k) ou milhões (o número é seguido por m).
Cause
N/D
Resolution
Frames tx Quadros transmitidos: O número de quadros transmitidos pela porta. Esse número é uma estatística que fornece uma linha de base para os contadores de erro.
Frames rx Quadros recebidos: O número de quadros transmitidos pela porta. Esse número é uma estatística que fornece uma linha de base para os contadores de erro.
Enc in Erros de codificação dentro dos quadros: (RX). O número de erros de codificação 8b/10b que ocorreram dentro dos limites dos quadros. Geralmente, esse contador tem o valor zero, embora erros ocasionais possam ocorrer em um link normal e gerar um resultado diferente. A conformidade mínima com a especificação de taxa de erro de bit de link em um link que recebe quadros continuamente permite aproximadamente um erro a cada 20 minutos para 1 Gb/s. A reinicialização da porta Nx associada também pode causar esses erros. Esses erros fazem parte da soma dos erros de LLI.
Crc err Quadros com erros após a verificação de redundância cíclica: (RX) O número de quadros que falharam em uma verificação de redundância cíclica. A verificação de redundância cíclica (CRC, Cyclic Redundancy Check) é um campo de quatro bytes que deve ficar imediatamente após o campo de dados e é usado para verificar a integridade dos dados do cabeçalho do quadro e do campo de dados. Os delimitadores SOF (= Start-Of-Frame) e EOF (= End-Of-Frame) não devem ser incluídos na verificação de CRC. O campo CRC deve ser calculado no cabeçalho do quadro e no campo de dados antes da codificação para transmissão e após a decodificação na recepção. O campo CRC deve estar alinhado em um limite de palavras. Para fins de computação de CRC, o bit do campo de quatro bytes alinhado em palavras que corresponde ao primeiro bit transmitido é o bit de ordem mais alta. Os quadros que falham em uma CRC são detectados, mas não são modificados, e o dispositivo de destino é responsável por rejeitar e/ou solicitar novamente o quadro. Estatisticamente, os erros enc out correspondem a problemas de cabo. A combinação de enc out e crc err implica problemas de GBIC/SFP. Esses erros fazem parte da soma dos erros de LLI
crc g_eof CRC com um bom EOF (End Of Frame) recebida. (Rx). Quando uma CRC com um bom EOF for detectada, o switch aumentará o contador crc g_eof e marcará o quadro para que nenhuma outra porta conte esse quadro de CRC e o encaminhe.
Isso permite que o quadro de CRC com um bom EOF seja rastreado rapidamente até a porta de origem.
Too short O contador "too short" é um contador de estatísticas de erro, que será incrementado sempre que um quadro, limitado por um SOF (Start of Frame) e EOF (End of Frame), for recebido e o número de palavras entre o SOF e o EOF for menor que 7 palavras (cabeçalho de 6 palavras mais CRC de 1 palavra), ou seja, 38 bytes (não 48), incluindo SOF e EOF. Isso pode ser causado pelo transmissor ou por um link não confiável. O tamanho do quadro de dados é uma variável de 0 a 2112. Esses erros fazem parte da soma dos erros de LLI
Too long Quadros maiores que o máximo: O número de quadros que são maiores que o tamanho máximo do quadro (36 bytes + tamanho do quadro de dados). O tamanho do quadro de dados é uma variável de 0 a 2112. Esses erros fazem parte da soma dos erros de LLI. Os quadros FC têm no máximo 2.148 bytes. Se um EOF estiver corrompido ou se a geração de dados estiver incorreta, um erro too long será gerado.
Bad eof Quadros com delimitadores end-of-frame inválidos: O delimitador end-of-frame (EOF) é um conjunto ordenado imediatamente após o CRC. Após um erro de perda de sincronização, o alinhamento do modo contínuo permite que o receptor restabeleça o alinhamento de palavras a qualquer momento no fluxo de bits recebido enquanto o receptor estiver operacional. Esse realinhamento provavelmente (não é garantido) resultará em violações de código e perda subsequente de sincronização. Em determinadas condições, pode ser possível realinhar um fluxo de bits de entrada sem perda de sincronização. Se tal realinhamento ocorrer dentro de um quadro recebido, a detecção da condição de erro resultante dependerá da função de nível superior (por exemplo, CRC inválido, delimitador EOF ausente).
O delimitador EOF designa o fim do conteúdo do quadro e deve ser seguido por parâmetros inativos. Há três categorias de delimitadores EOF. Uma categoria de delimitador deve indicar que o quadro é válido do ponto de vista dos destinatários e potencialmente válido do ponto de vista dos receptores. A segunda categoria deve indicar que o conteúdo do quadro é válido. Essa categoria só deve ser usada por uma porta F que receba um quadro completo e o decodifique antes de encaminhá-lo para outro destino. A terceira categoria deve indicar que o conteúdo do quadro está corrompido e o quadro ficou truncado durante a transmissão. A terceira categoria deve ser usada pelas portas N e F para indicar um mau funcionamento interno, como uma falha no transmissor, que não permite que todo o quadro seja transmitido normalmente. Esses erros fazem parte da soma dos erros de LLI.
enc out Erros de codificação de 8 bits/10 bits ocorreram em palavras (conjuntos ordenados) fora do quadro FC. As palavras fora dos quadros são codificadas. Se essa codificação estiver corrompida ou se um erro for detectado, um enc out será gerado.
Erro de codificação fora dos quadros: O número de erros de codificação 8 b/10 b que ocorreram fora dos limites dos quadros. Esse contador pode se tornar um valor diferente de zero durante a inicialização do link, mas indicará um problema se ele aumentar com mais rapidez do que a taxa de erro de bits de link permite (uma vez a cada 20 minutos para 1 Gb/s). Geralmente, isso é causado por sequências de primitivos corrompidas, ou seja: LIP f7,f7.
Nota: Os erros loss sig, loss sync e enc out devem ocorrer sempre que um usuário desativa e ativa a porta reinicializando um host, desliga e liga um subsistema de armazenamento, desconecta e reconecta um cabo ou executa o comando portDisable/portEnable. Também é importante considerar que esses erros também estão aumentando, enquanto um switch de 2 GBit negocia a velocidade de conexão com o dispositivo conectado. Lembre-se disso. Estatisticamente, os erros de enc out correspondem a problemas de cabo, a combinação de enc out e crc err implica problemas de SFP. Esses erros fazem parte da soma dos erros de LLI.
Disc c3 Número de quadros Classe 3 descartados (Rx). O contador inclui a soma dos seguintes contadores de descarte de C3 reportados pelo comando portstatshow:
er_rx_c3_timeout, er_tx_c2_timeout, er_c2_dest_unreach e er_other_disc
Os erros de descarte de Classe 3 podem ser gerados pelo switch quando os dispositivos enviam quadros sem antes realizar FLOGI ou com um destino inválido. Esse erro está informando que tal descarte ocorreu.
Os quadros Classe 3 podem ser descartados devido a tempos de espera excedidos ou a destinos inválidos ou inacessíveis. Esse contador aumenta durante a operação normal. Ele também pode ser usado para mostrar o efeito do congestionamento da porta, o que significa que quadros sem falhas de S-IDs e D-IDs consecutivas não estão sendo roteados diretamente de porta a porta, mas que um quadro de exceção é roteado pela porta interna (o que normalmente não deve acontecer com um roteamento de porta a porta no ASIC, mas ocorre quando a porta D-ID fica com o buffer cheio e não pode aceitar mais quadros). Além disso, se o destino for bloqueado devido a uma carga de trabalho ISL alta (isso significa: muito tempo com buffer de crédito do BB = 0), o buffer pode ficar cheio e a porta S-ID pode (em circunstâncias extremas) apresentar uma condição de tempo de espera excedido. Isso aumenta o contador c3 do disco. Esses erros fazem parte da soma dos erros de LLI.
Mais algumas informações: Uma porta só pode receber um quadro por vez (fora das conexões xWDM, não é possível emitir simultaneamente 2 pulsos de luz em um cabo óptico). Portanto, se duas fontes de luz tentarem compartilhar uma porta, elas precisarão usar um algoritmo de arbitragem em que uma fonte de luz será acessada e a segunda aguardará sua vez. Quando a primeira fonte for usada, a segunda fonte será acessada. Isso significa que as fontes só podem ser executadas com 50% de utilização (ou tempos iguais de estado ocupado e livre). Se a fonte for capaz de transmitir dados na velocidade de D-ID (atualmente, a maioria dos HBAs são), qualquer tentativa por outro HBA igualmente rápido diminuirá o desempenho em 50%.
Os descartes er_unreachable foram registrados porque o destino não foi alcançado ou porque os dispositivos no destino estão off-line e/ou on-line.
er_other_disc são descartes reais que não se enquadram em nenhuma das outras categorias de quadros de descarte definidas. De acordo com a Brocade, eles são insignificantes e não têm impacto sobre o desempenho.
Link fail Falhas de link (estados LF1 ou LF2): O número de vezes que a porta atingiu os estados Link fail1 e/ou Link fail 2. Recebido (Rx). Se uma porta permanecer no estado de recebimento de LR por um período maior que um período de tempo de espera excedido (R_T_TOV), um tempo de espera excedido do protocolo de redefinição de link será detectado, resultando em uma condição de falha de link (insira o estado de transmissão NOS).
A falha do link também indica que a perda de sinal ou perda de sincronização que dura mais do que o valor de R_T_TOV foi detectada fora do estado off-line
Loss sync Perda de sincronização: O número de vezes que a sincronização foi perdida. As falhas de sincronização nos limites de bit ou palavra de transmissão não são identificáveis separadamente e causam erros de sincronização loss-of.
Nota: Os erros "loss sig", "loss sync" e "enc out" devem ocorrer sempre que um usuário desativa e ativa a porta (reinicializando um host), desliga e liga um subsistema de armazenamento, desconecta e reconecta um cabo ou executa o comando portDisable ou portEnable. Loss sig = Perda de sinal: O número de vezes que o sinal foi perdido. Quando uma condição de perda de sinal é reconhecida por um receptor operacional, o estado de perda de sincronização deve ser inserido (se o receptor não estiver nesse estado no momento). O receptor permanecerá nesse estado até que uma das seguintes condições ocorra: A condição de perda de sinal é corrigida e a sincronização é recuperada ou o receptor é redefinido.
Loss sig O número de vezes que uma perda de sinal foi recebida. Ocorre quando um sinal é transmitido, mas nenhum sinal é recebido na mesma porta.
frjt Quadros rejeitados com F_RJT: O número de quadros rejeitados na porta do fabric. Isso indica que a entrega de um quadro está sendo negada. Alguns motivos para a emissão de um F_RJT são: Classe sem suporte, campo(s) de cabeçalho inválido(s) e N-Port indisponível.
fbsy Se o fabric não puder entregar um quadro Classe 2 no E_D_TOV, o quadro será descartado e um F_BSY será exibido. (Tx) Quadros ocupados com F_BSY: Quadro ocupado da porta do fabric. Esse quadro é emitido pelo fabric para indicar que um determinado quadro não pode ser entregue porque o fabric ou a N-Port de destino está ocupada.
c3-timeout tx O número de quadros de transmissão Classe 3 descartados na porta de transmissão devido ao tempo de espera excedido (específico da plataforma e da porta).
c3-timeout rx O número de quadros de recepção Classe 3 recebidos nessa porta e descartados na porta de transmissão devido ao tempo de espera excedido (específico da plataforma e da porta).
pcs err O número de erros de bloco da subcamada de codificação física (PCS). Esse contador registra violações de codificação em portas de 10 Gbps ou 16 Gbps.
No contador porterrshow ER_PCS_BLK, isso é aplicável apenas a plataformas que oferecem suporte a portas de 10 Gbps ou 16 Gbps (6505/6510/6520/DCX-8510) e foi introduzido com o Condor3 ASIC, a plataforma de 5ª geração. Esse contador é equivalente ao enc_out para o link de 8 GB e/ou 4 GB e é usado somente com as velocidades de 10 GB e 16 GB.
Os links de 10 GB e 16 GB usam codificação de 64 B ou 66 B em vez de 8 B ou 10 B para transmissão de dados, e o contador "pcs err" (=er_pcs_blk) registra violações de codificação em portas de 10 Gbps ou 16 Gbps detectadas durante a decodificação.
uncor err O número de correções de erros de encaminhamento (FEC) incorrigíveis.
Additional Information
Assista a este vídeo:
Exemplos dos contadores mais comuns do BROCADE.
Exemplo 1 ENC OUT com LINK FAIL e LOSS SYNC:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
Motivo geral: Válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpe as estatísticas da porta (https://support.emc.com/kb/304525) e recupere os dados depois de 4 a 6 horas.
Nos erros, é possível ver os erros link fail e loss of sync, além de enc out, podendo incluir também o erro loss sig.
Essas combinações de erros geralmente indicam uma reinicialização do host ou uma redefinição de link externa ao switch. Os erros enc out são causados durante a negociação de velocidade, como parte de uma inicialização de link.
Ações esperadas: Verifique se o dispositivo conectado à porta teve um motivo legítimo para ficar off-line/on-line, por exemplo, uma reinicialização do host. Se não teve, crie um SR.
Exemplo 2 ENC OUT:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
Motivo geral: Válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpe as estatísticas da porta (https://support.emc.com/kb/304525) e recupere os dados depois de 4 a 6 horas.
Os erros enc out sem erros associados indicam cabo sujo.
Ações esperadas: Inspecione e limpe as faces ópticas do cabo e o SFP conectado à essa porta e aos dispositivos acoplados.
Exemplo 3 CRC e CRC G_EOF:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
Motivo geral: Válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpe as estatísticas da porta (https://support.emc.com/kb/304525) e recupere os dados depois de 4 a 6 horas.
O quadro está inserido na porta do switch com uma CRC com falha, mas a extremidade do quadro está marcada como funcional.
Isso indica que essa é a primeira porta a registrar o quadro com defeito. Assim o problema está na interface do SFP/cabo/dispositivo acoplado nessa porta específica.
Ações esperadas: Consulte a ação padrão na resolução.
Em uma porta ISL, limpe as estatísticas com os comandos statsclear e slotstatsclear, aguarde de 4 a 6 horas, colete o supportsaves de ambos os switches e crie um SR para solução de problemas normal.
Exemplo 4 CRC:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Motivo geral: Válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpe as estatísticas da porta (https://support.emc.com/kb/304525) e recupere os dados depois de 4 a 6 horas.
A porta está registrando um quadro inserido no switch com um quadro CRC com erros, mas o quadro já está marcado como inválido. Normalmente, isso é exibido em portas F ISL e NPIV.
Ações esperadas: Se houver erros de CRC registrados na porta NPIV, investigue o dispositivo mantendo o fornecedor.
No caso de uma porta ISL, verifique todas as portas no fabric para ver se alguma tem registro de crc g_oef e faça como no Exemplo 3.
Exemplo 5 PCS ERR com LINK FAIL e LOSS SYNC:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
Motivo geral: Válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpe as estatísticas da porta (https://support.emc.com/kb/304525) e recupere os dados depois 4 a 6 horas.
Isso é aplicável somente a plataformas com suporte a portas de 10 Gbps ou 16 Gbps (6505/6510/6520/DCX-8510) e foi introduzido com o Condor3 ASIC, a plataforma de 5ª geração. ER_PCS_BLK mostra o número de erros de bloco da subcamada de codificação física (PCS). Esse contador é equivalente ao enc_out para o link de 8 GB ou 4 GB e é usado somente com as velocidades de 10 GB e 16 GB.
Nos erros, é possível ver os erros link fail e loss of sync, além de pcs err, podendo incluir também o erro loss sig.
Essas combinações de erros geralmente indicam uma reinicialização do host ou uma redefinição de link externa ao switch.
Os erros pcs err são causados durante a negociação de velocidade como parte de uma inicialização de link.
Ações esperadas: Verifique se o dispositivo conectado à porta teve um motivo legítimo para ficar off-line/on-line, por exemplo, uma reinicialização do host. Se não teve, crie um SR.
Exemplo 6 PCS ERR:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
Motivo geral: Válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpe as estatísticas da porta (https://support.emc.com/kb/304525) e recupere os dados depois de 4 a 6 horas.
Os erros PCS ERR sem erros associados indicam cabo sujo.
Ações esperadas: Inspecione e limpe as faces ópticas do cabo e o SFP conectado à essa porta e aos dispositivos acoplados.
Exemplo 7 C3timout com Disc c3:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 2.4k 0 0 0 0 0 2.4k 0 0
Motivo geral: Válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpe as estatísticas da porta (https://support.emc.com/kb/304525) e recupere os dados depois de 4 a 6 horas.
Os descartes C3TIMEOUT mostram que os quadros são descartados nessa porta no tempo de espera excedido padrão de 500 ms.
TX: os quadros não podem ser enviados dessa porta do switch.
RX: os quadros não são aceitos pela porta do switch e são descartados no tempo de espera excedido padrão de 500 ms.
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 2.4k 0 0 0 0 0 0 0 0
Motivo geral: Válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpe as estatísticas da porta (https://support.emc.com/kb/304525) e recupere os dados após 4 a 6 horas.
Acúmulo dos quadros "unreachable", "other" ou "unroutable" que são descartados. (Consulte o resultado do comando portstatsshow para obter detalhes sobre os descartes.)
Ações esperadas: Os descartes C3 sozinhos, em geral, não têm impacto sobre a SAN.
Exemplo 9 Uncorr err:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs uncor
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err err
xx: 1.1g 468.4m 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 48
Contagem de blocos que não foram corrigidos pelo FEC
Se algum vier acompanhado de erros CRC, enc_out e bad eof (pcs err), isso poderia impactar quadros de dados e conjuntos ordenados, respectivamente (assim, r_rdy poderia ser perdido, causando esgotamento de crédito). Siga as atividades recomendadas para esses erros.
Se nenhuma dessas opções estiver sendo incrementada, os erros não corrigidos terão efeito mínimo, mas serão um sinal de que o link apresenta erros. Portanto, pode haver um problema de cabo ou SFP em desenvolvimento.
Se for exibido apenas o uncorr err, a primeira etapa será testar o cabo e limpar os conectores.