Connectrix: Como solucionar problemas de comunicação do nó Fibre Channel com a porta do switch ou SFP por eliminação, autoajuda.

Como solucionar problemas de comunicação do nó Fibre Channel com a porta do switch ou SFP por eliminação?

Muitas substituições pro-ativas de SFP

Falha de link Porta G

Sem luz Não há sequência operacional (NOS)
Sequência de linha off (OLS)

perda de sinal com defeito SFP
Solucionar problemas de erros de porta FC
na porta FC

Muitos SFP substituídos proativamente enquanto o problema está fora do SFP ou do comutador.

Para resolver esse problema:

Identifique o nó e a porta do switch envolvidos na falha de comunicação.
Verifique se a porta do switch está administrativamente ativa (desbloqueada, sem desligamento) ou ativada.
Certifique-se de que haja caminhos redundantes disponíveis para o dispositivo conectado antes de continuar.

ADVERTÊNCIA: Antes de continuar, certifique-se de saber como o nó reage se ele receber um novo FCID. Algumas versões do sistema operacional do AIX e HP-UX não reagem bem a essas alterações, já que o FCID é integrado no caminho de hardware para o dispositivo de armazenamento. Se você mover o cabo, poderá haver dados indisponíveis. Em caso de dúvidas, consulte um engenheiro de suporte técnico da EMC.

Para eliminar o SFP de ser o problema, faça o seguinte:

Nota: Se houver um problema com o SFP, este procedimento é a maneira mais rápida de colocar o dispositivo on-line novamente.

Verifique a porta livre no comutador.
Desative a porta livre identificada no comutador.
Mova o cabo da porta a ser investigada para a nova porta livre desativada na etapa anterior.

Altere a porta desabilitada para habilitar o estado (ou administrativamente ativo) e coloque o dispositivo novamente on-line.
Limpe/redefina as estatísticas/contadores como zero no comutador. (Consulte as observações Como...)
Monitore a porta com os respectivos comandos por 4 a 6 horas.

Se os contadores de erro aumentarem, o problema estará fora do switch e o cliente deverá ser aconselhado a:
- A nova porta SFP e o cabo exigem limpeza. (Para evitar contaminação no SFP de um cabo sujo. Considere usar o kit de limpeza da EMC.)
- O dispositivo conectado deve ser investigado ainda mais por quem dá suporte ao dispositivo.
- No comutador Cisco, se o estado "errdisabled" voltar sem aumento de contador, uma SR deverá ser aberta para uma investigação mais aprofundada de back-end.
Se os erros não aumentarem (ou o estado Errdisabled no switch Cisco não voltar), o SFP na porta anterior está com defeito, abra a SR para substituição do SFP fornecendo os resultados da análise acima, detalhes do SFP (SM ou MM, e velocidade etc.)

Nota: Você pode fazer o mesmo procedimento da Etapa 6 em diante se tiver substituído o cabo e/ou o dispositivo conectado, verificando os contadores.

Nota: Na maioria das vezes, se um transceptor óptico SFP definitivamente falhar, você verá uma falha óptica clara no registro de eventos.

Falhas de hardware podem ser facilmente isoladas aplicando um algoritmo simples ao problema; se não for essa peça de hardware, então é a outra peça. Faça loop até isolar a falha.

EXEMPLOS DE BROCADE:

Nota: Para obter uma explicação ou uma descrição dos contadores, consulte o artigo da base de conhecimento:
Connectrix B-Series: Como interpretar a saída porterrshow do Brocade e o que significam os contadores.

Exemplo 1 ENC OUT com FALHA DE LINK e SINCRONIZAÇÃO DE PERDA:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    2.3m  0     4     6     0     0     0     0      0     0

Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpar estatísticas de porta (https://support.emc.com/kb/304525) e refazer dados após 4 a 6 horas.

A partir dos erros, podemos ver o link falhar e a perda de erros de enc out do Sync PLUS, que também podem incluir o erro de sig de perda.
Essas combinações de erros geralmente indicam uma reinicialização do host ou uma redefinição de link externa ao switch. Os erros de enc out são causados durante a negociação de velocidade como parte de uma inicialização de link.

Ações esperadas:
verifique se o dispositivo conectado à porta tinha um motivo legítimo para ficar off-line e/ou on-line. Por exemplo, reinicialização do host. Caso contrário, crie uma SR.

Exemplo 2 ENC OUT:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    2.3m  0     0     0     0     0     0     0      0     0

Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpar estatísticas de porta (https://support.emc.com/kb/304525) e refazer dados após 4 a 6 horas.

Os erros de enc out sem erros associados indicam cabo sujo.

Ações esperadas: inspecione
e limpe todos os rosto ópticos no cabo e no SFP conectado a essa porta e aos dispositivos conectados.

Exemplo 3: CRC e CRC G_EOF:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    1.2k 1.2k   0     0     0    0     0     0     0     0     0     0     0      0     0

Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpar estatísticas de porta (https://support.emc.com/kb/304525) e refazer dados após 4 a 6 horas.

O quadro está entrando na porta do comutador com um CRC defeituoso, mas com a extremidade do quadro ainda marcada como boa.
Essa é uma indicação de que esta é a primeira porta para registrar o quadro defeituoso, portanto, o problema é a interface do dispositivo SFP/cabo/conectado nessa porta específica.

Expected Actions(Ações esperadas):
consulte a ação padrão na resolução.

Para uma porta ISL, limpe as estatísticas com statsclear e slotstatsclear commands, aguarde de 4 a 6 horas e colete os supportsaves de ambos os switches e abra a SR para solução de problemas normal.

Exemplo 4 CRC:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    1.2k 0      0     0     0    0     0     0     0     0     0     0     0      0     0

Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpar estatísticas de porta (https://support.emc.com/kb/304525) e refazer dados após 4 a 6 horas.

A porta está registrando um quadro entrando no comutador com uma estrutura CRC com defeito, mas com o quadro já marcado como defeituoso. Normalmente, isso é exibido em portas F ISL e NPIV.

Ações esperadas:
se erros de CRC estão registrando na porta NPIV, faça com que o dispositivo seja investigado mantendo o fornecedor!
Para uma porta ISL, verifique todas as portas no fabric quanto a qualquer registro de porta crc g_oef ação como no Exemplo 3.

Exemplo 5 ERROS de PCS com FALHA DE LINK e SINCRONIZAÇÃO DE PERDA:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    0     0     4     4     0     0     0     0      0     466

Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpar estatísticas de porta (https://support.emc.com/kb/304525) e refazer dados após 4 a 6 horas.

Isso é aplicável somente a plataformas que oferecem suporte a portas de 10 Gbps ou 16 Gbps (6505/6510/6520/DCX-8510) e foi introduzida com o AsIC Doe3, a plataforma GEN5. ER_PCS_BLK mostra o número de erros de bloco da subcamada de codificação física (PCS). Esse contador é equivalente ao enc_out para link de 8 Gb/4 Gb e é usado apenas para velocidade de 10 GB e 16 GB.
Nos erros, podemos ver falha de link e perda de sincronização, além de erros err de pcs, que também podem incluir o erro de perda sig.
Essas combinações de erros geralmente indicam uma reinicialização do host ou uma redefinição de link externa ao switch.
Os erros de erro de PC são causados durante a negociação de velocidade como parte da inicialização do link.

Ações esperadas:
verifique se o dispositivo conectado à porta tinha um motivo legítimo para ficar off-line e/ou on-line. Por exemplo, reinicialização do host. Caso contrário, abra a SR.

Exemplo de ERRO de 6 PCs:

porterrshow        :
CURRENT CONTEXT -- 3 , 111
     frames        enc  crc  crc    too   too   bad  enc   disc  link  loss  loss  frjt  fbsy  c3timeout    pcs
     tx     rx     in   err  g_eof  shrt  long  eof  out   c3    fail  sync  sig               tx    rx     err
xx:  849.1k 493.2k 0    0    0      0     0     0    0     0     0     0     0     0     0     0      0     466

Motivo geral:
válido somente se as estatísticas de porta tiverem sido apagadas nas últimas 24 horas. Caso contrário, classifique esses contadores como históricos. Limpar estatísticas de porta (https://support.emc.com/kb/304525) e refazer dados após 4 a 6 horas.

Erros ERR de PCS sem erros associados indicam cabo sujo.

Ações esperadas: inspecione
e limpe todos os rosto ópticos no cabo e no SFP conectado a essa porta e aos dispositivos conectados.

EXEMPLOS DA CISCO:

Exemplo 1:

Errdisabled — sem incrementos de erros de interface

fc1/1 is down (Error disabled - bit error rate too high)
    Hardware is Fibre Channel, SFP is short wave laser w/o OFC (SN).
    5 minutes input rate 0 bits/sec, 0 bytes/sec, 0 frames/sec
    5 minutes output rate 0 bits/sec, 0 bytes/sec, 0 frames/sec
      179 frames input, 7668 bytes
        0 discards, 0 errors
        0 CRC,  0 unknown class
        0 too long, 0 too short
      23 frames output, 1320 bytes
        0 discards, 0 errors
      1 input OLS, 1 LRR, 0 NOS, 1 loop inits
      2 output OLS, 0 LRR, 0 NOS, 1 loop inits
    Interface last changed at Thu Jun  5 01:51:00 2014

Motivo geral:

O estado "errdisabled" de uma interface pode ser um pouco enganoso, pois os contadores de interface podem ser limpos no front-end e o switch parece reduzir a porta com o estado "errdisabled", e os contadores de erro aumentam no back-end (ASIC/internal/linecard).

Ações esperadas:

Consulte a ação padrão na resolução. Se ocorrer novamente, colete o resultado dos detalhes do suporte técnico e abra a SR.

Nota: Informações sobre o estado "Errdisabled" da Cisco: Os erros de bit podem ocorrer pelos seguintes motivos:

Cabo com defeito ou com defeito
SFP com defeito ou com defeito
O SFP é especificado para operar a 1 Gbps, mas é usado a 2 Gbps.
O SFP é especificado para operar a 2 Gbps, mas é usado a 4 Gbps.
O cabo de curto alcance é usado para longo prazo, ou o cabo de longo prazo é usado para curto prazo.
Perda momentânea de sincronização
Conexão de cabo solta em uma ou em ambas as extremidades
Conexão SFP inadequada em uma ou em ambas as extremidades

Um limite de taxa de erro de bit é detectado quando ocorrem 15 picos de erro em um período de 5 minutos. Por padrão, o comutador desativa a interface quando o limite é atingido. Você pode digitar uma sequência de comandos de desligamento e sem desligamento para reativar a interface.

Você pode configurar o comutador para não desabilitar uma interface quando o limite for cruzada. Por padrão, o limite desativa a interface.

Exemplo 2:

Incremento de CRCs

fc13/1 is down (Initializing)
    Port description is ***
    Hardware is Fibre Channel, SFP is long wave laser cost reduced
.
    5 minutes input rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
    5 minutes output rate 32 bits/sec, 4 bytes/sec, 0 frames/sec
      162 frames input, 6136 bytes
        0 discards, 17 errors
        17 CRC,  0 unknown class
        0 too long, 17 too short
      74 frames output, 6304 bytes
        2 discards, 0 errors
      108 input OLS, 54 LRR, 2 NOS, 0 loop inits
      83 output OLS, 26 LRR, 56 NOS, 0 loop inits
    Interface last changed at Tue May 27 08:37:20 2014

Motivo geral:

a porta está registrando um quadro entrando no comutador com um CRC defeituoso, mas uma boa extremidade da estrutura. O contador de CRC só é incrementado na porta de entrada específica registrando o erro e todas as investigações devem ser feitas neste link físico.

Expected Actions(Ações esperadas):

consulte a ação padrão na resolução.

Limpeza de estatísticas em switches Cisco:

use os comandos:

Para limpar os contadores de interface:

MDS-9509# clear counters interface all

Para limpar os contadores de interface se os port-channels estão configurados:

MDS-9509# clear counters interface port-channel

Para limpar os contadores ASIC, é necessário "conectar" a todas as placas de linha. Exemplo:

MDS-9509# attach module 1
Attaching to module 1 ...
To exit type 'exit', to abort type '$.'
Bad terminal type: "ansi". Will assume vt100.
module-1# clear asic-cnt all

Connectrix: Como solucionar problemas de comunicação do nó Fibre Channel com a porta do switch ou SFP por eliminação, autoajuda.

Summary: Este artigo explica como solucionar problemas de comunicação do nó Fibre Channel com a porta do switch ou SFP por eliminação.

Symptoms

Cause

Resolution

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services

Welcome

Welcome to Dell

Connectrix: Como solucionar problemas de comunicação do nó Fibre Channel com a porta do switch ou SFP por eliminação, autoajuda.

Summary: Este artigo explica como solucionar problemas de comunicação do nó Fibre Channel com a porta do switch ou SFP por eliminação.

Detailed Article

Symptoms

Cause

Resolution

Additional Info

Affected Products

Symptoms

Cause

Resolution

Additional Information

Affected Products

Products

Article Properties

Find answers to your questions from other Dell users

Support Services

Article Properties

Find answers to your questions from other Dell users

Support Services