Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Solução de problemas do módulo de fabric do switch

Summary: Solução de problemas do módulo de fabric do switch

This article applies to   This article does not apply to 

Symptoms

Sumário:
  1. Introdução
  2. Determinando o último motivo de desligamento
  3. Solução de problemas de sintomas
  4. Informações a serem coletadas se você abrir um caso de TAC

Introdução

Este documento destina-se principalmente à solução de problemas do módulo de fabric de switch (SFM) em um sistema da série E, mas também pode ser aplicado a SFMs da série C.
Na série E, o SFM é um componente discreto, chamado de unidade substituível em campo (FRU). Na Série C, o fabric do comutador é integrado ao RPM. No entanto, os comandos FTOS para gerenciar o SFM, incluindo todos os descritos neste documento, exceto onde indicado, são úteis na Série C.
Em casos raros, um SFM falha ao inicializar durante a inicialização ou após um upgrade, ou pode desligar inesperadamente durante a operação. Este documento aborda esses casos.

Determinando o último motivo de desligamento

A função de rastreamento do sistema, conforme mostrado na saída do comando show trace , informa quando um SFM é desligado ou religado. Você pode procurar mensagens de log com o título
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

Geralmente, o rastreamento do sistema exibirá três motivos para uma redefinição do SFM:
  1. remote-power-off — relatado com mais frequência desde que o SFM é desligado e ligado quando o sistema é reinicializado, tanto antes da reinicialização quanto novamente na inicialização do sistema. Um motivo de "desligamento remoto" também é relatado quando o comando reset sfm slot number é emitido, pois esse comando realmente desliga o SFM.
    Nota: Esse comando só está disponível no FTOS 6.5.4.0 e posterior e na Série E.
  2. cartão-removido - Se você remover e, em seguida, reinserir um SFM, a saída show trace informará cartão-removido como o último motivo do ciclo de energia. Esse status não é relatado quando o software detecta uma incapacidade de ler determinadas informações em um barramento interno e interpreta esse estado como o SFM sendo removido.
  3. Redefinição espúria
Além disso, se você redefinir remotamente a placa de espera a partir da CLI, o rastreamento exibirá um motivo de "redefinição remota". 
 

Solução de problemas de sintomas

O processo FTOS Chassis Manager (CHMGR) monitora a integridade e o status do SFM. Quando o processo detecta um problema com o SFM, o RPM0 relata um alarme secundário e redefine a placa na tentativa de restaurar o SFM. O processo do TSM relata que um SFM foi encontrado e a condição de alarme menor é apagada.
Quando o RPM informa "No working standby SFM", o switch está sendo executado sem o SFM em espera. Um motivo pode ser que um SFM em um slot específico ainda não está on-line após a redefinição. Quando esse SFM fica on-line, o alarme secundário é apagado, o gerenciador de chassi detecta o novo SFM e, dependendo do chassi e do número de SFMs, a mensagem "SFMs X encontrados" é exibida.
Em geral, para solucionar um problema com o SFM, comece capturando a seguinte saída:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Se um SFM bater ou passar pela condição de alarme secundário, o sistema pode não estar recebendo energia suficiente. Nessa condição, o sistema desativa o SFM primeiro. Cada SFM é configurado com um limite de tensão e, com base nesse valor, o SFM correspondente será desativado primeiro. Este processo de oscilação SFM ocorre até que a tensão para o sistema seja estabilizada. Para determinar se há energia suficiente, verifique fisicamente se algum retificador de energia Valere está enfrentando uma falha de tijolo. Consulte também o documento separado, Solução de problemas de condições de baixo consumo de energia.
As seções a seguir explicam como solucionar erros específicos no SFM.

Erros
gerais de acessoHá dois tipos de erros de acesso geral do SFM:
"m" - MDIO error
"I" - I2C access error

Esses erros de acesso geralmente apontam para um problema de hardware.

Para determinar se o SFM está enfrentando um erro de acesso geral, procure uma mensagem de syslog relevante, como "SFM 3 encontrou erro de acesso geral".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

Um erro "Simba PSI" no SFM geralmente aponta para um problema de hardware. (Simba refere-se a um chip de hardware no SFM.) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"Falha no diagnóstico de portpipe SW FAB do SFM"

Normalmente, esse status aponta para um problema de hardware. Entre em contato com o TAC da Force10 Networks para obter assistência na solução de problemas antes de solicitar um RMA.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

Um alarme maior é relatado sob várias condições. Uma dessas condições é exceder a temperatura de operação segura do SFM, conforme detectado pelo hardware e software de monitoramento ambiental. O comando showenvironment pode capturar a condição de alta temperatura, além das mensagens de erro:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

Quando essa condição está ocorrendo, ou o SFM realmente está muito quente, ou um sensor não funcionou. Se os SFMs diretamente adjacentes atingirem a temperatura normal, suspeite de um sensor com defeito. Se os SFMs diretamente adjacentes não tiverem temperatura normal, suspeite de uma condição genuína de superaquecimento.

 

Quando o sistema detecta uma condição genuína de excesso de temperatura, ele desliga o SFM até que ele esfrie e até que o software determine que é seguro religar. Após a religação, o motivo da redefinição do SFM será relatado como "superaquecimento" pelo hardware. Se o software detectar o evento de excesso de temperatura e desligar manualmente o SFM, o sistema informará um motivo de redefinição do SFM como "desligamento remoto".


Para visualizar os níveis de limites de alarme programados, execute o comando show alarms threshold :.
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

Use as seguintes etapas para solucionar essa condição:

  1. Verifique se uma placa frontal está cobrindo todos os slots sem uma placa de linha. Sem essas placas, uma condição de alta temperatura pode ocorrer em cinco minutos. As placas de proteção sobressalentes estão disponíveis na Force10 Networks.
  2. Certifique-se de que o chassi não seja colocado no chão. 
  3. Verifique se há placas de resfriamento suficientes próximas ao chassi.
  4. Se houver suspeita de um sensor com defeito, redefina o SFM remotamente com o comando reset sfm slot number . Se a temperatura realmente estiver alta, o SFM provavelmente não ligará e deverá ser removido apenas algumas polegadas para que a placa não se conecte mais ao backplane e ainda permita o fluxo de ar adequado para o restante do chassi.
    NOTA: Esse comando só está disponível no FTOS 6.5.4.0 e posterior e na Série E.
    NOTA: Tenha cuidado ao retirar o SFM; Se estiver 85 graus, pode estar quente ao toque.
Redefinir o SFM ativo por meio do comando reset sfm pode resultar em disrupção de tráfego, e esta mensagem:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
O SFM está desligado devido à condição
 
de subtensãoNo caso de uma queda de energia, o SFM normalmente desliga primeiro. Consulte o documento separado, Solução de problemas de condições de baixo consumo de energia, para obter mais detalhes.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Informações a serem coletadas se você abrir um caso de TAC


O nível de informação fornecido ao Centro de Assistência Técnica (TAC) da Force10 Networks determina os detalhes de solução de problemas que o TAC pode fornecer.  Com informações limitadas, o TAC normalmente recomenda recolocar um SFM relatado em uma mensagem de erro e monitorar de perto o SFM. Se o SFM falhar novamente, entre em contato com o TAC para solicitar assistência adicional para solução de problemas.  Use o formulário Criar chamado na página do isupport e inclua as seguintes informações, se disponíveis:
  • Capturas do console mostrando as mensagens de erro
  • Capturas de console mostrando as etapas de solução de problemas executadas e a sequência de inicialização durante cada etapa
  • Mensagens salvas em um servidor syslog, se um for usado.
  • Saída do comando show trace
  • Saída do comando show tech-support

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.