Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Risoluzione dei problemi del modulo fabric dello switch

Summary: Risoluzione dei problemi del modulo fabric dello switch

This article applies to   This article does not apply to 

Symptoms

Sommario:
  1. Introduzione
  2. Determinazione del motivo dell'ultimo spegnimento
  3. Sintomi di risoluzione dei problemi
  4. Informazioni da raccogliere in caso di richiesta di assistenza TAC

Introduzione

Questo documento serve principalmente per la risoluzione dei problemi di SFM (Switch Fabric Module) su un sistema serie E, ma può essere applicato anche agli SFM serie C.
Nella serie E, l SFM è un componente dedicato, chiamato unità sostituibile sul campo (FRU). Nella serie C, la fabric dello switch è integrata nell RPM. Tuttavia, i comandi FTOS per la gestione di SFM, inclusi tutti quelli descritti in questo documento, ad eccezione di dove indicato, sono utili sulla serie C.
In rari casi, un SFM non riesce a essere inizializzato all'avvio o dopo un aggiornamento oppure potrebbe spegnersi in modo imprevisto durante il funzionamento. Il presente documento esamina tali casi.

Determinazione del motivo dell'ultimo spegnimento

La funzione di traccia del sistema, come mostrato nell'output del comando show trace , segnala quando un SFM è stato spento o spento e riacceso. È possibile cercare messaggi di registro intitolati
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

In genere, la traccia del sistema visualizzerà tre motivi per un ripristino di SFM:
  1. remote-power-off: segnalato più spesso da quando l SFM viene spento e riacceso al riavvio del sistema, sia prima del riavvio che all'inizializzazione del sistema. Quando viene immesso il comando di reset del numero di slot SFM , viene segnalato anche un motivo di "remote-power-off", in quanto questo comando spegne e riaccende l SFM.
    Nota: Questo comando è disponibile solo in FTOS 6.5.4.0 e versioni successive e sulla serie E.
  2. card-removed: se si rimuove e quindi si reinserisce un SFM, l'output show trace riporterà card-removed come ultimo motivo del ciclo di alimentazione. Questo stato non viene segnalato quando il software rileva l'impossibilità di leggere determinate informazioni su un bus interno e interpreta questo stato come SFM in fase di rimozione.
  3. Reset spurio
Inoltre, se si reimposta in remoto la scheda di standby dalla CLI, la traccia visualizzerà un motivo di "ripristino remoto". 
 

Sintomi di risoluzione dei problemi

Il processo FTOS Chassis Manager (CHMGR) monitora l'integrità e lo stato dell SFM. Quando il processo rileva un problema con l SFM, RPM0 segnala un allarme minore e reimposta la scheda nel tentativo di ripristinare l SFM. Il processo TSM segnala che è stato rilevato un SFM e la condizione di allarme minore viene cancellata.
Quando l RPM segnala "No working standby SFM", lo switch è in esecuzione senza SFM in standby. Uno dei motivi potrebbe essere che un SFM in uno slot specifico non è ancora online dopo la reimpostazione. Una volta che questo SFM è online, l'allarme secondario viene cancellato, Chassis Manager rileva il nuovo SFM e, a seconda dello chassis e del numero di SFM, viene visualizzato il messaggio "Found X SFMs".
In generale, per risolvere un problema con SFM, iniziare acquisendo il seguente output:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Se un SFM mostra o passa attraverso la condizione di allarme minore, è possibile che il sistema non riceva alimentazione sufficiente. In questa condizione, il sistema disattiva prima SFM. Ogni SFM è configurato con una soglia di tensione e, in base a tale valore, l SFM corrispondente si interromperà per primo. Questo processo di instabilità SFM si verifica fino a quando la tensione al sistema non si stabilizza. Per determinare se l'alimentazione è sufficiente, verificare fisicamente se uno dei raddrizzatori di potenza Valere sta riscontrando un guasto del brick. Consultare anche il documento separato, Risoluzione dei problemi relativi alle condizioni di basso consumo.
Le sezioni seguenti spiegano come risolvere errori specifici su SFM.

Errori
di accesso generaliEsistono due tipi di errori di accesso generale di SFM:
"m" - MDIO error
"I" - I2C access error

Questi errori di accesso indicano in genere un problema hardware.

Per determinare se SFM sta riscontrando un errore di accesso generale, cercare un messaggio syslog pertinente, ad esempio "SFM 3 ha trovato un errore di accesso generale".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

Un errore "Simba PSI" su SFM indica generalmente un problema hardware. (Simba si riferisce a un chip hardware sull'SFM.) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"SFM ha fallito i diag della portpipe SW FAB"

In genere, questo stato indica un problema hardware. Prima di richiedere un RMA, contattare Force10 Networks TAC per assistenza nella risoluzione dei problemi.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

Un allarme importante viene segnalato in diverse condizioni. Una di queste condizioni è il superamento della temperatura operativa sicura dell SFM, rilevata da hardware e software di monitoraggio ambientale. Il comando showenvironment può acquisire la condizione di temperatura elevata oltre ai messaggi di errore:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

Quando si verifica questa condizione, l'SFM è davvero troppo caldo o un sensore non funziona correttamente. Se gli SFM direttamente adiacenti sono a temperatura normale, sospetta che il sensore sia difettoso. Se gli SFM direttamente adiacenti non sono a temperatura normale, sospettare una reale condizione di surriscaldamento.

 

Quando il sistema rileva una reale condizione di sovratemperatura, spegne l SFM fino a quando non si raffredda e fino a quando il software non determina che è sicuro rialimentarlo. Al momento della riaccensione, il motivo di reimpostazione dell SFM verrà segnalato dall hardware come "sovratemperatura". Se il software rileva l'evento di sovratemperatura e arresta manualmente l SFM, il sistema segnalerà un motivo di reimpostazione dell SFM di "spegnimento remoto".


Per visualizzare i livelli delle soglie di allarme programmate, eseguire il comando show alarms threshold :.
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

Utilizzare la seguente procedura per risolvere questa condizione:

  1. Verificare che una piastra frontale copra tutti gli slot senza una scheda di linea. Senza tali piastre, una condizione di alta temperatura può verificarsi entro cinque minuti. Le protezioni di ricambio sono disponibili presso Force10 Networks.
  2. Accertarsi che lo chassis non sia posizionato sul pavimento. 
  3. Verificare un numero sufficiente di mattonelle di raffreddamento vicine allo chassis.
  4. Se si sospetta un sensore difettoso, reimpostare l SFM in remoto tramite il comando "reset sfm slot number ". Se la temperatura è davvero elevata, probabilmente l SFM non si accenderà e dovrà essere rimosso di pochi centimetri in modo che la scheda non si connetta più al backplane e consenta comunque un flusso d'aria adeguato per il resto dello chassis.
    NOTA: Questo comando è disponibile solo in FTOS 6.5.4.0 e versioni successive e sulla serie E.
    NOTA: Prestare attenzione durante la rimozione dell'SFM; Se ci sono 85 gradi, potrebbe essere caldo al tatto.
La reimpostazione dell SFM attivo tramite il comando "reset sfm " può causare un'interruzione del traffico e questo messaggio:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
SFM è spento a causa di una condizione
 
di sottotensioneIn caso di calo di potenza, l'SFM in genere si spegne per primo. Per ulteriori dettagli, consultare il documento separato, Risoluzione dei problemi relativi alle condizioni di basso consumo.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Informazioni da raccogliere in caso di richiesta di assistenza TAC


Il livello di informazioni fornito al Centro di assistenza tecnica (TAC) di Force10 Networks determina i dettagli di risoluzione dei problemi che TAC può fornire.  Con informazioni limitate, il TAC raccomanda normalmente di ricollocare un SFM segnalato in un messaggio di errore e di monitorare attentamente l'SFM. Se si verificano nuovamente problemi nella memoria SFM, contattare TAC per richiedere ulteriore assistenza per la risoluzione dei problemi.  Utilizza il modulo Crea Service Request nella pagina iSupport e includi le seguenti informazioni, se disponibili:
  • Acquisizione della console che mostra i messaggi di errore
  • Acquisizioni della console che mostrano i passaggi per la risoluzione dei problemi eseguiti e la sequenza di avvio durante ogni passaggio
  • Messaggi salvati su un server syslog, se utilizzato.
  • Output del comando show trace
  • Output del comando show tech-support

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.