Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Feilsøke Switch Fabric Module

Summary: Feilsøke Switch Fabric Module

This article applies to   This article does not apply to 

Symptoms

Innholdsfortegnelse:
  1. Innledning
  2. Fastslå årsaken for siste avstenging
  3. Feilsøking av symptomer
  4. Informasjon som må samles inn hvis du åpner en TAC-sak

Innledning

Dette dokumentet er først og fremst ment for feilsøking av Switch Fabric Module (SFM) på et system i E-serien, men det kan også brukes på SFM-er i C-serien.
I E-serien er SFM en diskret komponent, kalt en feltutskiftbar enhet (FRU). I C-serien er bryterstrukturen integrert i turtallet. Ikke desto mindre er FTOS-kommandoer for administrasjon av SFM, inkludert alle de som er beskrevet i dette dokumentet, unntatt der det er angitt, nyttige på C-serien.
I sjeldne tilfeller kan en SFM ikke initialiseres ved oppstart eller etter en oppgradering, eller den kan slå seg av uventet under drift. Dette dokumentet tar for seg disse tilfellene.

Fastslå årsaken for siste avstenging

Systemsporingsfunksjonen, som vist i kommandoutdataene for show trace , rapporterer når en SFM har blitt slått av eller slått av strøm. Du kan se etter loggmeldinger med rett
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

Vanligvis vil systemsporingen vise tre årsaker til en tilbakestilling av SFM:
  1. ekstern avstenging – Rapporteres oftest siden SFM slås av og på når systemet starter på nytt, både før omstart og igjen ved initialisering av systemet. En "ekstern avslåing"-årsak rapporteres også når kommandoen for tilbakestilling av sfm-spornummer utstedes, da denne kommandoen faktisk slår SFM av og på.
    Merk: Denne kommandoen er bare tilgjengelig i FTOS 6.5.4.0 og nyere, og på E-serien.
  2. card-removed – Hvis du fjerner og deretter setter inn en SFM på nytt, vil «show trace »-utgangen rapportere at kortet ble fjernet som den siste årsaken til kraftsyklus. Denne statusen rapporteres ikke når programvaren oppdager manglende evne til å lese bestemt informasjon over en intern buss og tolker denne tilstanden som at SFM blir fjernet.
  3. Falsk tilbakestilling
I tillegg, hvis du tilbakestiller standbykortet eksternt fra CLI, vil sporingen vise en årsak til "ekstern tilbakestilling". 
 

Feilsøking av symptomer

FTOS Chassis Manager (CHMGR)-prosessen overvåker tilstanden og statusen til SFM. Når prosessen oppdager et problem med SFM, rapporterer RPM0 en mindre alarm og tilbakestiller kortet i et forsøk på å gjenopprette SFM. TSM-prosessen rapporterer at en SFM er funnet, og den mindre alarmtilstanden er ryddet.
Når RPM rapporterer "Ingen fungerende ventemodus SFM", kjører bryteren uten standby SFM. En årsak kan være at en SFM i et bestemt spor ennå ikke er online etter tilbakestilling. Når denne SFM-en er koblet til, er den mindre alarmen slettet, chassisadministratoren oppdager den nye SFM-en, og avhengig av kabinettet og antall SFM-er vises
meldingen "Found X SFM".Generelt, for å feilsøke et problem med SFM, start med å fange følgende utdata:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Hvis en SFM klaffer eller sykler gjennom den mindre alarmtilstanden, kan det hende at systemet ikke får tilstrekkelig strøm. Under denne betingelsen bringer systemet ned SFM først. Hver SFM er konfigurert med en spenningsterskel, og basert på denne verdien vil den tilsvarende SFM-en gå ned først. Denne prosessen med SFM-flapping skjer til spenningen til systemet er stabilisert. For å finne ut om det er tilstrekkelig strøm, må du fysisk kontrollere om noen Valere likerettere opplever en mursteinfeil. Se også det separate dokumentet, Feilsøking av lavstrømsforhold.
Følgende avsnitt forklarer hvordan du feilsøker bestemte feil på SFM.

Generelle tilgangsfeil
Det finnes to typer generelle SFM-tilgangsfeil:
"m" - MDIO error
"I" - I2C access error

Disse tilgangsfeilene skyldes vanligvis et maskinvareproblem.

Hvis du vil finne ut om SFM-en har en generell tilgangsfeil, kan du se etter en relevant syslog-melding, for eksempel «SFM 3 fant generell tilgangsfeil».
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

En "Simba PSI" -feil på SFM peker vanligvis på et maskinvareproblem. (Simba refererer til en maskinvarebrikke på SFM.) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"SFM mislyktes SW FAB portpipe diags"

Denne statusen peker vanligvis på et maskinvareproblem. Kontakt Force10 Networks TAC for hjelp med feilsøking før du ber om en RMA.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

Det meldes om større alarm under flere forhold. En slik tilstand er å overskride SFM-sikker driftstemperatur, som oppdaget av maskinvare og programvare for miljøovervåking. Kommandoen showenvironment kan registrere tilstanden for høy temperatur i tillegg til feilmeldingene:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

Når denne tilstanden oppstår, er enten SFM virkelig for varm, eller en sensor har ikke fungert. Hvis direkte tilstøtende SFM-er har normal temperatur, mistenker du en defekt sensor. Hvis direkte tilstøtende SFM-er ikke har normal temperatur, mistenker du en ekte overopphetingstilstand.

 

Når systemet oppdager en reell overtemperaturtilstand, slår det av SFM til det avkjøles og til programvaren bestemmer at det er trygt å slå på igjen. Når du slår på igjen, rapporteres årsaken til tilbakestilling av SFM som "overtemperatur" av maskinvaren. Hvis programvaren oppdager overtemperaturhendelsen og slår av SFM-en manuelt, rapporterer systemet en årsak til "ekstern avslåing" av SFM.


Hvis du vil vise terskelnivåene for programmerte alarmer, utfører du kommandoen «show alarms threshold »:
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

Bruk følgende fremgangsmåte for å feilsøke denne tilstanden:

  1. Kontroller at frontplaten dekker alle spor uten linjekort. Uten slike plater kan det oppstå en høytemperaturtilstand innen fem minutter. Reserveemner er tilgjengelige fra Force10 Networks.
  2. Kontroller at kabinettet ikke er plassert på gulvet. 
  3. Kontroller at det er tilstrekkelig med kjølefliser nær kabinettet.
  4. Hvis det er mistanke om en defekt sensor, må du tilbakestille SFM eksternt med kommandoen tilbakestill sfm-spornummer. Hvis temperaturen virkelig er høy, vil SFM sannsynligvis ikke slå på og bør fjernes bare noen få tommer slik at kortet ikke lenger kobles til bakplanet og fortsatt gir riktig luftstrøm for resten av chassiset.
    MERK: Denne kommandoen er bare tilgjengelig i FTOS 6.5.4.0 og nyere, og på E-serien.
    MERK: Vær forsiktig når du fjerner SFM; Hvis det er 85 grader, kan det være varmt å ta på.
Tilbakestilling av den aktive SFM via tilbakestill sfm-kommandoen kan føre til trafikkforstyrrelser, og denne meldingen:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
SFM er slått av på grunn av underspenningstilstand
 
I tilfelle av en strømsag, slår SFM vanligvis av først. Se det separate dokumentet, Feilsøking av lavstrømsforhold, for mer informasjon.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Informasjon som må samles inn hvis du åpner en TAC-sak


Informasjonsnivået til Force10 Networks 'Technical Assistance Center (TAC) bestemmer feilsøkingsdetaljene som TAC kan gi.  Med begrenset informasjon anbefaler TAC normalt å sette inn en SFM som er rapportert i en feilmelding på nytt, og overvåke SFM nøye. Hvis SFM mislykkes igjen, kontakter du TAC for å be om ytterligere feilsøkingshjelp.  Bruk skjemaet Opprett serviceforespørsel på iSupport-siden, og inkluder følgende informasjon hvis tilgjengelig:
  • Konsollopptak som viser feilmeldingene
  • Konsollopptak som viser feilsøkingstrinnene som er utført, og oppstartssekvensen under hvert trinn
  • Lagrede meldinger på en syslog-server, hvis en brukes.
  • Utdata fra kommandoen show trace
  • Utdata fra kommandoen «show tech-support»

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.