Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Problemen met de Switch Fabric Module oplossen

Summary: Problemen met de Switch Fabric Module oplossen

This article applies to   This article does not apply to 

Symptoms

Inhoudsopgave:
  1. Inleiding
  2. De laatste reden voor het uitschakelen bepalen
  3. Symptomen van probleemoplossing
  4. Informatie die moet worden verzameld als u een TAC-case opent

Inleiding

Dit document is in de eerste plaats bedoeld voor het oplossen van problemen met de Switch Fabric Module (SFM) op een systeem uit de E-serie, maar het kan ook worden toegepast op SFM's uit de C-serie.
In de E-serie is de SFM een afzonderlijke component, een zogenaamde FRU (Field Replaceable Unit). In de C-serie is de switch fabric geïntegreerd in de RPM. FTOS-opdrachten voor het beheer van de SFM, inclusief alle opdrachten die in dit document worden beschreven, tenzij anders vermeld, zijn echter nuttig op de C-serie.
In zeldzame gevallen kan een SFM niet worden geïnitialiseerd bij het opstarten of na een upgrade, of kan deze onverwacht worden uitgeschakeld tijdens gebruik. Dit document behandelt deze gevallen.

De laatste reden voor het uitschakelen bepalen

De functie systeemtracering, zoals weergegeven in de uitvoer van de opdracht voor tracering weergeven , rapporteert wanneer een SFM is uitgeschakeld of opnieuw is ingeschakeld. U kunt logberichten zoeken met de titel
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

Over het algemeen geeft de systeemtracering drie redenen weer voor een SFM-reset:
  1. remote-power-off – Wordt het vaakst gemeld sinds de SFM wordt uit- en ingeschakeld wanneer het systeem opnieuw wordt opgestart, zowel voordat het systeem opnieuw wordt opgestart als opnieuw bij de initialisatie van het systeem. Er wordt ook een reden voor "remote-power-off" gemeld wanneer de opdracht voor het resetten van het sfm-slotnummer wordt gegeven, omdat met deze opdracht de SFM daadwerkelijk wordt uit- en weer ingeschakeld.
    Opmerking: Deze opdracht is alleen beschikbaar in FTOS 6.5.4.0 en hoger en op de E-serie.
  2. card-removed - Als u een SFM verwijdert en vervolgens opnieuw plaatst, meldt de uitvoer van de show trace card-removed als de laatste reden voor de stroomcyclus. Deze status wordt niet gerapporteerd wanneer de software detecteert dat bepaalde informatie niet kan worden gelezen via een interne bus en deze status interpreteert als de SFM die wordt verwijderd.
  3. Valse reset
Als u bovendien de stand-bykaart op afstand reset vanuit de CLI, geeft de trace een reden "remote reset" weer. 
 

Symptomen van probleemoplossing

Het CHMGR-proces (FTOS Chassis Manager) bewaakt de status van de SFM. Wanneer het proces een probleem met de SFM detecteert, meldt RPM0 een klein alarm en wordt de kaart gereset in een poging de SFM te herstellen. Het TSM-proces meldt dat er een SFM is gevonden en dat de kleine alarmconditie is gewist.
Wanneer de RPM "No working standby SFM" meldt, werkt de switch zonder de stand-by SFM. Een reden kan zijn dat een SFM in een bepaald slot nog niet online is na het resetten. Zodra deze SFM online komt, wordt het kleine alarm gewist, detecteert de chassismanager de nieuwe SFM en, afhankelijk van het chassis en het aantal SFM's, wordt het bericht "Found X SFM's" weergegeven.
Om een probleem met de SFM op te lossen, begint u met het vastleggen van de volgende uitvoer:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Als een SFM door de kleine alarmtoestand klappert of fietst, krijgt het systeem mogelijk niet voldoende voeding. Onder deze voorwaarde haalt het systeem eerst de SFM naar beneden. Elke SFM is geconfigureerd met een spanningsdrempel en op basis van die waarde gaat de bijbehorende SFM als eerste omlaag. Dit proces van SFM-flappen vindt plaats totdat de spanning naar het systeem is gestabiliseerd. Om te bepalen of er voldoende stroom is, moet u fysiek controleren of er Valere stroomgelijkrichters een baksteenstoring ondervinden. Zie ook het aparte document Problemen met laag energieverbruik oplossen.
In de volgende secties wordt uitgelegd hoe u specifieke fouten op de SFM kunt oplossen.

Algemene toegangsfouten
Er zijn twee soorten algemene SFM-toegangsfouten:
"m" - MDIO error
"I" - I2C access error

Deze toegangsfouten wijzen meestal op een hardwareprobleem.

Om te bepalen of uw SFM een algemene toegangsfout ervaart, zoekt u naar een relevant syslog-bericht, zoals 'SFM 3 heeft algemene toegangsfout gevonden'.
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

Een "Simba PSI"-fout op de SFM wijst over het algemeen op een hardwareprobleem. (Simba verwijst naar een hardware-chip op de SFM.) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"SFM failed SW FAB portpipe diags"

Meestal wijst deze status op een hardwareprobleem. Neem contact op met Force10 Networks TAC voor hulp bij het oplossen van problemen voordat u een RMA aanvraagt.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

Een groot alarm wordt onder verschillende omstandigheden gemeld. Een van die omstandigheden is het overschrijden van de SFM-veilige bedrijfstemperatuur, zoals gedetecteerd door hardware en software voor omgevingsbewaking. De opdracht show environment kan naast de foutmeldingen ook de toestand met hoge temperatuur vastleggen:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

Wanneer deze toestand zich voordoet, is de SFM echt te heet of werkt een sensor niet goed. Als direct aangrenzende SFM's een normale temperatuur hebben, vermoedt u een defecte sensor. Als de direct aangrenzende SFM's geen normale temperatuur hebben, moet u vermoeden dat er sprake is van echte oververhitting.

 

Wanneer het systeem een echte overtemperatuur detecteert, schakelt het de SFM uit totdat deze is afgekoeld en totdat de software bepaalt dat het veilig is om opnieuw te schakelen. Bij het opnieuw inschakelen wordt de reden van het SFM-opnieuw instellen door de hardware gerapporteerd als "te temperatuur". Als software de temperatuuroverschrijding detecteert en de SFM handmatig uitschakelt, meldt het systeem een SFM-resetreden als reden "remote power-off".


Om de geprogrammeerde alarmdrempelniveaus weer te geven, voert u de opdracht alarmdrempel weergeven :.
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

Voer de volgende stappen uit om deze situatie op te lossen:

  1. Controleer of een voorplaat alle slots zonder lijnkaart bedekt. Zonder dergelijke platen kan binnen vijf minuten een toestand met hoge temperatuur optreden. Reserve blanks zijn verkrijgbaar bij Force10 Networks.
  2. Zorg ervoor dat het chassis niet op de vloer wordt geplaatst. 
  3. Controleer of er voldoende koeltegels dicht bij het chassis zijn.
  4. Als wordt vermoed dat de sensor defect is, moet u de SFM op afstand resetten met de opdracht nummer van het SFM-slot resetten. Als de temperatuur echt hoog is, zal de SFM waarschijnlijk niet worden ingeschakeld en moet deze slechts enkele centimeter worden verwijderd, zodat de kaart niet langer op de backplane is aangesloten en nog steeds een goede luchtstroom voor de rest van het chassis mogelijk is.
    OPMERKING: Deze opdracht is alleen beschikbaar in FTOS 6.5.4.0 en hoger en op de E-serie.
    OPMERKING: Wees voorzichtig bij het verwijderen van de SFM; Als het 85 graden is, kan het heet aanvoelen.
Het resetten van de actieve SFM via de opdracht reset sfm kan leiden tot verkeersverstoring en dit bericht:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
SFM is uitgeschakeld vanwege onderspanning
 
In het geval van een stroomuitval wordt de SFM meestal eerst uitgeschakeld. Zie het aparte document Problemen met laag energieverbruik oplossen voor meer informatie.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Informatie die moet worden verzameld als u een TAC-case opent


Het niveau van de informatie die aan het Technical Assistance Center (TAC) van Force10 Networks wordt verstrekt, bepaalt de details van de probleemoplossing die TAC kan verstrekken.  Met beperkte informatie raadt de TAC normaal gesproken aan om een SFM opnieuw te plaatsen die in een foutmelding wordt gemeld en de SFM nauwlettend in de gaten te houden. Als de SFM opnieuw niet werkt, neemt u contact op met TAC voor verdere hulp bij probleemoplossing.  Gebruik het formulier Serviceaanvraag aanmaken op de iSupport-pagina en vermeld indien beschikbaar de volgende informatie:
  • Console-opnames met de foutmeldingen
  • Console-opnamen met de genomen stappen voor probleemoplossing en de opstartvolgorde tijdens elke stap
  • Opgeslagen berichten op een syslog-server, als deze wordt gebruikt.
  • Uitvoer van de opdracht show trace
  • Uitvoer van de opdracht show tech-support

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.