Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Felsöka switchstrukturmodulen

Summary: Felsöka switchstrukturmodulen

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Innehållsförteckning:
  1. Introduktion
  2. Ta reda på den senaste orsaken till avstängningen
  3. Felsökning av symptom
  4. Information som ska samlas in om du öppnar ett TAC-ärende

Introduktion

Det här dokumentet är främst avsett för felsökning av Switch Fabric Module (SFM) på ett E-Series-system, men det kan även tillämpas på C-Series SFM:er.
I E-serien är SFM en diskret komponent som kallas för en enhet som kan bytas ute i fält (Field Replaceable Unit, FRU). I C-serien är switchstrukturen integrerad i varvtalet. Icke desto mindre är FTOS-kommandon för hantering av SFM, inklusive alla de som beskrivs i detta dokument, om inte annat anges, användbara på C-serien.
I sällsynta fall kan en SFM inte initieras vid start eller efter en uppgradering, eller så kan den stängas av oväntat under drift. Detta dokument tar upp dessa fall.

Ta reda på den senaste orsaken till avstängningen

Systemets spårningsfunktion, som du ser i utdata från kommandot show trace , rapporterar när en SFM har stängts av eller startats om. Du kan söka efter loggmeddelanden med titeln
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

I allmänhet visar systemspårningen tre orsaker till en SFM-återställning:
  1. fjärravstängning – Rapporteras oftast eftersom SFM stängs av och slås på när systemet startas om, både före omstart och igen vid systeminitiering. En orsak till "fjärravstängning" rapporteras också när kommandot för att återställa sfm-kortplatsnummer utfärdas, eftersom detta kommando faktiskt startar om SFM.
    Obs! Det här kommandot är endast tillgängligt i FTOS 6.5.4.0 och senare samt i E-serien.
  2. card-removed – Om du tar bort och sedan sätter in en SFM igen kommer show trace-utdata att rapportera card-removed som den senaste orsaken till omstarten. Denna status rapporteras inte när programvaran upptäcker en oförmåga att läsa viss information över en intern buss och tolkar detta tillstånd som att SFM tas bort.
  3. Falsk återställning
Dessutom, om du fjärråterställer standby-kortet från CLI, kommer spårningen att visa orsaken till "fjärråterställning". 
 

Felsökning av symptom

Processen FTOS Chassis Manager (CHMGR) övervakar SFM:ens hälsa och status. När processen upptäcker ett problem med SFM rapporterar RPM0 ett mindre larm och återställer kortet i ett försök att återställa SFM. TSM-processen rapporterar att en SFM har hittats och att det mindre larmtillståndet har åtgärdats.
När varvtalet rapporterar "Ingen fungerande SFM i viloläge" körs omkopplaren utan SFM i viloläge. En orsak kan vara att en SFM i en viss kortplats ännu inte är online efter återställning. När denna SFM aktiveras rensas det mindre larmet, chassiansvarig detekterar den nya SFM:en och, beroende på chassit och antalet SFM:er, visas meddelandet "Found X SFMs".
Om du vill felsöka ett problem med SFM börjar du i allmänhet med att samla in följande utdata:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Om en SFM flaxar eller cyklar genom det mindre larmtillståndet kanske systemet inte får tillräckligt med ström. Under detta tillstånd tar systemet ned SFM först. Varje SFM är konfigurerad med en spänningströskel, och baserat på det värdet kommer motsvarande SFM att gå ner först. Denna process med SFM-flaxning sker tills spänningen till systemet stabiliseras. För att avgöra om det finns tillräckligt med ström, kontrollera fysiskt om några Valere-kraftlikriktare upplever ett tegelfel. Se även det separata dokumentet Felsöka lågenergiförhållanden.
I följande avsnitt beskrivs hur du felsöker specifika fel på SFM.

Allmänna åtkomstfel
Det finns två typer av allmänna SFM-åtkomstfel:
"m" - MDIO error
"I" - I2C access error

Dessa åtkomstfel pekar vanligtvis på ett maskinvaruproblem.

För att avgöra om din SFM har ett allmänt åtkomstfel letar du efter ett relevant syslog-meddelande, till exempel "SFM 3 hittade allmänt åtkomstfel".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

Ett "Simba PSI"-fel på SFM pekar vanligtvis på ett maskinvaruproblem. (Simba hänvisar till en hårdvarukrets på SFM.) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"SFM misslyckades med SW FAB-portrörsdiag"

Vanligtvis beror den här statusen på ett maskinvaruproblem. Kontakta Force10 Networks TAC för felsökningshjälp innan du begär en RMA.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

Ett större larm rapporteras under flera förhållanden. Ett sådant tillstånd är att överskrida den SFM-säkra driftstemperaturen, som detekteras av maskinvara och programvara för miljöövervakning. Kommandot showenvironment kan fånga högtemperaturtillståndet utöver felmeddelandena:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

När detta tillstånd inträffar är antingen SFM verkligen för varm eller så har en sensor inte fungerat. Om direkt intilliggande SFM:er har normal temperatur, misstänker du en felaktig sensor. Om direkt intilliggande SFM inte har normal temperatur, misstänker du ett genuint överhettningstillstånd.

 

När systemet upptäcker ett verkligt övertemperaturtillstånd stänger det av SFM tills det svalnat och tills programvaran fastställer att det är säkert att starta om. Vid omstart kommer orsaken till SFM-återställningen att rapporteras som "övertemperatur" av hårdvaran. Om programvaran upptäcker en överhettningshändelse och stänger av SFM manuellt, kommer systemet att rapportera en SFM-återställningsorsak "fjärravstängning".


Till view de programmerade larmtröskelnivåerna, utför kommandot visa larmtröskel:
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

Använd följande steg för att felsöka det här tillståndet:

  1. Kontrollera att en frontplatta täcker alla kortplatser utan linjekort. Utan sådana plattor kan ett högtemperaturtillstånd inträffa inom fem minuter. Reservämnen är tillgängliga från Force10 Networks.
  2. Se till att chassit inte placeras på golvet. 
  3. Kontrollera att det finns tillräckligt med kylplattor nära chassit.
  4. Om en felaktig sensor misstänks, återställ SFM på distans med kommandot reset sfm slot number . Om temperaturen verkligen är hög kommer SFM förmodligen inte att slås på och bör tas bort bara några centimeter så att kortet inte längre ansluts till bakplanet och fortfarande tillåter korrekt luftflöde för resten av chassit.
    OBS! Det här kommandot är endast tillgängligt i FTOS 6.5.4.0 och senare samt i E-serien.
    OBS! Var försiktig när du tar bort SFM; Om det är 85 grader varmt kan det vara varmt vid beröring.
Om du återställer den aktiva SFM:en via kommandot reset sfm kan det leda till trafikstörningar och det här meddelandet:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
SFM stängs av på grund av underspänningstillstånd
 
I händelse av en strömsänkning stängs SFM vanligtvis av först. Mer information finns i det separata dokumentet Felsöka lågenergiförhållanden.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Information som ska samlas in om du öppnar ett TAC-ärende


Nivån på den information som lämnas till Force10 Networks Technical Assistance Center (TAC) avgör vilken felsökningsinformation TAC kan tillhandahålla.  Med begränsad information rekommenderar TAC normalt att man sätter tillbaka en SFM som rapporterats i ett felmeddelande och noggrant övervakar SFM. Om SFM misslyckas igen kontaktar du TAC för att begära ytterligare felsökningshjälp.  Använd formuläret Skapa tjänstebegäran på isupport-sidan och inkludera följande information om sådan finns:
  • Konsolavbildningar som visar felmeddelanden
  • Konsolbilder som visar de felsökningssteg som vidtagits och startsekvensen under varje steg
  • Sparade meddelanden på en syslog-server, om en sådan används.
  • Utdata från kommandot show trace
  • Utdata från kommandot show tech-support

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.