Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Fehlerbehebung beim Switch-Fabric-Modul

Summary: Fehlerbehebung beim Switch-Fabric-Modul

This article applies to   This article does not apply to 

Symptoms

Inhaltsverzeichnis:
  1. Einführung
  2. Ermitteln des Grundes für das letzte Herunterfahren
  3. Troubleshooting-Symptome
  4. Zu erfassende Informationen, wenn Sie einen TAC-Fall eröffnen

Einführung

Dieses Dokument dient in erster Linie der Fehlerbehebung des Switch Fabric Module (SFM) auf einem System der E Serie, kann aber auch auf SFMs der C Serie angewendet werden.
Bei der E-Serie ist das SFM eine separate Komponente, die als Field Replaceable Unit (FRU) bezeichnet wird. Bei der C-Serie ist die Switch-Fabric in das RPM integriert. Nichtsdestotrotz sind FTOS-Befehle für die Verwaltung des SFM, einschließlich aller in diesem Dokument beschriebenen Befehle, sofern nicht anders angegeben, auf der C-Serie nützlich.
In seltenen Fällen kann ein SFM beim Hochfahren oder nach einem Upgrade nicht initialisiert werden oder es kann während des Betriebs unerwartet ausgeschaltet werden. In diesem Dokument werden diese Fälle behandelt.

Ermitteln des Grundes für das letzte Herunterfahren

Die System-Trace-Funktion, wie in der Ausgabe des Befehls show trace gezeigt, meldet, wenn ein SFM aus- und wieder eingeschaltet wurde. Sie können nach Protokollmeldungen mit dem Titel
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

Im Allgemeinen zeigt der System-Trace drei Gründe für ein Zurücksetzen des SFM an:
  1. remote-power-off – Wird am häufigsten gemeldet, da der SFM beim Neustart des Systems aus- und wieder eingeschaltet wird, sowohl vor dem Neustart als auch erneut bei der Systeminitialisierung. Der Grund "remote-power-off" wird auch gemeldet, wenn der Befehl zum Zurücksetzen der SFM-Steckplatznummer ausgegeben wird, da dieser Befehl tatsächlich das SFM aus- und wieder einschaltet.
    Hinweis: Dieser Befehl ist nur in FTOS 6.5.4.0 und höher sowie auf der E-Serie verfügbar.
  2. card-removed – Wenn Sie ein SFM entfernen und dann wieder einsetzen, meldet die Ausgabe show trace card-removed als letzten Grund für das Aus- und Einschalten. Dieser Status wird nicht gemeldet, wenn die -Software feststellt, dass bestimmte Informationen über einen internen Bus nicht gelesen werden können, und diesen Status als entferntes SFM interpretiert.
  3. Falsche Zurücksetzung
Wenn Sie die Stand-by-Karte remote über die CLI zurücksetzen, zeigt die Ablaufverfolgung außerdem den Grund "Remote Reset" an. 
 

Troubleshooting-Symptome

Der FTOS Chassis Manager (CHMGR)-Prozess überwacht den Funktionszustand und den Status des SFM. Wenn der Prozess ein Problem mit dem SFM erkennt, meldet RPM0 einen geringfügigen Alarm und setzt die Karte zurück, um das SFM wiederherzustellen. Der TSM-Prozess meldet, dass ein SFM gefunden wurde, und der geringfügige Alarmzustand wird gelöscht.
Wenn der RPM meldet, dass das Standby-SFM nicht funktioniert, wird der Switch ohne den Stand-by-SFM ausgeführt. Ein Grund kann sein, dass ein SFM in einem bestimmten Steckplatz nach dem Zurücksetzen noch nicht online ist. Sobald dieses SFM online ist, wird der geringfügige Alarm gelöscht, der Gehäuse-Manager erkennt das neue SFM und je nach Gehäuse und Anzahl der SFMs wird die Meldung "X SFMs gefunden" angezeigt.
Um ein Problem mit dem SFM zu beheben, erfassen Sie im Allgemeinen zunächst die folgende Ausgabe:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Wenn ein SFM klappert oder den kleinen Alarmzustand durchläuft, wird das System möglicherweise nicht ausreichend mit Strom versorgt. In diesem Fall fährt das System den SFM zuerst herunter. Jedes SFM ist mit einem Spannungsschwellenwert konfiguriert. Basierend auf diesem Wert wird der entsprechende SFM zuerst heruntergefahren. Dieser Prozess des SFM-Flatterns tritt auf, bis sich die Spannung zum System stabilisiert hat. Um festzustellen, ob ausreichend Strom vorhanden ist, überprüfen Sie physisch, ob bei einem der Valere-Leistungsgleichrichter ein Brick-Fehler vorliegt. Weitere Informationen finden Sie im separaten Dokument Troubleshooting bei Problemen mit geringer Stromversorgung.
In den folgenden Abschnitten wird erläutert, wie Sie bestimmte Fehler auf dem SFM beheben.

Allgemeine Zugriffsfehler
Es gibt zwei Arten von allgemeinen SFM-Zugriffsfehlern:
"m" - MDIO error
"I" - I2C access error

Diese Zugriffsfehler weisen in der Regel auf ein Hardwareproblem hin.

Um festzustellen, ob bei Ihrem SFM ein allgemeiner Zugriffsfehler vorliegt, suchen Sie nach einer relevanten Syslog-Meldung, z. B. "SFM 3 found general access error".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

Ein "Simba PSI"-Fehler auf dem SFM weist in der Regel auf ein Hardwareproblem hin. (Simba bezieht sich auf einen Hardwarechip auf dem SFM.) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"SFM fehlgeschlagene SW FAB Portpipe-Diagnosen"

In der Regel weist dieser Status auf ein Hardwareproblem hin. Wenden Sie sich an den TAC von Force10 Networks, um Unterstützung beim Troubleshooting zu erhalten, bevor Sie eine RMA anfordern.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

Ein Major-Alarm wird unter mehreren Bedingungen gemeldet. Eine dieser Bedingungen ist die Überschreitung der sicheren SFM-Betriebstemperatur, wie sie von der Hardware und Software für die Umgebungsüberwachung erkannt wird. Der Befehl showenvironment kann den Zustand mit hoher Temperatur zusätzlich zu den Fehlermeldungen erfassen:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

Wenn dieser Zustand auftritt, ist entweder der SFM wirklich zu heiß oder ein Sensor ist defekt. Wenn direkt benachbarte SFMs normale Temperatur haben, vermuten Sie einen fehlerhaften Sensor. Wenn die direkt angrenzenden SFMs keine normale Temperatur haben, vermuten Sie eine echte Überhitzung.

 

Wenn das System eine echte Übertemperatur erkennt, schaltet es das SFM aus, bis es abgekühlt ist und bis die Software feststellt, dass es sicher wieder eingeschaltet werden kann. Beim erneuten Einschalten wird der Grund für das Zurücksetzen des SFM von der Hardware als "Übertemperatur" gemeldet. Wenn die Software das Übertemperaturereignis erkennt und das SFM manuell herunterfährt, meldet das System als Grund für das Zurücksetzen des SFM den Punkt "Remote-Ausschalten".


Um die programmierten Alarmschwellenwerte anzuzeigen, führen Sie den Befehl show alarms threshold aus:.
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

Führen Sie die folgenden Schritte aus, um diesen Zustand zu beheben:

  1. Stellen Sie sicher, dass eine Frontplatte alle Steckplätze ohne Leitungskarte abdeckt. Ohne solche Platten kann es innerhalb von fünf Minuten zu einem Hochtemperaturzustand kommen. Ersatzplatzhalter sind von Force10 Networks erhältlich.
  2. Stellen Sie sicher, dass das Gehäuse nicht auf dem Boden liegt. 
  3. Stellen Sie sicher, dass sich in der Nähe des Gehäuses genügend Kühlungskacheln befinden.
  4. Wenn ein fehlerhafter Sensor vermutet wird, setzen Sie das SFM remote mit dem Befehl reset sfm slot number zurück. Wenn die Temperatur wirklich hoch ist, lässt sich das SFM wahrscheinlich nicht einschalten und sollte nur wenige Zentimeter entfernt werden, damit die Karte nicht mehr mit der Rückwandplatine verbunden ist und weiterhin einen ordnungsgemäßen Luftstrom für den Rest des Gehäuses ermöglicht.
    HINWEIS: Dieser Befehl ist nur in FTOS 6.5.4.0 und höher sowie auf der E-Serie verfügbar.
    HINWEIS: Gehen Sie beim Entfernen des SFM vorsichtig vor. Wenn es 85 Grad hat, könnte es sich heiß anfühlen.
Das Zurücksetzen des aktiven SFM über den Befehl "sfm reset" kann zu einer Unterbrechung des Datenverkehrs führen. Es wird folgende Meldung angezeigt:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
SFM ist aufgrund von Unterspannung
 
ausgeschaltetIm Falle eines Stromabbruchs schaltet sich das SFM in der Regel zuerst aus. Weitere Informationen finden Sie im separaten Dokument Troubleshooting bei Energiesparaktivitäten.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Zu erfassende Informationen, wenn Sie einen TAC-Fall eröffnen


Der Umfang der Informationen, die dem Technical Assistance Center (TAC) von Force10 Networks zur Verfügung gestellt werden, bestimmt die Details zur Fehlerbehebung, die TAC bereitstellen kann.  Bei begrenzten Informationen empfiehlt der TAC in der Regel, ein in einer Fehlermeldung gemeldetes SFM neu einzusetzen und das SFM genau zu überwachen. Wenn SFM erneut fehlschlägt, wenden Sie sich an TAC, um weitere Unterstützung beim Troubleshooting anzufordern.  Verwenden Sie das Formular zum Erstellen eines Service-Requests auf der iSupport-Seite und geben Sie, falls verfügbar, die folgenden Informationen an:
  • Konsolenerfassungen mit den Fehlermeldungen
  • Konsolenaufnahmen, die die während der einzelnen Schritte unternommenen Schritte zur Fehlerbehebung und die Startreihenfolge zeigen
  • Gespeicherte Meldungen auf einem Syslog-Server, falls einer verwendet wird.
  • Ausgabe des Befehls show trace
  • Ausgabe des Befehls show tech-support

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.