Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Odstraňování problémů s modulem Switch Fabric

Summary: Odstraňování problémů s modulem Switch Fabric

This article applies to   This article does not apply to 

Symptoms

Obsah:
  1. Úvod
  2. Určení posledního důvodu vypnutí napájení
  3. Odstraňování problémů s příznaky
  4. Informace, které je třeba shromáždit, pokud otevřete případ TAC

Úvod

Tento dokument je primárně určen pro odstraňování problémů s modulem SFM (Switch Fabric Module) v systému řady E, ale lze jej použít i pro SFM řady C.
V řadě E je SFM samostatná komponenta, která se nazývá jednotka vyměnitelná v terénu (FRU). U řady C je topologie spínače integrována do otáček za minutu. Příkazy FTOS pro správu SFM, včetně všech příkazů popsaných v tomto dokumentu, pokud není uvedeno jinak, jsou však užitečné u řady C.
Ve vzácných případech se SFM nepodaří inicializovat při spuštění nebo po upgradu nebo se může během provozu neočekávaně vypnout. Tento dokument se těmito případy zabývá.

Určení posledního důvodu vypnutí napájení

Funkce trasování systému, jak je znázorněno ve výstupu příkazu show trace , hlásí, kdy byl modul SFM vypnut nebo restartován. Můžete hledat zprávy protokolu s názvem
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

Obecně platí, že trasování systému zobrazí tři důvody pro resetování SFM:
  1. vzdálené vypnutí – Nejčastěji se hlásí od chvíle, kdy se SFM vypne a zapne při restartování systému, a to jak před restartováním, tak znovu při inicializaci systému. Při zadání příkazu pro resetování čísla slotu SFM je také hlášen důvod "remote power-off", protože tento příkaz ve skutečnosti SFM vypne a zapne.
    Poznámka: Tento příkaz je k dispozici pouze ve verzích FTOS 6.5.4.0 a novějších a u řady E.
  2. card-removed – Pokud odeberete a znovu vložíte modul SFM, výstup trasování show nahlásí jako poslední důvod vypnutí a zapnutí odebranou kartu. Tento stav není hlášen, když software zjistí nemožnost přečíst určité informace přes interní sběrnici a interpretuje tento stav jako odstranění SFM.
  3. Falešné resetování
Pokud navíc vzdáleně resetujete pohotovostní kartu z rozhraní příkazového řádku, trasování zobrazí důvod "vzdáleného resetu". 
 

Odstraňování problémů s příznaky

Proces FTOS Chassis Manager (CHMGR) monitoruje stav a stav SFM. Když proces zjistí problém s modulem SFM, RPM0 ohlásí menší výstrahu a resetuje kartu ve snaze obnovit režim SFM. Proces TSM hlásí, že byl nalezen SFM a menší stav alarmu je vymazán.
Když RPM hlásí "No working standby SFM", přepínač běží bez pohotovostního režimu SFM. Jedním z důvodů může být to, že SFM v určitém slotu ještě není po resetování online. Jakmile se tento SFM přepne do režimu online, pak je menší alarm vymazán, správce šasi detekuje nový SFM a v závislosti na šasi a počtu SFM se zobrazí zpráva "Found X SFMs".
Obecně platí, že při řešení problémů s nástrojem SFM začněte zachycením následujícího výstupu:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Pokud SFM klopí nebo prochází menším alarmovým stavem, systém nemusí mít dostatečný výkon. Za těchto podmínek systém nejprve vypne SFM. Každý SFM je nakonfigurován s prahovou hodnotou napětí a na základě této hodnoty se odpovídající SFM sníží jako první. Tento proces klapání SFM probíhá, dokud se napětí do systému nestabilizuje. Chcete-li zjistit, zda je k dispozici dostatečný výkon, fyzicky ověřte, zda u některých usměrňovačů výkonu Valere nedochází k selhání cihly. Viz také samostatný dokument Odstraňování problémů s nízkou spotřebou.
Následující části vysvětlují, jak odstranit konkrétní chyby v SFM.

Obecné chyby
přístupuExistují dva typy obecných chyb přístupu SFM:
"m" - MDIO error
"I" - I2C access error

Tyto chyby přístupu obvykle ukazují na problém s hardwarem.

Chcete-li zjistit, zda v systému SFM dochází k obecné chybě přístupu, vyhledejte příslušnou zprávu syslog, například "SFM 3 found general access error".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

Chyba "Simba PSI" v SFM obvykle ukazuje na problém s hardwarem. (Simba označuje hardwarový čip v SFM.) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"SFM selhala s diagnostikou portpipe SW FAB"

Tento stav obvykle označuje problém s hardwarem. Než požádáte o RMA, obraťte se na TAC společnosti Force10 Networks a požádejte o pomoc s odstraňováním problémů.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

Velký poplach je hlášen za několika podmínek. Jedním z takových stavů je překročení bezpečné provozní teploty SFM, jak ji detekuje hardware a software pro monitorování prostředí. Příkaz showenvironment může kromě chybových zpráv zachytit také vysokou teplotu:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

Pokud k tomuto stavu dochází, buď je SFM skutečně příliš horký, nebo došlo k poruše senzoru. Pokud mají přímo sousedící SFM normální teplotu, máte podezření na vadný snímač. Pokud přímo sousedící SFM nemají normální teplotu, máte podezření na skutečné přehřátí.

 

Když systém zjistí skutečnou přehřívání, vypne modul SFM, dokud nevychladne a dokud software neurčí, že je bezpečné jej znovu zapnout. Po opětovném zapnutí bude hardware hlásit důvod resetování SFM jako "přehřátí". Pokud software detekuje přehřátí a ručně vypne modul SFM, systém nahlásí reset modulu SFM jako důvod "vzdálené vypnutí".


Na view naprogramované prahové úrovně alarmů, spusťte příkaz show alarms threshold :.
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

K řešení tohoto problému použijte následující postup:

  1. Ověřte, zda čelní deska zakrývá všechny sloty bez linkové karty. Bez těchto desek může během pěti minut dojít k vysoké teplotě. Náhradní záslepky jsou k dispozici od společnosti Force10 Networks.
  2. Zkontrolujte, zda šasi neleží na podlaze. 
  3. Ověřte dostatek chladicích dlaždic v blízkosti šasi.
  4. Pokud existuje podezření na vadný snímač, resetujte SFM na dálku pomocí příkazu reset sfm slot number . Pokud je teplota opravdu vysoká, pak se SFM pravděpodobně nezapne a měl by být odstraněn jen o pár centimetrů, aby se karta již nepřipojovala k backplane a stále umožňovala správné proudění vzduchu pro zbytek šasi.
    POZNÁMKA: Tento příkaz je k dispozici pouze ve verzích FTOS 6.5.4.0 a novějších a u řady E.
    POZNÁMKA: Při vyjímání SFM buďte opatrní; Pokud je 85 stupňů, může být na dotek horký.
Resetování aktivního modulu SFM pomocí příkazu reset sfm může způsobit přerušení přenosu a tato zpráva:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
SFM je vypnutý kvůli podpětí
 
V případě poklesu výkonu se SFM obvykle nejprve vypne. Další podrobnosti naleznete v samostatném dokumentu Odstraňování problémů s nízkou spotřebou.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Informace, které je třeba shromáždit, pokud otevřete případ TAC


Úroveň informací poskytovaných Centru technické pomoci (TAC) společnosti Force10 Networks určuje podrobnosti o odstraňování problémů, které může TAC poskytnout.  Vzhledem k omezeným informacím TAC obvykle doporučuje znovu usadit SFM nahlášený v chybové zprávě a pečlivě jej sledovat. Pokud SFM selže znovu, obraťte se na TAC a požádejte o další pomoc s odstraňováním problémů.  Použijte prosím formulář pro vytvoření servisního požadavku na stránce isupport a uveďte následující informace, jsou-li k dispozici:
  • Zachycení z konzole s chybovými zprávami
  • Záznam konzole s kroky odstraňování problémů a spouštěcí sekvencí během každého kroku
  • Uložené zprávy na server syslog, pokud je použit.
  • Výstup příkazu show trace
  • Výstup příkazu "show tech-support"

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.