Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Rozwiązywanie problemów z modułem struktury przełącznika

Summary: Rozwiązywanie problemów z modułem struktury przełącznika

This article applies to   This article does not apply to 

Symptoms

Spis treści:
  1. Wprowadzenie
  2. Określanie ostatniej przyczyny wyłączenia zasilania
  3. Rozwiązywanie problemów — objawy
  4. Informacje, które należy zebrać w przypadku otwarcia sprawy TAC

Wprowadzenie

Ten dokument służy głównie do rozwiązywania problemów z modułem struktury przełączników (SFM) w systemach z serii E, ale może być również stosowany do modułów SFM z serii C.
W serii E SFM jest elementem dyskretnym, nazywanym modułem wymienianym na miejscu (FRU). W serii C struktura przełącznika jest zintegrowana z RPM. Niemniej jednak polecenia FTOS służące do zarządzania SFM, w tym wszystkie polecenia opisane w tym dokumencie, z wyjątkiem przypadków, w których zaznaczono inaczej, są przydatne w przypadku serii C.
W rzadkich przypadkach inicjalizacja SFM kończy się niepowodzeniem podczas rozruchu lub po uaktualnieniu albo może nieoczekiwanie wyłączać się podczas pracy. Niniejszy dokument dotyczy takich przypadków.

Określanie ostatniej przyczyny wyłączenia zasilania

Funkcja śledzenia systemu, jak pokazano w wyniku polecenia show trace , zgłasza wyłączenie lub wyłączenie i włączenie zasilania modułu SFM. Można wyszukać komunikaty dziennika zatytułowane
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

Ogólnie rzecz biorąc, śledzenie systemu wyświetla trzy powody resetowania SFM:
  1. remote-power-off — zgłaszane najczęściej, ponieważ SFM jest wyłączany i włączany po ponownym uruchomieniu systemu, zarówno przed ponownym uruchomieniem, jak i ponownie podczas inicjalizacji systemu. Powód "remote-power-off" jest również zgłaszany po wydaniu polecenia resetowania numeru gniazda sfm , ponieważ polecenie to w rzeczywistości powoduje wyłączenie i ponowne włączenie modułu SFM.
    Uwaga: To polecenie jest dostępne tylko w systemie FTOS 6.5.4.0 i nowszych wersjach oraz w serii E.
  2. card-removed — po wyjęciu, a następnie ponownym włożeniu SFM, wyjście show trace zgłosi wyjęcie karty jako ostatnią przyczynę wyłączenia i wyłączenia zasilania. Ten stan nie jest zgłaszany, gdy oprogramowanie wykryje niemożność odczytania pewnych informacji przez magistralę wewnętrzną i zinterpretuje ten stan jako usunięcie modułu SFM.
  3. Fałszywy reset
Ponadto w przypadku zdalnego zresetowania karty gotowości z poziomu interfejsu CLI ścieżka wyświetli przyczynę "zdalnego resetowania". 
 

Rozwiązywanie problemów — objawy

Proces FTOS Chassis Manager (CHMGR) monitoruje kondycję i stan SFM. Gdy proces wykryje problem z SFM, RPM0 zgłasza drobny alarm i resetuje kartę, próbując przywrócić SFM. Proces TSM zgłasza wykrycie SFM i usunięcie pomniejszego stanu alarmowego.
Gdy RPM zgłasza komunikat "No working standby SFM", przełącznik pracuje bez trybu gotowości SFM. Jednym z powodów może być to, że moduł SFM w danym gnieździe nie jest jeszcze online po zresetowaniu. Gdy ten moduł SFM przejdzie w tryb online, dodatkowy alarm zostanie anulowany, menedżer obudowy wykryje nowy moduł SFM i w zależności od obudowy i liczby modułów SFM wyświetlony zostanie komunikat "Znaleziono X modułów SFM".
Ogólnie, aby rozwiązać problem z SFM, zacznij od przechwycenia następujących danych wyjściowych:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Jeśli moduł SFM wyłączy się lub przejdzie przez drobny stan alarmowy, system może nie otrzymywać wystarczającej mocy. W tym przypadku system najpierw wyłącza SFM. Każdy moduł SFM ma skonfigurowany próg napięcia i w oparciu o tę wartość odpowiadający mu moduł SFM zostanie wyłączony jako pierwszy. Ten proces trzepotania SFM zachodzi do momentu ustabilizowania się napięcia w systemie. Aby ustalić, czy jest wystarczająca moc, fizycznie sprawdź, czy w którymkolwiek prostowniku mocy Valere nie występuje awaria cegły. Zapoznaj się również z oddzielnym dokumentem Rozwiązywanie problemów z niskim poborem mocy.
W poniższych sekcjach wyjaśniono, jak rozwiązywać określone błędy w SFM.

Ogólne błędy
dostępuIstnieją dwa rodzaje ogólnych błędów dostępu SFM:
"m" - MDIO error
"I" - I2C access error

Te błędy dostępu zwykle wskazują na problem ze sprzętem.

Aby ustalić, czy w SFM występuje ogólny błąd dostępu, poszukaj odpowiedniego komunikatu dziennika systemowego, takiego jak "SFM 3 found general access error".
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

Błąd "Simba PSI" w SFM zazwyczaj wskazuje na problem ze sprzętem. (Simba odnosi się do chipa sprzętowego w SFM). 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"SFM failed SW FAB portpipe diags"

Zazwyczaj ten stan wskazuje na problem ze sprzętem. Skontaktuj się z Force10 Networks TAC, aby uzyskać pomoc w rozwiązywaniu problemów przed złożeniem wniosku o RMA.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

Poważny alarm jest zgłaszany pod kilkoma warunkami. Jednym z takich warunków jest przekroczenie bezpiecznej temperatury roboczej SFM, wykrytej przez sprzęt i oprogramowanie monitorujące środowisko. Polecenie showenvironment może przechwytywać stan wysokiej temperatury oprócz komunikatów o błędach:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

Gdy występuje taka sytuacja, oznacza to, że albo SFM jest naprawdę zbyt gorący, albo czujnik uległ awarii. Jeśli bezpośrednio przylegające SFM mają normalną temperaturę, należy podejrzewać wadliwy czujnik. Jeśli bezpośrednio przylegające SFM nie mają normalnej temperatury, należy podejrzewać prawdziwy stan przegrzania.

 

Gdy system wykryje rzeczywistą przegrzanie, wyłącza SFM do momentu ostygnięcia i do momentu, gdy oprogramowanie stwierdzi, że ponowne włączenie jest bezpieczne. Po ponownym włączeniu zasilania przyczyna resetowania SFM zostanie zgłoszona przez sprzęt jako "nadmierna temperatura". Jeśli oprogramowanie wykryje zdarzenie przegrzania i ręcznie wyłączy SFM, system zgłosi przyczynę "zdalnego wyłączenia" zresetowania SFM.


Aby wyświetlić zaprogramowane poziomy progów alarmowych, wykonaj polecenie show alarms threshold :
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

Aby rozwiązać ten problem, wykonaj następujące czynności:

  1. Sprawdź, czy płyta czołowa zakrywa wszystkie gniazda bez karty liniowej. Bez takich płyt stan wysokiej temperatury może wystąpić w ciągu pięciu minut. Zapasowe zaślepki są dostępne w Force10 Networks.
  2. Upewnij się, że obudowa nie jest umieszczona na podłodze. 
  3. Upewnij się, że w pobliżu obudowy znajduje się wystarczająca ilość płytek chłodzących.
  4. Jeśli podejrzewa się wadliwy czujnik, zresetuj SFM zdalnie za pomocą polecenia resetowania numeru gniazdasfm. Jeśli temperatura jest naprawdę wysoka, moduł SFM prawdopodobnie się nie włączy i należy go wyjąć zaledwie o kilka centymetrów, aby karta nie łączyła się już z płytą backplane i nadal umożliwiała prawidłowy przepływ powietrza dla reszty obudowy.
    Uwaga: To polecenie jest dostępne tylko w systemie FTOS 6.5.4.0 i nowszych wersjach oraz w serii E.
    Uwaga: Zachowaj ostrożność podczas wyjmowania SFM; Jeśli jest 85 stopni, może być gorący w dotyku.
Zresetowanie aktywnej SFM za pomocą polecenia reset sfm może spowodować zakłócenie ruchu, a ten komunikat:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
SFM jest wyłączony z powodu zbyt niskiego napięcia
 
W przypadku spadku mocy SFM zazwyczaj wyłącza się jako pierwszy. Więcej informacji można znaleźć w osobnym dokumencie Rozwiązywanie problemów z niskim poborem mocy.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Informacje, które należy zebrać w przypadku otwarcia sprawy TAC


Poziom informacji dostarczanych do Centrum Pomocy Technicznej (TAC) Force10 Networks określa szczegóły rozwiązywania problemów, które może zapewnić TAC.  W przypadku ograniczonych informacji TAC zaleca ponowne osadzenie modułu SFM zgłoszonego w komunikacie o błędzie i ścisłe monitorowanie modułu SFM. Jeśli moduł SFM ponownie ulegnie awarii, skontaktuj się z TAC, aby uzyskać dalszą pomoc w rozwiązywaniu problemów.  Skorzystaj z formularza Utwórz zgłoszenie serwisowe na stronie isupport i podaj następujące informacje, jeśli są dostępne:
  • Przechwytywanie konsoli z komunikatami o błędach
  • Przechwytywanie konsoli pokazujące podjęte kroki rozwiązywania problemów i sekwencję rozruchu podczas każdego kroku
  • Zapisywanie komunikatów na serwerze syslog, jeśli jest używany.
  • Dane wyjściowe polecenia show trace
  • Dane wyjściowe polecenia show tech-support

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.