Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Усунення несправностей модуля Switch Fabric

Summary: Усунення несправностей модуля Switch Fabric

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Зміст:
  1. Введення
  2. Визначення останньої причини вимкнення живлення
  3. Усунення симптомів
  4. Інформація, яку слід збирати, якщо ви відкриваєте справу TAC

Введення

Цей документ в першу чергу призначений для усунення несправностей модуля Switch Fabric Module (SFM) у системі E-Series, але він також може бути застосований до соняшникової макухи серії C.
У серії E соняшникова макуха є дискретним компонентом, який називається польовим замінним блоком (FRU). У C-серії тканина перемикача інтегрована в RPM. Тим не менш, команди FTOS для управління соняшниковою макухою, включаючи всі описані в цьому документі, за винятком випадків, де зазначено, корисні на C-серії.
У рідкісних випадках сонячну макуху не вдається ініціалізувати під час завантаження або після оновлення, або вона може несподівано вимкнутися під час роботи. У цьому документі йдеться про ці випадки.

Визначення останньої причини вимкнення живлення

Функція трасування системи, як показано у виході команди show trace , повідомляє, коли SFM було вимкнено або переключено живлення. Ви можете шукати повідомлення журналу під назвою
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

Як правило, системне трасування відображає три причини скидання SFM:
  1. remote-power-off – повідомляється найчастіше, оскільки SFM вимикається та вмикається під час перезавантаження системи, як перед перезавантаженням, так і знову під час ініціалізації системи. Причина «віддаленого вимкнення» також повідомляється, коли видається команда скидання номера слота sfm , оскільки ця команда фактично запускає живлення FM.
    Примітка: Ця команда доступна лише у FTOS 6.5.4.0 та пізніших версіях, а також на E-Series.
  2. card-remove - Якщо ви видалите, а потім знову вставите FM, вихід відображення трасування повідомить про видалення карти як про останню причину циклу живлення. Цей статус не повідомляється, коли програмне забезпечення виявляє неможливість зчитування певної інформації через внутрішню шину та інтерпретує цей стан як видалення соняшникової макухи.
  3. помилкове скидання
Крім того, якщо ви віддалено скинете резервну карту з CLI, на трасуванні відобразиться причина «віддаленого скидання». 
 

Усунення симптомів

Процес FTOS Chassis Manager (CHMGR) контролює справність і стан соняшникової макухи. Коли процес виявляє проблему з соняшниковою макухою, RPM0 повідомляє про незначний сигнал тривоги та скидає карти в спробі відновити соняшникову маку. Процес TSM повідомляє, що соняшникова макуха знайдено, і незначний стан тривоги знято.
Коли RPM повідомляє «No working standby SFM», перемикач працює без резервного SFM. Однією з причин може бути те, що сонячна макуха в певному слоті ще не підключена до мережі після скидання. Як тільки цей соняшникова макуха з'являється в мережі, незначна сигналізація знімається, диспетчер шасі виявляє нову соняшникову макуху і, залежно від шасі та кількості соняшникової макухи, відображається повідомлення «Знайдено X соняшникової макухи».
Загалом, щоб усунути проблему з Держфінгом, почніть із захоплення таких вихідних даних:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Якщо соняшникова макуха спрацьовує або циклічно переходить через незначний стан сигналізації, можливо, система не отримує достатньої потужності. За цієї умови система виводить з ладу Держфінмоніторинг в першу чергу. Для кожної соняшникової макухи налаштовується поріг напруги, і, виходячи з цього значення, відповідна соняшникова макуха буде знижуватися першою. Цей процес ляскання соняшникової макухи відбувається до тих пір, поки напруга в системі не стабілізується. Щоб визначити, чи достатня потужність, фізично перевірте, чи не зазнають якісь силові випрямлячі Valere з ладу. Дивіться також окремий документ «Усунення несправностей в умовах низького енергоспоживання».
У наступних розділах пояснюється, як виправити конкретні помилки в Держфінмоніторингу.

Загальні помилки
доступуІснує два типи помилок загального доступу до соняшникової макухи:
"m" - MDIO error
"I" - I2C access error

Ці помилки доступу зазвичай вказують на проблему з обладнанням.

Щоб визначити, чи виникає у вашому SFM загальну помилку доступу, знайдіть відповідне повідомлення системного журналу, наприклад «Знайдено загальну помилку доступу».
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

Помилка "Simba PSI" на SFM зазвичай вказує на апаратну проблему. (Simba відноситься до апаратного чіпа на соняшниковій маку.) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"У SFM вийшов з ладу SW FAB ілюмінатор діагностики"

Як правило, цей стан вказує на проблему з обладнанням. Зверніться до Force10 Networks TAC за допомогою в усуненні несправностей, перш ніж надсилати запит на RMA.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

Повідомляється про серйозну тривогу за кількох умов. Однією з таких умов є перевищення безпечної робочої температури SFM, що визначається апаратними та програмними засобами моніторингу навколишнього середовища. Команда showenvironment може фіксувати стан високої температури на додаток до повідомлень про помилку:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

Коли виникає цей стан, або соняшникова макуха дійсно занадто гаряча, або датчик вийшов з ладу. Якщо безпосередньо поруч з Держфінгом нормальна температура, підозрюйте несправність датчика. Якщо безпосередньо сусідні соняшникова макуха не мають нормальної температури, підозрюйте справжній стан перегріву.

 

Коли система виявляє справжній стан перегріву, вона вимикає соняшникову макуху, доки вона не охолоне і доки програмне забезпечення не визначить, що повторне живлення безпечне. Після повторного живлення причина скидання соняшникової макухи буде повідомлена як «перегрів» обладнанням. Якщо програмне забезпечення виявить перевищення температури та вручну вимкне соняшникову маку, система повідомить про причину скидання соняшникової макухи для «віддаленого вимкнення».


Щоб переглянути рівні порогів запрограмованих тривог, виконайте команду показати порогові значення тривоги :.
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

Виконайте такі дії, щоб усунути цю умову:

  1. Переконайтеся, що лицьова панель закриває всі слоти без лінійної картки. Без таких пластин стан високої температури може наступити протягом п'яти хвилин. Запасні заготовки можна придбати в Force10 Networks.
  2. Слідкуйте за тим, щоб шасі не стояло на підлозі. 
  3. Переконайтеся, що плитка достатнього охолодження розташована поблизу корпусу.
  4. Якщо є підозра на несправність датчика, дистанційно скиньте налаштування SFM за допомогою команди скидання номера слотаsfm. Якщо температура дійсно висока, то соняшникова макуха, ймовірно, не включиться, і її слід видалити всього на кілька дюймів, щоб карта більше не підключалася до задньої плати і все ще забезпечувала належний потік повітря для решти корпусу.
    ПРИМІТКИ: Ця команда доступна лише у FTOS 6.5.4.0 та пізніших версіях, а також на E-Series.
    ПРИМІТКИ: Проявляти обережність при видаленні соняшникової макухи; Якщо вона становить 85 градусів, він може бути гарячим на дотик.
Скидання активного соняшникової макухи за допомогою команди скидання соняшникової макухи може призвести до порушення дорожнього руху, і це повідомлення:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
Живлення соняшникової макухи вимкнено через недостатню
 
напругуУ разі просідання потужності соняшникова макуха зазвичай вимикається першою. Більш детальну інформацію дивіться в окремому документі «Усунення несправностей в умовах низького енергоспоживання».
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Інформація, яку слід збирати, якщо ви відкриваєте справу TAC


Рівень інформації, що надається Центру технічної допомоги (TAC) Force10 Networks, визначає деталі усунення несправностей, які TAC може надати.  З огляду на обмежену інформацію, TAC зазвичай рекомендує перевстановити соняшникову маку, про яку повідомляється в повідомленні про помилку, і уважно стежити за нею. Якщо соняшникова макуха знову вийде з ладу, зверніться до TAC, щоб запросити подальшу допомогу в усуненні несправностей.  Будь ласка, скористайтеся формою «Створити запит на обслуговування» на сторінці isupport та надайте наступну інформацію, якщо така є:
  • Консольні знімки показують повідомлення про помилки
  • Знімки консолі показують виконані кроки з усунення несправностей і послідовність завантаження під час кожного кроку
  • Збережені повідомлення на сервері системного журналу, якщо такий використовується.
  • Вивід з команди show trace
  • Вихідні дані з команди show tech-support

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.