Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

Поиск и устранение неисправностей модуля коммутационной фабрики

Summary: Поиск и устранение неисправностей модуля коммутационной фабрики

This article applies to   This article does not apply to 

Symptoms

Содержание
  1. Введение
  2. Определение последней причины выключения питания
  3. Устранение признаков неисправности
  4. Информация, которую необходимо собрать, если вы открываете заявку TAC

Введение

Данный документ предназначен в первую очередь для поиска и устранения неисправностей модуля коммутационной фабрики (SFM) в системе серии E, но его также можно применить к модулям SFM серии C.
В системах серии E SFM представляет собой дискретный компонент, называемый компонентом с возможной заменой в условиях эксплуатации (FRU). В системах серии C фабрика коммутатора интегрирована в RPM. Тем не менее, команды FTOS для управления SFM, включая все описанные в этом документе, за исключением отмеченных случаев, полезны на C-Series.
В редких случаях SFM не инициализируется при загрузке или после модернизации, или он может неожиданно выключаться во время работы. Такие случаи рассматриваются в настоящем документе.

Определение последней причины выключения питания

Функция трассировки системы, как показано в выходных данных команды show trace , сообщает, когда SFM был выключен или выключен. Вы можете найти сообщения журнала, озаглавленные
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

Как правило, трассировка системы отображает три причины сброса SFM:
  1. remote-power-off — сообщается чаще всего, так как SFM выключается и включается при перезагрузке системы, как перед перезагрузкой, так и при инициализации системы. При выполнении команды reset sfm slot number также сообщается о причине «remote-power-off», поскольку эта команда фактически выдает и выключает питание SFM.
    Примечание.: Эта команда доступна только в FTOS 6.5.4.0 и более поздних версиях, а также в серии E.
  2. card-removed — если вы удалите, а затем снова вставите SFM, в выводе show trace будет указано, что карта удалена в качестве причины последнего выключения и включения питания. Об этом состоянии не сообщается, когда программное обеспечение обнаруживает невозможность считывания определенной информации по внутренней шине и интерпретирует это состояние как удаление SFM.
  3. Ложный сброс
Кроме того, при удаленном сбросе резервной карты из интерфейса командной строки в трассировке отображается причина «remote reset». 
 

Устранение признаков неисправности

Процесс FTOS Chassis Manager (CHMGR) отслеживает работоспособность и состояние SFM. Когда процесс обнаруживает проблему с SFM, RPM0 сообщает о незначительном сигнале тревоги и сбрасывает карту в попытке восстановить SFM. Процесс TSM сообщает, что обнаружен SFM, и незначительное аварийное состояние снято.
Когда RPM сообщает «No working standby SFM», коммутатор работает без резервного SFM. Одна из причин может быть в том, что SFM в определенном слоте еще не работает после сброса. После того, как этот SFM переходит в оперативный режим, незначительный сигнал тревоги сбрасывается, диспетчер корпуса обнаруживает новый SFM и, в зависимости от корпуса и количества SFM, отображается сообщение «Found X SFM».
Как правило, для устранения неполадок с SFM начните со сбора следующих выходных данных:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

Если SFM закручивается или переключается в незначительном аварийном состоянии, возможно, система не получает достаточной мощности. В этом случае система сначала отключает SFM. Каждый SFM настраивается с пороговым значением напряжения, и на основе этого значения соответствующий SFM будет снижаться первым. Этот процесс колебания SFM происходит до тех пор, пока напряжение в системе не стабилизируется. Чтобы определить, достаточно ли мощности, физически проверьте, не вышли ли из строя какие-либо силовые выпрямители Valere. См. также отдельный документ «Поиск и устранение неисправностей при низком энергопотреблении».
В следующих разделах объясняется, как устранить конкретные ошибки в SFM.

Ошибки
общего доступаСуществует два типа ошибок общего доступа SFM:
"m" - MDIO error
"I" - I2C access error

Эти ошибки доступа обычно указывают на проблему с оборудованием.

Чтобы определить, возникает ли в SFM общая ошибка доступа, найдите соответствующее сообщение в системном журнале, например «SFM 3 found general access error».
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

Ошибка «Simba PSI» на SFM обычно указывает на проблему с оборудованием. (Simba относится к аппаратному чипу на SFM.) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"Сбой диагностики порта SW FAB SFM"

Как правило, это состояние указывает на проблему с оборудованием. Прежде чем запрашивать RMA, обратитесь в службу технической поддержки Force10 Networks за помощью в устранении неполадок.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

Серьезная тревога сообщается при нескольких условиях. Одним из таких условий является превышение безопасной рабочей температуры SFM, обнаруженной оборудованием и программным обеспечением для мониторинга окружающей среды. Команда showenvironment может зафиксировать состояние высокой температуры в дополнение к сообщениям об ошибках:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

В этом случае либо SFM действительно слишком горячий, либо датчик неисправен. Если в непосредственной близости от SFM нормальная температура, можно заподозрить неисправность датчика. Если температура не соответствует нормальным температурам в непосредственной близости от SFM, подозревайте истинный перегрев.

 

Когда система обнаруживает подлинный перегрев, она отключает SFM до тех пор, пока он не остынет и программное обеспечение не определит, что повторное включение безопасно. При повторном включении питания оборудование будет отображать причину сброса SFM как «перегрев». Если программное обеспечение обнаружит событие перегрева и вручную выключит SFM, система сообщит о причине сброса SFM «удаленное выключение питания».


Для просмотра запрограммированных пороговых уровней тревоги выполните команду show alarms threshold :.
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

Для устранения этого состояния выполните следующие действия.

  1. Убедитесь, что все разъемы без линейной платы закрыты накладкой. Без таких пластин высокая температура может наступить в течение пяти минут. Запасные заготовки можно приобрести в Force10 Networks.
  2. Следите за тем, чтобы корпус не был поставлен на пол. 
  3. Убедитесь, что рядом с корпусом достаточно охлаждающих плиток.
  4. При подозрении на неисправность датчика удаленно выполните сброс SFM с помощью команды reset sfm slot number . Если температура действительно высокая, SFM, вероятно, не включится, и его следует извлечь всего на несколько дюймов, чтобы плата больше не подключалась к распределительной плате и по-прежнему обеспечивала надлежащий воздушный поток для остальной части корпуса.
    ПРИМЕЧАНИЕ. Эта команда доступна только в FTOS 6.5.4.0 и более поздних версиях, а также в серии E.
    ПРИМЕЧАНИЕ. Соблюдайте осторожность при снятии SFM; Если температура 85 градусов, она может быть горячей на ощупь.
Сброс активного SFM с помощью команды reset sfm может привести к прерыванию трафика и появлению следующего сообщения:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
SFM отключен из-за пониженного напряжения
 
В случае провисания мощности SFM обычно выключается первым. Дополнительные сведения см. в отдельном документе Поиск и устранение неисправностей при низком энергопотреблении.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

Информация, которую необходимо собрать, если вы открываете заявку TAC


Уровень информации, предоставляемой в Центр технической поддержки (TAC) Force10 Networks, определяет подробные сведения о поиске и устранении неисправностей, которые может предоставить TAC.  При ограниченной информации TAC обычно рекомендует переустановить SFM, указанный в сообщении об ошибке, и внимательно следить за SFM. Если SFM снова не проходит, обратитесь в службу технической поддержки для получения помощи в дальнейшем поиске и устранении неисправностей.  Используйте форму создания сервисной заявки на странице isupport и укажите следующую информацию, если она доступна:
  • Записи консоли с сообщениями об ошибках
  • Записи консоли с указанием действий по устранению неполадок и последовательности загрузки на каждом этапе
  • Сохраненные сообщения на сервер syslog, если он используется.
  • Выходные данные команды show trace
  • Выходные данные команды show tech-support

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.