"Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7 [2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event. [2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card [2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT [2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7... [2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id [2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm [2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9 [2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event. [2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action
show trace show logging Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2 Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs show sfm all
"m" - MDIO error "I" - I2C access error
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage SFM Simba PSI access error
show trace Output [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to SW_FAB_UP_8 !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. !—During a failure, check the Status LED. [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already in SFM_ERROR state [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not accessible via scratch pad (SFM_FAITH_CR = 0) [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: f10SysRpmSfmCardInfoGet() failed for SFM 1 power status
show sfm all Force10#sh sfm all Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 card problem (SFM Simba PSI access error) 1 active 2 active 3 active 4 active 5 active 6 active 7 active 8 active
Force10#show chassis brief Chassis Type : E300 Chassis Mode : TeraScale Chassis Epoch : 10.4 micro-seconds -- Line cards -- Slot Status NxtBoot ReqTyp CurTyp Version Ports --------------------------------------------------------------------------- 0 online online EX1YE3 EX1YE3 5.3.1.2b 1 1 online online EX1YE3 EX1YE3 5.3.1.2b 1 2 online online EX1YE3 EX1YE3 5.3.1.2b 1 3 online online EX1YE3 EX1YE3 5.3.1.2b 1 4 online online E12PE3 E12PE3 5.3.1.2b 12 5 not present -- Route Processor Modules -- Slot Status NxtBoot Version --------------------------------------------------------------------------- 0 active online 5.3.1.2b 1 not present Switch Fabric State: up -- Switch Fabric Modules -- Slot Status --------------------------------------------------------------------------- 0 SW FAB diags failed (Multiple SFMs failed SW FAB portpipe diags) 1 active [output omitted]
Повідомляється про серйозну тривогу за кількох умов. Однією з таких умов є перевищення безпечної робочої температури SFM, що визначається апаратними та програмними засобами моніторингу навколишнього середовища. Команда showenvironment може фіксувати стан високої температури на додаток до повідомлень про помилку:
Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C) Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C) Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)
Коли виникає цей стан, або соняшникова макуха дійсно занадто гаряча, або датчик вийшов з ладу. Якщо безпосередньо поруч з Держфінгом нормальна температура, підозрюйте несправність датчика. Якщо безпосередньо сусідні соняшникова макуха не мають нормальної температури, підозрюйте справжній стан перегріву.
Коли система виявляє справжній стан перегріву, вона вимикає соняшникову макуху, доки вона не охолоне і доки програмне забезпечення не визначить, що повторне живлення безпечне. Після повторного живлення причина скидання соняшникової макухи буде повідомлена як «перегрів» обладнанням. Якщо програмне забезпечення виявить перевищення температури та вручну вимкне соняшникову маку, система повідомить про причину скидання соняшникової макухи для «віддаленого вимкнення».
Щоб переглянути рівні порогів запрограмованих тривог, виконайте команду показати порогові значення тривоги :.
E600-TAC-3#show alarms threshold -- Temperature Limits (deg C) -- ----------------------------------------------------------- Minor Minor Off Major Major Off Shutdown Linecard 75 70 80 77 85 RPM 65 60 75 70 80 SFM 65 60 75 70 80
Виконайте такі дії, щоб усунути цю умову:
Скидання активного соняшникової макухи за допомогою команди скидання соняшникової макухи може призвести до порушення дорожнього руху, і це повідомлення:
Force10#reset sfm 0 SFM 0 is active. Resetting it might temporarily impact traffic. Proceed with reset? Confirm [yes/no]:
Живлення соняшникової макухи вимкнено через недостатню
Force10>show sfm 3 Switch Fabric State: up -- SFM card 3 -- Status : power off - SFM powered off due to under-voltage Card Type : SFM - Switch Fabric Module Up Time : 0 sec Temperature : 33C Power Status : PEM0: up PEM1: up Serial Number : 0012632 Part Number : 7520003706 Rev A Vendor Id : 01 Date Code : 01442003