Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

交換器光纖模組故障診斷

Summary: 交換器光纖模組故障診斷

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

目錄:
  1. 簡介
  2. 確定上次斷電原因
  3. 故障診斷症狀
  4. 開啟 TAC 案例時要收集的資訊

簡介

本文件主要用於故障診斷 E 系列系統上的交換器光纖模組 (SFM),但也可套用至 C 系列 SFM。
在 E 系列中,SFM 是一種獨立元件,稱為現場可更換單元 (FRU)。在 C 系列中,交換器架構已整合至 RPM。不過,用於管理 SFM 的 FTOS 命令,包括本文件中描述的所有命令,除非另有說明,在 C 系列上仍然很有用。
在極少數情況下,SFM 在啟動時或升級后無法初始化,或者在操作過程中可能會意外關閉電源。本文檔介紹了這些情況。

確定上次斷電原因

show trace 命令輸出所示,系統跟蹤功能將在 SFM 斷電或重新啟動電源時報告。您可以尋找標題為
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

通常,系統跟蹤將顯示 SFM 重置的三個原因:
  1. 遠端關閉電源 – 自系統重新啟動時關閉和打開 SFM 電源以來,最常報告,包括重新啟動之前和系統初始化時。發出 重設 sfm 插槽號碼命令時,也會回報「remote-power-off」原因,因為此命令實際上是將 SFM 重新啟動電源。
    注意:此命令僅適用於 FTOS 6.5.4.0 及更新版本,以及 E 系列。
  2. 已移除插卡 - 如果移除 SFM 再重新插入, 則顯示追蹤 輸出會將移除插卡報告為上次重新啟動電源的原因。當軟體檢測到無法通過內部總線讀取某些資訊並將此狀態解釋為正在刪除的 SFM 時,不會報告此狀態。
  3. 雜散複位
此外,如果您從 CLI 遠端重置備用卡,跟蹤將顯示「遠端重置」的原因。 
 

故障診斷症狀

FTOS 機箱管理程式 (CHMGR) 程序會監控 SFM 的健全狀況和狀態。當程序偵測到 SFM 問題時,RPM0 會回報次要警報,並重設介面卡,以嘗試還原 SFM。TSM 程序會報告已找到 SFM,並清除次要警示狀況。
當 RPM 回報「無運作中的待機 SFM」時,交換器正在沒有待機 SFM 的情況下執行。原因之一可能是特定插槽中的 SFM 在重置後尚未連線。此 SFM 連線後,次要警報就會解除,機箱管理程式就會偵測到新的 SFM,而且根據機箱和 SFM 數量,會顯示「Found X SFMs」訊息。
通常,若要解決 SFM 的問題,請首先捕獲以下輸出:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

如果 SFM 在次要警報情況下翻動或循環,系統可能無法獲得足夠的電力。在此情況下,系統會先關閉 SFM。每個 SFM 都配置有一個電壓閾值,根據該值,相應的 SFM 將首先關閉。發生此 SFM 振盪過程,直到系統電壓穩定為止。要確定是否有足夠的功率,請物理驗證是否有任何Valere電源整流器遇到磚故障。另請參閱個別說明文件故障 診斷低功率狀況。
以下各節說明如何排查 SFM 上的特定錯誤。

一般存取錯誤
SFM 常規存取錯誤有兩種類型:
"m" - MDIO error
"I" - I2C access error

這些訪問錯誤通常指向硬體問題。

若要確定 SFM 是否遇到常規訪問錯誤,請查找相關的系統日誌消息,例如“SFM 3 發現常規訪問錯誤”。
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

SFM 上的「Simba PSI」錯誤通常表示硬體發生問題。(Simba 是指 SFM 上的硬體晶片。 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

「SFM 失敗的 SW FAB portpipe diags」

通常,此狀態表示硬體問題。在要求 RMA 之前,請聯絡 Force10 Networks TAC 以取得故障排除協助。
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

在多種情況下會報告重大警報。其中一種情況是超過環境監測硬體和軟體檢測到的SFM安全工作溫度。除了錯誤訊息外, showenvironment 命令也可能會擷取高溫狀況:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

發生這種情況時,SFM 確實過熱,或者感測器出現故障。如果直接相鄰的 SFM 溫度正常,則懷疑感測器故障。如果直接相鄰的 SFM 溫度不正常,則懷疑真正的過熱情況。

 

當系統檢測到真正的過熱情況時,它會關閉 SFM 的電源,直到它冷卻下來,直到軟體確定它可以安全地重新供電。重新開啟電源時,硬體會將 SFM 重設原因報告為「溫度過高」。如果軟體檢測到過熱事件並手動關閉 SFM,系統將報告 SFM 重置原因「遠端電源關閉」。


若要檢視程式化的警報閾值等級,請執行 show alarms threshold 命令:。
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

請使用下列步驟針對此狀況進行故障診斷:

  1. 確認面板是否能在沒有線路卡的情況下覆蓋所有插槽。如果沒有這樣的板,可能會在五分鐘內發生高溫條件。備用擋片可從 Force10 網路獲得。
  2. 請確定機箱未置於地板上。 
  3. 確認機箱附近有足夠的冷卻磚。
  4. 如果懷疑感應器故障,請使用 reset sfm 插槽號碼 命令遠端重設 SFM。如果溫度確實很高,那麼 SFM 可能不會開啟,應將其卸下僅幾英寸,使插卡不再連接至背板,並且仍允許機箱其餘部分的適當氣流。
    :此命令僅適用於 FTOS 6.5.4.0 及更新版本,以及 E 系列。
    :取下SFM時要小心;如果是85度,摸起來可能很熱。
透過 「reset sfm 」命令重設作用中的 SFM 可能會導致流量中斷,並顯示以下訊息:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
SFM 因欠壓狀況而關閉電源
 
在功率暫降的情況下,SFM 通常首先關機。如需詳細資訊,請參閱個別說明文件故障診斷 低耗電狀況
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

開啟 TAC 案例時要收集的資訊


提供給 Force10 網路技術援助中心 (TAC) 的資訊級別決定了 TAC 可以提供的故障排除詳細資訊。  由於資訊有限,TAC 通常建議重新安裝錯誤消息中報告的 SFM,並密切監視 SFM。如果 SFM 再次失敗,請聯繫 TAC 以請求進一步的故障排除説明。  請使用 isupport 頁面上的建立服務要求表單,並附上下列資訊 (如有):
  • 顯示錯誤訊息的主控台擷取
  • 主控台擷取,顯示採取的故障診斷步驟以及每個步驟中的開機順序
  • 將訊息儲存至系統記錄伺服器 (如果有使用)。
  • 顯示追蹤命令的輸出
  • 顯示技術支援命令的輸出

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.