Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

スイッチ ファブリック モジュールのトラブルシューティング

Summary: スイッチ ファブリック モジュールのトラブルシューティング

This article applies to   This article does not apply to 

Symptoms

目次:
  1. 概要
  2. 最後の電源切断理由の特定
  3. 症状のトラブルシューティング
  4. TACケースをオープンした場合に収集する情報

概要

このドキュメントは、主にEシリーズ システムのスイッチ ファブリック モジュール(SFM)のトラブルシューティングに関するものですが、CシリーズSFMにも適用できます
Eシリーズでは、SFMはフィールド交換可能ユニット(FRU)と呼ばれる専用コンポーネントです。Cシリーズでは、スイッチ ファブリックはRPMに統合されています。ただし、SFMを管理するためのFTOSコマンド(特に記載のない限り、このドキュメントで説明されているすべてのコマンドを含む)は、Cシリーズで役立ちます。
まれにですが、起動時またはアップグレード後にSFMが初期化に失敗したり、操作中に予期せず電源が切れたりすることがあります。このドキュメントでは、これらのケースについて説明します。

最後の電源切断理由の特定

システム トレース機能は、 show trace コマンドの出力に示されているように、SFM の電源がオフまたは再投入されたときに報告されます。次のタイトルのログ メッセージを探します。
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

一般に、システム・トレースには、SFM リセットの 3 つの理由が表示されます。
  1. remote-power-off – システムの再起動前と初期化時の両方で、システムの再起動時に SFM の電源がオフになってからオンになるため、最も頻繁に報告されます。reset sfm slot numberコマンドが実際にSFMの電源を再投入するため、「remote-power-off」の理由も報告されます。
    注:このコマンドは、FTOS 6.5.4.0 以降と E シリーズでのみ使用できます。
  2. card-removed:SFMを取り外してから再挿入すると、 show trace の出力では、最後の電源サイクルの理由としてcard-removedが報告されます。ソフトウェアが内部バス経由で特定の情報を読み取れないことを検出し、この状態をSFMが削除されていると解釈した場合、このステータスは報告されません。
  3. スプリアス リセット
また、CLIからスタンバイ カードをリモートでリセットすると、トレースに「remote reset」の理由が表示されます。 
 

症状のトラブルシューティング

FTOS Chassis Manager (CHMGR)プロセスは、SFMの正常性とステータスを監視します。プロセスでSFMの問題が検出されると、RPM0はマイナー アラームを報告し、SFMをリストアするためにカードをリセットします。TSMプロセスでは、SFMが検出されたことが報告され、マイナー アラーム状態がクリアされます。
RPMから「No working standby SFM」と報告された場合、スイッチはスタンバイSFMなしで実行されています。理由の1つとして、特定のスロットのSFMがリセット後にオンラインになっていないことが考えられます。このSFMがオンラインになると、マイナー アラームがクリアされ、シャーシ マネージャーが新しいSFMを検出し、シャーシとSFMの数に応じて、「Found X SFMs」というメッセージが表示されます
一般に、SFMの問題をトラブルシューティングするには、次の出力を収集することから始めます。
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

SFMがフラップするかマイナー アラーム状態を繰り返す場合は、システムに十分な電力が供給されていない可能性があります。この条件下では、システムは最初にSFMを停止します。各SFMには電圧しきい値が設定されており、その値に基づいて、対応するSFMが最初にダウンします。このSFMフラッピングのプロセスは、システムへの電圧が安定するまで発生します。十分な電力があるかどうかを判断するには、ブリックの故障が発生しているValere電力整流器があるかどうかを物理的に確認します。別のドキュメント「低電力状態のトラブルシューティング」も参照してください
以降のセクションでは、SFMの特定のエラーをトラブルシューティングする方法について説明します

一般的なアクセス エラー
SFMの一般的なアクセス エラーには、次の2つのタイプがあります。
"m" - MDIO error
"I" - I2C access error

これらのアクセス エラーは通常、ハードウェアの問題を示しています。

SFM で一般的なアクセス エラーが発生しているかどうかを判断するには、「SFM 3 で一般的なアクセス エラーが検出されました」など、関連する syslog メッセージを探します。
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

SFMの「Simba PSI」エラーは、通常、ハードウェアの問題を示しています。(シンバはSFM上のハードウェアチップを指します)。 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

「SFM failed SW FAB portpipe diags」

通常、このステータスはハードウェアの問題を示しています。RMAをリクエストする前に、Force10 Networks TACにトラブルシューティングを依頼してください。
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

メジャー アラームは、いくつかの条件下で報告されます。このような状態の1つが、環境モニタリング ハードウェアおよびソフトウェアによって検出された、SFMの安全な動作温度を超えることです。showenvironmentコマンドは、エラーメッセージに加えて高温状態をキャプチャする場合があります。

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

この状態が発生している場合は、SFMが本当に熱くなりすぎているか、センサーが誤動作しています。すぐ隣のSFMの温度が正常な場合は、センサーが故障している疑いがあります。直隣のSFMが正常温度でない場合は、過熱状態が疑われます。

 

システムが真の過熱状態を検出すると、冷却され、ソフトウェアが安全に再投入できると判断するまで、SFMの電源をオフにします。電源を入れ直すと、SFMリセットの理由がハードウェアによって「過熱」として報告されます。ソフトウェアが過熱イベントを検出し、SFMを手動でシャットダウンすると、システムはSFMリセット理由として「リモート電源オフ」を報告します。


プログラムされたアラームしきい値レベルを表示するには、 show alarms threshold コマンドを実行します。
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

この状態をトラブルシューティングするには、次の手順を使用します。

  1. フェース プレートがライン カードのないすべてのスロットを覆っていることを確認します。このようなプレートがないと、5分以内に高温状態が発生する可能性があります。スペア ダミーは Force10 ネットワークから入手できます。
  2. シャーシが床に置かれていないことを確認します。 
  3. シャーシの近くに十分な冷却タイルがあることを確認します。
  4. センサーの障害が疑われる場合は、 reset sfm slot number コマンドを使用してSFMをリモートでリセットします。温度が非常に高い場合は、SFMがオンにならない可能性があります。カードがバックプレーンに接続されなくなり、シャーシの残りの部分に適切なエアフローが確保されるように、SFMを数インチ取り外す必要があります。
    メモ: このコマンドは、FTOS 6.5.4.0 以降と E シリーズでのみ使用できます。
    メモ: SFMを取り外すときは注意してください。85度の場合は、触ると熱くなる可能性があります。
reset sfmコマンドを使用してアクティブなSFMをリセットすると、トラフィックが中断し、次のメッセージが表示される可能性があります。
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
電圧不足によりSFMの電源がオフ

電力低下の場合、SFMは通常、最初に電源をオフにします。  詳細については、別のドキュメント 「低電力状態のトラブルシューティング」を参照してください。
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

TACケースをオープンした場合に収集する情報


Force10 Networks のテクニカル アシスタンス センター(TAC)に提供される情報のレベルによって、TAC が提供できるトラブルシューティングの詳細が決まります。  情報が限られているため、TACは通常、エラーメッセージで報告されたSFMを抜き差しし、SFMを注意深く監視することを推奨します。SFMに再び障害が発生した場合は、TACに連絡して、さらにトラブルシューティングのサポートを依頼してください。  isupportページの[Create Service Request]フォームを使用して、次の情報を記載してください(可能な場合)。
  • エラー メッセージを表示するコンソール キャプチャ
  • 実行されたトラブルシューティング手順と各手順中のブート シーケンスを示すコンソール キャプチャ
  • Syslogサーバーに保存されたメッセージ(使用されている場合)。
  • show trace コマンドの出力
  • show tech-support コマンドの出力

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.