Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

스위치 패브릭 모듈 문제 해결

Summary: 스위치 패브릭 모듈 문제 해결

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

목차:
  1. 소개
  2. 마지막 전원 끄기 이유 확인
  3. 증상 문제 해결
  4. TAC 케이스를 열 경우 수집할 정보

소개

이 문서는 주로 E-Series 시스템의 SFM(Switch Fabric Module) 문제를 해결하기 위한 것이지만 C-Series SFM에도 적용할 수 있습니다.
E-Series에서 SFM은 FRU(Field Replaceable Unit)라고 불리는 독립 구성 요소입니다. C-Series에서는 스위치 패브릭이 RPM에 통합되어 있습니다. 그렇지만, 이 문서에서 설명하는 모든 명령을 비롯하여 SFM을 관리하기 위한 FTOS 명령은 C-Series에서 유용합니다.
드물지만 부팅 시 또는 업그레이드 후에 SFM이 초기화되지 않거나 작동 중에 예기치 않게 전원이 꺼질 수 있습니다. 이 문서에서는 이러한 경우에 대해 설명합니다.

마지막 전원 끄기 이유 확인

명령 출력에 표시된 바와 같이 시스템 추적 기능은 show trace SFM의 전원이 꺼지거나 전원이 껐다가 켜졌을 때 보고합니다. 라는 제목의 로그 메시지를 찾을 수 있습니다.
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

일반적으로 시스템 추적에는 SFM 재설정에 대한 세 가지 이유가 표시됩니다.
  1. remote-power-off - 시스템이 재부팅될 때 SFM의 전원이 꺼졌다가 켜지기 때문에 재부팅 전과 시스템 초기화 시 다시 한 번 가장 자주 보고됩니다. 이 명령은 실제로 SFM의 전원을 껐다 켜기 때문에 reset sfm slot number 명령을 실행할 때 "remote-power-off" 이유도 보고됩니다.
    참고: 이 명령은 FTOS 6.5.4.0 이상 및 E-Series에서만 사용할 수 있습니다.
  2. card-removed - SFM을 제거한 다음 다시 삽입하면 show trace 출력에서 마지막 전원 주기 이유로 card-removed 를 보고합니다. 소프트웨어가 내부 버스를 통해 특정 정보를 읽을 수 없음을 감지하고 이 상태를 SFM이 제거되는 것으로 해석하는 경우 이 상태는 보고되지 않습니다.
  3. 스퓨리어스 리셋
또한 CLI에서 대기 카드를 원격으로 재설정하면 추적에 "원격 재설정" 이유가 표시됩니다. 
 

증상 문제 해결

CHMGR(FTOS Chassis Manager) 프로세스에서는 SFM의 상태를 모니터링합니다. 프로세스에서 SFM에 문제가 감지되면 RPM0은 사소한 경보를 보고하고 SFM을 복원하기 위해 카드를 재설정합니다. TSM 프로세스에서 SFM이 발견되고 경미한 경보 조건이 지워졌다고 보고합니다.
RPM이 "No working standby SFM"을 보고하면 스위치가 대기 SFM 없이 실행 중인 것입니다. 한 가지 이유는 재설정 후 특정 슬롯의 SFM이 아직 온라인 상태가 아니기 때문일 수 있습니다. 이 SFM이 온라인 상태가 되면 사소한 경보가 지워지고 섀시 관리자가 새 SFM을 감지하며 섀시 및 SFM 수에 따라 "Found X SFMs" 메시지가 표시됩니다.
일반적으로 SFM의 문제를 해결하려면 먼저 다음 출력을 캡처합니다.
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

SFM이 사소한 경보 조건을 플랩하거나 순환하는 경우 시스템에 충분한 전원이 공급되지 않을 수 있습니다. 이 상태에서는 시스템이 SFM을 먼저 가동 중지합니다. 각 SFM에는 전압 임계값이 구성되어 있으며, 이 값을 기준으로 해당 SFM이 먼저 작동합니다. 이 SFM 플래핑 프로세스는 시스템에 대한 전압이 안정화될 때까지 발생합니다. 전력이 충분한지 확인하려면 Valere 전력 정류기에 벽돌 오류가 발생하는지 물리적으로 확인하십시오. 별도의 문서 저전력 상태 문제 해결도 참조하십시오.
다음 섹션에서는 SFM에서 특정 오류를 해결하는 방법에 대해 설명합니다.

일반 액세스 오류
SFM 일반 액세스 오류에는 두 가지 유형이 있습니다.
"m" - MDIO error
"I" - I2C access error

이러한 액세스 오류는 일반적으로 하드웨어 문제를 가리킵니다.

SFM에 일반 액세스 오류가 발생했는지 확인하려면 "SFM 3 found general access error"와 같은 관련 syslog 메시지를 찾습니다.
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

SFM의 "Simba PSI" 오류는 일반적으로 하드웨어 문제를 나타냅니다. (Simba는 SFM의 하드웨어 칩을 나타냅니다.) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

"SFM 장애 발생 SW FAB 포트파이프 진단"

일반적으로 이 상태는 하드웨어 문제를 가리킵니다. RMA를 요청하기 전에 문제 해결 지원을 위해 Force10 Networks TAC에 문의하십시오.
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

여러 조건에서 주요 경보가 보고됩니다. 이러한 조건 중 하나는 환경 모니터링 하드웨어 및 소프트웨어에서 감지되는 SFM 안전 작동 온도를 초과하는 것입니다. showenvironment 명령은 오류 메시지 외에도 고온 조건을 캡처할 수 있습니다.

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

이 상태가 발생하면 SFM이 실제로 너무 뜨겁거나 센서가 오작동하는 것입니다. 바로 인접한 SFM이 정상 온도인 경우 센서 결함을 의심하십시오. 바로 인접한 SFM의 온도가 정상 온도가 아닌 경우 진짜 과열 상태를 의심하십시오.

 

시스템이 진짜 과열 상태를 감지하면 냉각될 때까지 그리고 소프트웨어에서 전원을 다시 켜도 안전하다고 판단할 때까지 SFM의 전원을 끕니다. 전원을 다시 공급하면 하드웨어에서 SFM 재설정 이유를 "과열"로 보고합니다. 소프트웨어가 온도 초과 이벤트를 감지하고 SFM을 수동으로 종료하는 경우 시스템에서 SFM 재설정 이유를 "원격 전원 꺼짐"으로 보고합니다.


프로그래밍된 경보 임계값 수준을 보려면 명령을 실행합니다 show alarms threshold :.
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

이 문제를 해결하려면 다음 단계를 수행하십시오.

  1. 페이스 플레이트가 라인 카드 없이 모든 슬롯을 덮고 있는지 확인합니다. 이러한 플레이트가 없으면 5분 이내에 고온 조건이 발생할 수 있습니다. 예비 블랭크는 Force10 Networks에서 구할 수 있습니다.
  2. 섀시가 바닥에 놓여 있지 않은지 확인합니다. 
  3. 섀시 근처에 냉각 타일이 충분한지 확인합니다.
  4. 센서 결함이 의심되는 경우 reset sfm slot number 명령을 사용하여 SFM을 원격으로 재설정합니다. 온도가 실제로 높으면 SFM이 켜지지 않을 수 있으며 카드가 백플레인에 더 이상 연결되지 않고 섀시의 나머지 부분에 적절한 공기 흐름을 허용하도록 몇 인치만 제거해야 합니다.
    참고: 이 명령은 FTOS 6.5.4.0 이상 및 E-Series에서만 사용할 수 있습니다.
    참고: SFM을 제거할 때 주의하십시오. 85도이면 만졌을 때 뜨거울 수 있습니다.
reset sfm 명령을 통해 활성 SFM을 재설정하면 트래픽이 중단될 수 있으며 다음 메시지가 표시됩니다.
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
저전압 상태로 인해 SFM의 전원이 꺼졌습니다.
 
전원 강하의 경우 일반적으로 SFM의 전원이 먼저 꺼집니다. 자세한 내용은 별도의 문서 저전력 조건 문제 해결을 참조하십시오.
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

TAC 케이스를 열 경우 수집할 정보


Force10 Networks의 TAC(Technical Assistance Center)에 제공되는 정보의 수준에 따라 TAC에서 제공할 수 있는 문제 해결 세부 정보가 결정됩니다.  정보가 제한되어 있으므로 TAC에서는 일반적으로 오류 메시지에 보고된 SFM을 다시 장착하고 SFM을 면밀히 모니터링하는 것이 좋습니다. SFM에 다시 장애가 발생하면 TAC에 문의하여 추가 문제 해결 지원을 요청하십시오.  iSupport 페이지의 서비스 요청 생성 양식을 사용하십시오. 가능한 경우 다음 정보를 포함하십시오.
  • 오류 메시지를 보여주는 콘솔 캡처
  • 수행된 문제 해결 단계와 각 단계 동안의 부팅 순서를 보여주는 콘솔 캡처
  • syslog 서버를 사용하는 경우 syslog 서버에 저장된 메시지입니다.
  • show trace 명령의 출력
  • show tech-support 명령의 출력

Cause

-

Resolution

-

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.