Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Create and access a list of your products

交换机结构模块故障处理

Summary: 交换机结构模块故障处理

This article applies to   This article does not apply to 

Symptoms

目录:
  1. 简介
  2. 确定上次断电原因
  3. 故障处理症状
  4. 创建 TAC 案例时要收集的信息

简介

本文档主要用于对 E 系列系统上的交换矩阵模块 (SFM) 进行故障处理,但也可应用于 C 系列 SFM。
在 E 系列中,SFM 是一个独立组件,称为现场可更换单元 (FRU)。在 C 系列中,交换机结构集成到 RPM 中。不过,用于管理 SFM 的 FTOS 命令(包括本文档中描述的所有命令,除非另有说明,)在 C 系列上非常有用。
在极少数情况下,SFM 无法在启动时或升级后初始化,或者可能会在操作期间意外关闭电源。本文档将介绍这些情况。

确定上次断电原因

系统跟踪功能( 如 show trace 命令输出中所示)报告 SFM 何时关闭电源或关闭再打开电源。您可以查找具有以下标题的日志消息:
 "Found SFM #, last power-cycle reason:", as highlighted below in a sample of show trace output.Force10#show trace 100 | grep SFM[2/19 13:18:59] RAM-(RpmAvailMgr):Send data sync msg (42) to task 4 SFM Config State ).[2/19 13:22:47] TSM-(tsm):Receive SFM 7 SFM_DETECT REMOVE event.[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: Remove SFM 7[2/19 13:22:47] TSM-(tsm):tsmSfmRemove: SFM 7 is powered off.[2/19 13:22:48] TSM-(tsm):tsmSfmRemove: SFM 7 is powered on.[2/19 13:22:49] TSM-(tsm):Set SFM minor alarm[2/19 13:22:49] TSM-(tsm):tsmSfmRemove:8: SW FAB is good after removing SFM 7
[2/19 13:22:50] TSM-(tsm):Receive SFM 7 SFM_DETECT INSERT event.
[2/19 13:22:50] TSM-(tsm):SFM 7 is reset with SFM Card insert event, bring up the card
[2/19 13:22:50] TSM-(tsm):Found SFM 7, last power-cycle reason: power on with cause of DEFAULT
[2/19 13:22:50] TSM-(tsm):TSM initilizes SFM 7...
[2/19 13:22:51] ****** ERROR CHMGR-(chmgr):SFM 7 not present or bad slot id
[2/19 13:22:52] TSM-(tsm):Clear SFM minor alarm
[2/19 13:22:52] TSM-(tsm):tsmSfmAdd:8: LC is in service, no PP test. SFM 7 standby. numSfmFound = 9
[2/19 13:22:52] TSM-(tsm):Receive SFM 7 RESET_DETECT ASSERT event.
[2/19 13:22:52] TSM-(tsm):SFM 7 reset is cleared, no action

通常,系统跟踪将显示 SFM 重置的三个原因:
  1. remote-power-off — 最常报告,因为 SFM 在重新启动之前和系统初始化时关闭和打开。发出 reset sfm slot number 命令时,还会报告“remote-power-off”原因,因为此命令实际上会关闭 SFM 电源后重启。
    提醒:此命令仅在 FTOS 6.5.4.0 及更高版本和 E 系列上可用。
  2. card-removed — 如果您卸下然后重新插入 SFM,show trace 输出将报告 card-removed 作为上次电源关闭后重启的原因。当 软件检测到无法通过内部总线读取某些信息并将此状态解释为正在删除 SFM 时,不会报告此状态。
  3. 杂散复位
此外,如果您从 CLI 远程重置备用卡,跟踪将显示“远程重置”的原因。 
 

故障处理症状

FTOS 机箱管理器 (CHMGR) 进程监视 SFM 的运行状况和状态。当进程检测到 SFM 问题时,RPM0 会报告次要警报并重置卡以尝试恢复 SFM。TSM 进程报告已找到 SFM,次要警报条件已清除。
当 RPM 报告“No working standby SFM”(无待机 SFM)时,交换机在没有待机 SFM 的情况下运行。原因之一可能是特定插槽中的 SFM 在重置后尚未联机。此 SFM 联机后,次要警报将被清除,机箱管理器会检测新的 SFM,并根据机箱和 SFM 的数量,显示“Found X SFM”消息。
通常,要对 SFM 问题进行故障处理,请首先捕获以下输出:
show trace

show logging

Dec 30 11:12:20 PST: %RPM0:CP %CHMGR-2-MINOR_SFM: Minor alarm: No working standby SFM
Dec 30 11:12:20 PST: %RPM0:CP %TSM-2-SFM_RESET_PRESENT: SFM 2 reset unexpectedly
Dec 30 11:12:22 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 2
Dec 30 11:12:23 PST: %RPM0:CP %CHMGR-5-MINOR_SFM_CLR: Minor alarm cleared: Working standby SFM present
Dec 30 11:12:23 PST: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found 9 SFMs
show sfm all

如果 SFM 在次要警报条件期间摆动或循环,系统可能没有获得足够的电力。在这种情况下,系统首先关闭 SFM。每个 SFM 都配置了一个电压阈值,根据该值,相应的 SFM 将首先关闭。此 SFM 摆动过程会发生,直到系统电压稳定下来。要确定是否有足够的功率,请物理验证是否有任何 Valere 功率整流器遇到砖故障。另请参阅单独的文档 ,对低功率状况进行故障处理。
以下各节说明如何对 SFM 上的特定错误进行故障处理。

一般访问错误
SFM 常规访问错误有两种类型:
"m" - MDIO error
"I" - I2C access error

这些访问错误通常指向硬件问题。

要确定您的 SFM 是否遇到常规访问错误,请查找相关的系统日志消息,例如“SFM 3 found general access error”。
Feb Feb 19 04:44:02: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:02: %RPM0:CP %TSM-2-SFM_GENERAL_ACCESS_M: SFM 3 found general access error (type m) 
Feb 19 04:44:05: %RPM0:CP %TSM-6-SFM_DISCOVERY: Found SFM 3 
Feb 19 04:44:06: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: UP 
Feb 19 04:44:36: %RPM0:CP %TSM-6-SFM_SWITCHFAB_STATE: Switch Fabric: DOWN 
Feb 19 04:44:37: %RPM0:CP %CHMGR-0-MAJOR_SFM: Major alarm: Switch fabric down 
Feb 19 04:44:38: %RPM0:CP %TSM-2-SFM_UNDER_VOLT: SFM 3 powered off due to under voltage
SFM Simba PSI access error

SFM 上的“Simba PSI”错误通常指向硬件问题。(Simba 是指 SFM 上的硬件芯片。) 
  • show trace Output
    [6/4 2:13:13] TSM-(tsm):Receive SFM 1 ERR_DETECT event 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:13] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:13] POLLER-(PM):doSfmSaSanErr: eventId=17, slotId=1, state=1, value[0]=0x1fd, value[1]=0x0 
    [6/4 2:13:14] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [6/4 2:13:14] CHMGR-(chmgr):add min alrm 12 UNKNOWN 0 0 
    [6/4 2:13:14] CHMGR-(tsm):0x1382 log alrm 12 to chmgr (rc=84) 
    [6/4 2:13:14] TSM-(tsm):Set SFM minor alarm 
    [6/4 2:13:14] TSM-(tsm):Change SW FAB state from SW_FAB_UP_9 to 
    SW_FAB_UP_8  
    !—The Etherscale supports one SFM in standby mode. The Terascale requires all 9 SFMs to be operationally active.[5/4 2:13:14] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:14] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    !—During a failure, check the Status LED.  
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):CheckSFMCardPower: tsmIsSfmPowerOn() failed for SFM 1 power status 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmHandleSfmError: Different error detected on SFM 1 (erro = 262163). SFM already 
    in SFM_ERROR state 
    [6/4 2:13:15] TSM-(tsm):SFM 1 ERR_DETECT event is confirmed 
    [6/4 2:13:15] TSM-(tsm):Receive SFM 1 SIMAB_DETECT event 
    [5/4 2:13:15] ****** ERROR TSM-(tsm):tsmIsSFMReset: SFM 1 is not 
    accessible via scratch pad (SFM_FAITH_CR = 0) 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: Remove SFM 1 
    [6/4 2:13:15] TSM-(tsm):tsmSfmRemove: SFM 1 is powered off. 
    [6/4 2:13:16] TSM-(tsm):tsmSfmRemove: SFM 1 is powered on. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn off SFM 1 active LED fail. 
    [5/4 2:13:16] ***** WARNING TSM-(tsm):Turn on SFM 1 Status LED Amber fail. 
    [5/4 2:13:17] ****** ERROR TSM-(tsm):tsmIsSfmPowerOn: 
    f10SysRpmSfmCardInfoGet() failed for SFM 1 power status 
  • show sfm all
    Force10#sh sfm all 
    Switch Fabric State: up 
    -- Switch Fabric Modules -- Slot Status 
    --------------------------------------------------------------------------- 
    0 card problem (SFM Simba PSI access error) 
    1 active 
    2 active 
    3 active 
    4 active 
    5 active 
    6 active 
    7 active 
    8 active 

“SFM 未通过 SW FAB 端口管道诊断”

通常,此状态表示硬件问题。在请求 RMA 之前,请联系 Force10 Networks TAC 以获得故障处理帮助。
Force10#show chassis brief

Chassis Type  : E300

Chassis Mode  : TeraScale

Chassis Epoch : 10.4 micro-seconds

--  Line cards --

Slot  Status        NxtBoot    ReqTyp   CurTyp   Version     Ports
--------------------------------------------------------------------------- 
  0   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  1   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  2   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  3   online        online     EX1YE3   EX1YE3   5.3.1.2b    1  
  4   online        online     E12PE3   E12PE3   5.3.1.2b    12  
  5   not present                    

--  Route Processor Modules --

Slot  Status        NxtBoot    Version 
--------------------------------------------------------------------------- 
0   active        online     5.3.1.2b 
1   not present

Switch Fabric State:  up

--  Switch Fabric Modules --

Slot  Status                    

---------------------------------------------------------------------------

  0   SW FAB diags failed  (Multiple SFMs failed SW FAB portpipe diags)

  1   active    

[output omitted]

 

在多种情况下会报告重大警报。其中一种情况是超过环境监控硬件和软件检测到的 SFM 安全工作温度。除了错误消息之外, showenvironment 命令还可能会捕获高温情况:

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-TEMP_SHUTDOWN_WARN: WARNING! SFM 6 temperature is 85C; approaching shutdown threshold of 80C)

Feb 27 04:52:16 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP: Major alarm: chassis temperature high (SFM temperature reaches or exceeds threshold of 75C)

Feb 27 04:52:21 UTC: %RPM0:CP %CHMGR-2-MAJOR_TEMP_CLR: Major alarm cleared: chassis temperature lower (SFM 6 temperature is within threshold of 70C)

发生这种情况时,SFM 确实过热,或者传感器出现故障。如果紧邻的 SFM 温度正常,请怀疑传感器有故障。如果紧邻的 SFM 的温度不是正常,请怀疑真正的过热情况。

 

当系统检测到真正的温度过高情况时,它会关闭 SFM 电源,直至其冷却下来,直到软件确定可以安全地重新通电。重新通电后,SFM 重置原因将被硬件报告为“温度过高”。如果软件检测到温度过高事件并手动关闭 SFM,系统将报告 SFM 重置原因为“远程关机”。


要查看已编程的警报阈值级别,请执行 show alarms threshold 命令:
 

E600-TAC-3#show alarms threshold

-- Temperature Limits (deg C) --
-----------------------------------------------------------
Minor Minor Off Major Major Off Shutdown
Linecard 75 70 80 77 85
RPM 65 60 75 70 80
SFM 65 60 75 70 80

使用以下步骤对此情况进行故障处理:

  1. 验证面板是否覆盖了没有线卡的所有插槽。如果没有这种板,可能会在五分钟内发生高温条件。备用挡片可从 Force10 Networks 获得。
  2. 确保机箱未放置在地板上。 
  3. 验证靠近机箱的冷却磁贴是否足够。
  4. 如果怀疑传感器出现故障,请使用 reset sfm slot number 命令远程重置 SFM。如果温度确实很高,则 SFM 可能无法打开,应将 SFM 卸下几英寸,以便卡不再连接到背板,并且仍为机箱的其余部分提供适当的通风。
    提醒:此命令仅在 FTOS 6.5.4.0 及更高版本和 E 系列上可用。
    提醒:拆卸 SFM 时要小心;如果是 85 度,摸起来可能会很烫。
通过 reset sfm 命令重置活动 SFM 可能会导致流量中断,并且此消息:
Force10#reset sfm 0 
SFM 0 is active. Resetting it might temporarily impact traffic. 
Proceed with reset? Confirm [yes/no]:
 
SFM 因欠压状态
 
而断电在功率骤降的情况下,SFM通常先断电。有关详细信息,请参阅单独的文档 对低功率情况进行故障处理
Force10>show sfm 3 
Switch Fabric State: up 
-- SFM card 3 -- 
Status : power off - SFM powered off due to under-voltage 
Card Type : SFM - Switch Fabric Module 
Up Time : 0 sec 
Temperature : 33C 
Power Status : PEM0: up PEM1: up 
Serial Number : 0012632 
Part Number : 7520003706 Rev A 
Vendor Id : 01 
Date Code : 01442003

创建 TAC 案例时要收集的信息


提供给 Force10 网络技术帮助中心 (TAC) 的信息级别决定了 TAC 可以提供的故障排除详细信息。  在信息有限的情况下,TAC 通常会建议重新拔插错误消息中报告的 SFM,并密切监视 SFM。如果 SFM 再次失败,请联系 TAC 以请求进一步的故障处理帮助。  请使用 isupport 页面上的“创建服务请求”表单,并包括以下信息(如果可用):
  • 显示错误消息的控制台捕获
  • 显示所执行的故障处理步骤以及每个步骤中的引导顺序的控制台捕获
  • 将消息保存到系统日志服务器(如果使用)。
  • show trace 命令的输出
  • show tech-support 命令的输出

Cause

Resolution

Affected Products

Switches
Article Properties
Article Number: 000133835
Article Type: Solution
Last Modified: 23 Jul 2024
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.