Symptoms
如何解释 Brocade porterrshow 输出
porterrshow 计数器的含义是什么?
解释并说明 Brocade SAN 交换机的 porterrshow 输出(端口错误)以及错误的可能原因。
有关在计数器增加时要采取的操作,请参阅知识库文章
Connectrix:如何通过消除来对 Fibre Channel 节点到交换机端口或 SFP 通信问题进行故障处理?
下面是本知识库文章的说明部分。
/fabos/cliexec/porterrshow:
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs uncor
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err err
0: 575.2m 2.1g 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
1: 576.7m 2.1g 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
2: 611.3m 2.1g 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
3: 613.6m 2.1g 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
此命令显示所有端口的错误摘要。
每个端口对应一个输出行,并显示错误计数器,单位为个、千(数字后跟 k)或百万(数字后跟 m)。
Cause
N/A
Resolution
Frames tx
传输的帧数:端口传输的帧数。此数字是为错误计数器提供基线的统计信息。
Frames rx
收到的帧数:端口传输的帧数。此数字是为错误计数器提供基线的统计信息。
Enc in
帧内的编码错误:(RX)。帧边界内发生的 8b/10b 编码错误数。此计数器通常是零值,但偶尔可能会在正常链路上发生错误,并提供非零结果。在连续接收帧的链路上,最低程度符合链路位错误率规范将导致对于 1 Gb/秒,约每 20 分钟出现一个错误。关联 Nx 端口的重新初始化和重新启动也可能导致这些错误。这些错误包括在 LLI 错误的总和中。
Crc err
具有循环冗余校验错误的帧:(RX) 循环冗余校验失败的帧数。循环冗余校验 (CRC) 是一个四字节字段,应该紧跟在数据字段后面,应该用于验证帧标头和数据字段的数据完整性。SOF(= 帧开始)和 EOF(= 帧结束)分隔符不应包含在 CRC 验证中。在编码传输之前和接收解码之后,应在帧标头和数据字段上计算 CRC 字段。CRC 字段应在字边界上对齐。为了 CRC 计算,与传输的第一位对应的字对齐四字节字段的位是最高顺序的位。CRC 失败的帧会被记下但不会修改,目标设备负责拒绝和/或重新请求该帧。从统计的角度,仅出现 enc out 错误代表线缆问题,enc out 和 crc err 同时出现则代表 GBIC 或 SFP 问题。这些错误包括在 LLI 错误的总和中。
crc g_eof
收到具有正常 EOF(帧结束)的 CRC。(Rx)。当检测到具有正常 EOF 的 CRC 时,交换机将增加 crc g_eof 计数器,它将标记该帧,以防止其他端口计算此 CRC 帧并继续转发该帧。
这使具有正常 EOF 的 CRC 帧可以被快速跟踪到其源端口。
too short
“too short”计数器是一个错误统计计数器,每当收到以 SOF(帧开始)和 EOF(帧结束)为边界且 SOF 和 EOF 之间的字数少于 7(6 个字的标题加上 1 个字的 CRC),即 38 字节(而不是 48 字节)(包括 SOF 和 EOF)时,错误统计计数器会递增。这可能是由于传输器或不可靠的链路导致的。数据帧大小是从 0 到 2112 的变量。这些错误包括在 LLI 错误的总和中。
too long
长度超过最大值的帧数:超过最大帧大小(36 字节 + 数据帧大小)的帧数。数据帧大小是从 0 到 2112 的变量。这些错误包括在 LLI 错误的总和中。FC 帧最大为 2148 字节。如果 EOF 损坏或数据生成不正确,则会生成 too long 错误。
bad eof
具有错误的帧结束分隔符的帧:帧结束 (EOF) 分隔符是紧随 CRC 的有序集。在同步丢失错误后,连续模式对齐允许接收器在接收器处于正常运行状态时,在传入位流的任何时间点重新建立字对齐。这种重新调整可能会(但不是必定)导致代码违规和后续同步丢失。在某些情况下,可以在不丢失同步的情况下重新对齐传入位流。如果在收到的帧内发生此重新对齐,则检测所导致的错误情况取决于更高级别的功能(例如,无效的 CRC、缺少 EOF 分隔符)。
EOF 分隔符应指定帧内容的结尾,后跟空闲。EOF 分隔符分为三类。分隔符的一个类别应表明该帧从发送方的角度有效,并且从接收方的角度可能有效。第二个类别应表明帧内容有效。此类别应仅由 F 端口使用,该端口接收完整的帧并将其解码,然后再将该帧转发到另一个目标。第三个类别应表明帧内容已损坏,并且帧在传输过程中被截断。N 端口和 F 端口均应使用第三个类别来指示内部故障,例如传输器故障,这会阻止整个帧正常传输。这些错误包括在 LLI 错误的总和中。
enc out
FC 帧外的字(有序集)中发生 8 位/10 位编码错误。如果此编码损坏或检测到错误并生成 enc out,则会对帧之外的字进行编码。
帧外部的编码错误:在帧边界之外发生的 8b/10b 编码错误的数量。此计数器在链路初始化期间可能会变为非零值,但如果它增加的速度快于链路位错误率允许的速度(对于 1 Gb/秒,每 20 分钟一次),则表示存在问题。这由损坏的原语序列引起,即:LIP f7,f7。
提醒: 每当用户通过重新启动主机来关闭和打开端口、重启存储子系统电源、断开/重新连接线缆或调用 portDisable/portEnable 命令时,预计都会出现 loss sig、loss sync 和 enc out 错误。与这一事实同样重要的是,当 2GBit 交换机协商到其连接设备的连接速度时,这些错误也在增加,请记住这一点。从统计的角度,仅出现 enc out 错误代表线缆问题,enc out 和 crc err 同时出现则代表 SFP 问题。这些错误包括在 LLI 错误的总和中。
Disc c3
丢弃的 Class 3 帧 (Rx) 的数量。计数器包括 portstatshow 命令报告的以下 C3 丢弃计数器之和:
er_rx_c3_timeout、er_tx_c2_timeout、er_c2_dest_unreach 和 er_other_disc
如果设备在没有先进行 FLOGI 处理的情况下发送帧或目标无效,交换机可能会生成 discard class 3 错误。此错误报告发生了此类丢弃。
Class 3 帧可能由于超时或目标无效或无法访问而被丢弃。此计数器在正常操作期间递增。它还可用于显示端口拥塞的影响,意味着来自连续 S-ID 和 D-ID 的正常帧没有直接从端口路由到端口,而是有一个异常帧通过内部端口路由(通常不应在 ASIC 上的端口到端口路由中发生,但是当 D-ID 端口遇到缓冲区已满的情况并且无法接受任何更多帧时,则会发生此情况)。此外,如果目标由于 ISL 工作负载过高而被阻止(这意味着时间较长并且 BB Credit Buffer = 0),这可能会导致缓冲区已满,因此 S-ID 端口可能(在极端情况下)满足超时条件,因此 disc c3 计数器将增加。这些错误包括在 LLI 错误的总和中。
一些详细信息:一个端口一次只能接收一个帧(在 xWDM 连接之外,不能同时向光缆发出 2 个光脉冲)。因此,如果两个光源尝试共享一个端口,它们必须使用仲裁算法,其中一个光源经过,第二个光源等待轮到自己。第一个源完成后,允许第二个源发送。这意味着源只能以 50% 的利用率运行(或等于繁忙和就绪时间)。如果源能够以 D-ID 的速度流式传输数据(目前许多 HBA 可以),则另一个类似速度的 HBA 的尝试会导致 50% 的性能下降。
er_unreachable 将被记录丢弃,因为目标无法访问或目标上的设备离线或联机。
er_other_disc 是实际丢弃,不属于其他定义的丢弃帧类别之一。根据 Brocade,它们不重要,不会影响性能。
Link fail
链路故障(LF1 或 LF2 状态):端口达到 Link fail1 和/或 Link fail2 状态的次数。已接收 (Rx)。如果端口处于 LR 接收状态的时间超过超时期限 (R_T_TOV),则应检测到链路重置协议超时,这会导致链路故障状况(进入 NOS 传输状态)。
链路故障还表明未处于离线状态时检测到持续时间超过检测到的 R_T_TOV 值的信号丢失或同步丢失
Loss sync
同步丢失:同步丢失的次数。位或传输字边界上的同步故障无法单独识别并导致同步丢失错误。
提醒: 每当用户通过重新启动主机来关闭和打开端口、重启存储子系统电源、断开和/或重新连接线缆或调用 portDisable 或 portEnable 命令时,预计都会出现 loss sig、loss sync 和 enc out 错误(loss sig = 丢失信号:信号丢失的次数。当运行的接收方识别到信号丢失情况时,应进入同步丢失状态(如果接收器当前不在该状态)。接收方应保持此状态,直至发生以下情况之一:信号丢失状况已更正,重新获得同步,或者接收方重置。
Loss sig
收到信号丢失的次数,当信号被传输但在同一端口上未收到任何信号时会发生此错误。
frjt
帧被拒绝并发出 F_RJT 错误:光纤端口拒绝帧的数量。这代表帧的交付被拒绝。发出 F_RJT 的一些原因包括:不支持的类;无效的标头字段;N 端口不可用。
fbsy
如果光纤无法在 E_D_TOV 内传送 class 2 帧,帧将被丢弃并返回 F_BSY。(Tx) 帧繁忙并发出 F_BSY: 光纤端口繁忙帧。此帧由光纤发出,指示由于光纤或目标 N 端口繁忙而无法交付特定帧。
c3-timeout tx
由于超时(特定于平台和端口),传输端口上丢弃的传输 class 3 帧的数量。
c3-timeout rx
在此端口接收并由于超时(特定于平台和端口)而在传输端口丢弃的接收 class 3 帧的数量。
pcs err
物理编码子层 (PCS) 块错误的数量。此计数器记录 10 Gbps 或 16 Gbps 端口上的编码违规。
在 porterrshow ER_PCS_BLK 计数器中,这仅适用于支持 10 Gbps 或 16 Gbps 端口 (6505/6510/6520/DCX-8510) 的平台,随 GEN5 平台 Condor3 ASIC 引入。此计数器相当于 8 GB 和/或 4 GB 链路的 enc_out,仅用于 10 GB 和 16 GB 速度。
10 GB 和 16 GB 链路使用 64 B 或 66 B 编码(而不是 8 B 或 10 B)进行数据传输,并且在解码过程中检测到 10 Gbps 或 16 Gbps 端口上出现 "pcs err" (=er_pcs_blk) 计数器记录编码违规。
uncor err
不可纠正的前向纠错 (FEC) 的数量。
请参阅此视频:
最常见计数器的 BROCADE 示例。
示例 1 具有 LINK FAIL 和 LOSS SYNC 的 ENC OUT:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息 (https://support.emc.com/kb/304525),并在 4-6 小时后重新获取数据。
从错误中,我们可以看到 link fail 和 loss of sync 以及 enc out 错误,还可能包括 loss sig 错误。
这些错误组合通常代表主机重新启动或交换机外部的链路重置。enc out 错误是在链路初始化中的速度协商过程中发生的。
预期操作:
验证连接到端口的设备是否具有离线/联机(即主机重新启动)的合法理由。如果没有,请提交 SR。
示例 2 ENC OUT:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息 (https://support.emc.com/kb/304525),并在 4-6 小时后重新获取数据。
没有任何关联错误的 enc out 错误表示线缆脏污。
预期操作:
检查并清洁连接到此端口和连接设备的线缆和 SFP 上的所有光纤端面。
示例 3 CRC 和 CRC G_EOF:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息 (https://support.emc.com/kb/304525),并在 4-6 小时后重新获取数据。
帧进入交换机端口时 CRC 损坏,但帧的末尾仍标记为正常。
这表明这是第一个注册坏帧的端口,因此问题在于此特定端口上的 SFP/线缆/连接设备接口。
预期操作:
请参阅解决方案中的默认操作。
对于 ISL 端口,使用
statsclear 和
slotstatsclear 命令清除统计信息,等待 4-6 小时,然后从两个交换机收集 supportsaves 并创建 SR 以进行正常的故障处理。
示例 4 CRC:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息 (https://support.emc.com/kb/304525),并在 4-6 小时后重新获取数据。
端口正在记录一个进入交换机并具有坏 CRC 帧的数据帧,但该帧已标记为损坏。通常会在 ISL 和 NPIV F 端口上看到此信息。
预期操作:
如果在 NPIV 端口上记录 CRC 错误,请通过维护供应商来调查设备!
对于 ISL 端口,检查光纤中的所有端口,看看是否有任何端口记录 crc g_oef 和操作,如示例 3 所示。
示例 5 具有 LINK FAIL 和 LOSS SYNC 的 PCS ERR:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息 (https://support.emc.com/kb/304525),并在 4-6 小时后重新获取数据。
这仅适用于支持 10 Gbps 或 16 Gbps 端口 (6505/6510/6520/DCX-8510) 的平台,随 GEN5 平台 Condor3 ASIC 引入。ER_PCS_BLK 显示物理编码子层 (PCS) 块错误的数量。此计数器相当于 8 GB/4 GB 链路的 enc_out,仅用于 10GB 和 16Gb 速度。
从错误中,我们可以看到 link fail 和 loss of sync 以及 pcs err 错误,也可能包括 loss sig 错误。
这些错误组合通常代表交换机外部的主机重新启动或链路重置。
pcs err 错误是在链路初始化中的速度协商过程中发生的。
预期操作:
验证连接到端口的设备是否具有离线/联机(即主机重新启动)的合法理由。如果没有,请提交 SR。
示例 6 PCS ERR:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息 (https://support.emc.com/kb/304525),并在 4-6 小时后重新获取数据。
没有任何关联错误的 PCS ERR 错误表示线缆脏污。
预期操作:
检查并清洁连接到此端口和连接设备的线缆和 SFP 上的所有光纤端面。
示例 7 C3timout PLUS Disc c3:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 2.4k 0 0 0 0 0 2.4k 0 0
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息 (https://support.emc.com/kb/304525),并在 4-6 小时后重新获取数据。
C3TIMEOUT 丢弃显示在默认超时 500 毫秒时在此端口丢弃帧。
TX — 帧无法从此交换机端口发送。
RX - 交换机端口不接受帧,在默认超时 500 毫秒时丢弃。
预期操作:
这些错误代表光纤或连接设备中存在潜在的性能问题,请参阅知识库文章:
464206:
SAN 中的性能问题。(排出缓慢、拥塞、超额订阅。)
和
464027:
Connectrix:拥塞扩散知识图
,作为调查起点。
示例 8 Disc c3:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 2.4k 0 0 0 0 0 0 0 0
一般原因:
仅当过去 24 小时内端口统计信息被清除的情况下有效。否则,将这些计数器分类为历史计数器。请清除端口统计信息 (https://support.emc.com/kb/304525),并在 4-6 小时后重新获取数据。
被丢弃的“无法访问”“其他”或“不可路由”帧的累积。(有关丢弃的详细信息,请参阅命令 portstatsshow 输出。)
预期操作:
自行丢弃 C3,通常不会影响 SAN。
示例 9 Uncorr err:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs uncor
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err err
xx: 1.1g 468.4m 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 48
未被 FEC 纠正的数据块计数
如果任何有任何随附的 CRC、enc_out、bad eof (pcs err) 错误,可能会分别影响数据帧和有序集(因此 r_rdy 可能会丢失,从而导致余额耗尽)。遵循针对这些错误建议的活动。
如果这些错误都不是递增的,则未纠正的错误的影响很小,但表明链路并非没有无错误,因此可能会出现线缆或 SFP 问题。
如果只有 uncorr err,则应测试线缆,并将接头清理作为第一步。
Affected Products
Connectrix
Products
Connectrix, Connectrix DS-300B, Connectrix DS-5100B, Connectrix DS-5300B, Connectrix DS-6505B, Connectrix DS-6510B, Connectrix DS-6620B, Connectrix ED-DCX6-4B, Connectrix ED-DCX6-8B, Connectrix ED-DCX8510-4B, Connectrix ED-DCX8510-8B
, Connectrix MP-7500B, Connectrix MP-7800B, Connectrix MP-8000B
...
View More
View Less