Symptoms
如何解譯 Brocade porterrshow 輸出
porterrshow 計數器的意義為何?
解譯並說明 Brocade SAN 交換器的 porterrshow 輸出 (連接埠錯誤),以及可能的錯誤原因。
若要在計數器增加時採取行動,請參閱以下 KB 文章。
Connectrix:如何藉由排除法,故障診斷交換器連接埠的 Fibre Channel 節點或 SFP 通訊問題?
位於本 KB 的備註區段中。
/fabos/cliexec/porterrshow:
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs uncor
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err err
0: 575.2m 2.1g 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
1: 576.7m 2.1g 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
2: 611.3m 2.1g 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
3: 613.6m 2.1g 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
此命令會顯示所有連接埠的錯誤摘要。
每個連接埠會顯示一行輸出,並將錯誤計數器顯示為數個、數千個 (數字後面接 k) 或數百萬個 (數字後面接 m)。
Cause
N/A
Resolution
Frames tx
傳送的訊框:連接埠傳送的訊框數目。此為統計資料數目,可提供錯誤計數器的基準。
Frames rx
收到的訊框:連接埠傳送的訊框數目。此為統計資料數目,可提供錯誤計數器的基準。
Enc in
訊框內編碼錯誤:(RX)。訊框邊界內發生的 8b/10b 編碼錯誤數目。這個計數器通常為零值,但是正常連結可能發生偶爾出現錯誤的情況,並提供非零值的結果。在連續接收訊框的連結上,連結-位元錯誤率規格的最小相容性在 1 Gb/s 的速率下,大約每 20 分鐘允許一次錯誤。關聯的 Nx 連接埠重新初始化和重新開機也可能會導致這些錯誤。這些錯誤是 LLI 錯誤的總和。
Crc err
有循環冗餘檢查錯誤的訊框:(RX) 循環冗餘檢查失敗的訊框數目。循環冗餘檢查 (CRC) 是一個四位元組欄位,應立即接著資料欄位後,並應用於驗證訊框標頭和資料欄位的資料完整性。SOF (= 訊框開始) 和 EOF (= 訊框結束) 分隔符號不應包含在 CRC 驗證中。CRC 欄位應在編碼傳送之前,以及在接收時解碼之後,於訊框標頭和資料欄位上進行計算。CRC 欄位應對齊一個字邊界。為了進行 CRC 運算,對應到傳送的第一個位元的文字對齊四位元組欄位的位元是最高順序位元。記下但不會修改 CRC 失敗的訊框,且目的地裝置負責拒絕及/或重新要求訊框。從統計數字來看,單就 enc out 錯誤而言代表纜線問題,而 enc out 和 crc err 組合則代表 GBIC 或 SFP 問題。這些錯誤是 LLI 錯誤的總和
crc g_eof
收到含良好 EOF (訊框結束) 的 CRC。(Rx)。偵測到含良好 EOF 的 CRC 時,交換器會增加 crc g_eof 計數器,它會標記訊框,使其他連接埠無法計入此 CRC 訊框並將其轉送。
這可讓含良好 EOF 的 CRC 訊框快速追蹤至來源連接埠。
Too short
「太短」計數器是一個錯誤統計資料計數器,每當收到由 SOF (訊框開始) 和 EOF (訊框結束) 綁定的訊框時便會增加,且 SOF 和 EOF 之間的字數少於 7 個字 (6 字標頭加上 1 字 CRC),亦即 38 位元組 (非 48),包括 SOF 和 EOF。這可能是由傳送器或不可靠的連結所造成。資料訊框大小為 0 到 2112 的變數。這些錯誤是 LLI 錯誤的總和
Too long
訊框超過上限:超過訊框大小上限的訊框數量 (36 位元組 + 資料訊框大小)。資料訊框大小為 0 到 2112 的變數。這些錯誤是 LLI 錯誤的總和。FC 訊框上限為 2148 位元組。如果 EOF 已損毀或資料產生不正確,則會產生過長的錯誤。
Bad eof
訊框含不良的訊框結束分隔符號:訊框結束 (EOF) 分隔符號是緊接在 CRC 之後的一個順序組對。在同步中斷錯誤後,連續模式對齊可讓接收器在接收器運作時,在傳入位元串流的任何點重新建立文字對齊。此類重新對齊可能 (但不保證) 會導致程式碼違規和後續的同步中斷。在某些情況下,您可以重新對齊傳入的位元串流,而不會同步中斷。如果在收到的訊框內進行此類重新對齊,則產生的錯誤狀況偵測取決於較高層級的功能 (例如無效的 CRC、遺失 EOF 分隔符號)。
EOF 分隔符號應指定訊框內容的結尾,之後接續閒置。EOF 分隔符號分為三類。分隔符號的一個類別應指出,從傳送者的角度來看訊框為有效,而從接收者的角度來看為可能有效。第二個類別應表示訊框內容有效。此類別應僅可由接收完整訊框並解碼的 F 連接埠使用,然後再將該訊框轉送至其他目的地。第三個類別應表示訊框內容已損毀,且訊框在傳送過程中遭到截斷。第三個類別應由 N 連接埠和 F 連接埠使用,以表示內部故障,例如傳送器故障,這會造成不允許正常傳送整個訊框。這些錯誤是 LLI 錯誤的總和。
enc out
8 位元/10 位元編碼錯誤在 FC 訊框外的文字 (順序組對) 中發生。訊框外部的文字會編碼,如果此編碼已損毀或偵測到錯誤,則會產生 enc out。
訊框外部的編碼錯誤:訊框邊界外發生的 8b/10b 編碼錯誤數目。此計數器在連結初始化期間可能會變成非零值,但如果其增量速度快於允許的連結-位元錯誤率 (1 Gb/s 每 20 分鐘一次),就表示有問題。這是由原始順序損毀所導致,也就是:LIP f7,f7。
注意: 每次使用者透過重新啟動主機來關閉和啟用連接埠、執行儲存子系統的電源週期、拔下和/或重新連接纜線,或叫用 portDisable/portEnable 命令時,預期都會出現 loss sig、loss sync 和 enc out 錯誤。同樣重要的是,這些錯誤也會增加,而 2GBit 交換器則會交涉至其連接裝置的連線速度,請記住這一點。從統計數字來看,單就 enc out 錯誤而言代表纜線問題,而 enc out 和 crc err 組合則代表 SFP 問題。這些錯誤是 LLI 錯誤的總和。
Disc c3
Class 3 捨棄訊框的數目 (Rx)。計數器包含 portstatshow 命令所回報的下列 C3 捨棄計數器總和:
er_rx_c3_timeout, er_tx_c2_timeout, er_c2_dest_unreach, and er_other_disc
當裝置傳送訊框時先不使用 FLOGI 或使用無效目的地時,交換器可能會產生捨棄 Class 3 錯誤。此錯誤回報發生此類捨棄。
由於逾時或目的地無效或無法連線,此時可以捨棄 Class 3 訊框。此計數器會在正常運作時增加。它也可以用來顯示連接埠壅塞的效果,表示來自連續 S-ID 和 D-ID 的良好訊框不是直接連接埠對連接埠路由,而是透過內部連接埠路由例外訊框 (通常不應該發生在 ASIC 上的連接埠對連接埠路由,但是當 D-ID 連接埠出現緩充已滿狀況且無法接受任何更多訊框時,則會發生此情況)。此外,如果因 ISL 工作負載高而封鎖目的地 (亦即:長時間 BB 信用緩充區 = 0),可能會造成緩充已滿狀況,因此 S-ID 連接埠 (在極端情況下) 可能會遇到逾時狀況,因此 disc c3 計數器將會增加。這些錯誤是 LLI 錯誤的總和。
一些其他資訊:連接埠一次只能收到一個訊框 (在 xWDM 連線範圍之外,無法同時在光纖纜線上發出 2 次光脈衝)。因此,如果兩個光源嘗試共用一個連接埠,則必須使用仲裁演算法,其中一個光源先通過,而第二個則等待其回合。第一個來源完成時,即允許第二個來源通過。這表示來源只能以 50% 的使用率執行 (或相同的忙碌和就緒時間)。如果來源能夠以 D-ID 的速度串流資料 (這是目前許多 HBA 的作法),則另一個同樣快速的 HBA 進行任何嘗試時,將會導致效能降低 50%。
er_unreachable 為記錄的捨棄,因為無法到達目的地或因目的地上的裝置離線/上線。
er_other_disc 為實際的捨棄,不屬於其他任一定義的捨棄訊框類別。根據 Brocade,這些並不重要,而且不會對效能造成任何影響。
Link fail
連結失敗 (LF1 或 LF2 狀態):連接埠達到 Link fail1 和/或 Link fail 2 狀態的次數。已接收 (Rx)。如果連接埠保持在 LR 接收狀態的期間超過逾時期間 (R_T_TOV),則應偵測到連結重設通訊協定逾時,這會導致連結失敗狀況 (進入 NOS 傳送狀態)。
連結失敗也表示未處於離線狀態時,訊號中斷或同步中斷時間比偵測到的 R_T_TOV 值更久
Loss sync
同步中斷:同步中斷的次數。位元或傳送字邊界上的同步失敗無法個別識別,並導致同步中斷錯誤。
注意: 每次使用者關閉和啟用連接埠 (透過重新啟動主機、執行儲存子系統的電源週期、拔下和/或重新連接纜線,或叫用 portDisable 或 portEnable 命令) 時,預期都會出現「loss sig」、「loss sync」和「enc out」錯誤 loss sig = 訊號中斷:訊號中斷的次數。當作業接收器識別到訊號中斷狀況時,應輸入 Loss-Of-Synchronization 狀態 (如果該狀態中沒有接收器)。接收器應保持在此狀態,直到發生下列其中一種情況:訊號中斷狀況已修正,且已重新進行同步或重設接收器。
Loss sig
收到訊號中斷的次數,這會在已傳送訊號,但相同連接埠未收到任何訊號時發生。
frjt
F_RJT 拒絕的訊框:網狀架構連接埠拒絕訊框的數目。這表示訊框的交付遭拒。發出 F_RJT 的部分原因包括:不支援的類別;無效的標頭欄位;和 N 連接埠無法使用。
fbsy
如果網狀架構無法在 E_D_TOV 訊框內提供 Class 2 訊框,則會遭捨棄,並傳回 F_BSY。(Tx) 忙於 F_BSY 的訊框:網狀架構連接埠忙碌的訊框。網狀架構會發出此訊框,表示無法提供特定指定項目,因為網狀架構或目的地的 N 連接埠處於忙碌狀態。
c3-timeout tx
傳送連接埠上因逾時而捨棄的傳送 class 3 訊框數目 (平台和連接埠專屬)。
c3-timeout rx
在此連接埠收到並因逾時在傳送連接埠捨棄的接收 class 3 訊框數目 (平台和連接埠專屬)。
pcs err
Physical Coding Sublayer (PCS) 區塊錯誤的數目。此計數器會記錄 10 Gbps 或 16 Gbps 連接埠的編碼違規情形。
在 porterrshow ER_PCS_BLK 計數器中,這僅適用於支援 10 Gbps 或 16 Gbps 連接埠的平台 (6505/6510/6520/DCX-8510),並導入了 Condor3 ASIC (GEN5 平台)。此計數器與 8 GB 和/或 4GB 連結的 enc_out 相當,僅適用於 10 GB 和 16 GB 速度。
10 GB 和 16 GB 連結使用 64 B 或 66 B 編碼,而非用於資料傳送的 8 B 或 10 B,而「pcs err」(=er_pcs_blk) 計數器則記錄在解碼期間偵測到的 10 Gbps 或 16 Gbps 連接埠上的編碼違規情形。
uncor err
無法修正的 forward error corrections (FEC) 數目。
請參閱此影片:
最常見計數器的 BROCADE 範例。
範例 1 包含 LINK FAIL 以及 LOSS SYNC 的 ENC OUT:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 4 6 0 0 0 0 0 0
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。請清除連接埠統計資料 (https://support.emc.com/kb/304525),並在 4 至 6 小時後重新取得資料。
從錯誤中,我們可以看到 link fail 和 loss of sync 以及 enc out 錯誤,這些也可能包括 loss sig 錯誤。
這些錯誤的組合通常表示主機重新開機,或是交換器外部的連結重設。在進行速度交涉時會造成 enc out 錯誤,這屬於連結初始化的過程。
預期動作:
確認連接至連接埠的裝置有合理的離線/連線理由,亦即主機重新開機。如果沒有,請提出 SR。
範例 2 ENC OUT:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 2.3m 0 0 0 0 0 0 0 0 0
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。清除連接埠統計資料 (https://support.emc.com/kb/304525),並在 4 至 6 小時後重新取得資料。
未發生任何相關錯誤的 Enc out 錯誤表示纜線有髒汙。
預期動作:
檢查並清潔纜線上的所有光纖表面,以及連接至此連接埠和連接裝置的 SFP。
範例 3 CRC 和 CRC G_EOF:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 1.2k 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。清除連接埠統計資料 (https://support.emc.com/kb/304525),並在 4 至 6 小時後重新取得資料。
訊框正在以損壞的 CRC 進入交換器連接埠,但訊框結束仍標示為良好。
這表示這是第一個註冊損壞訊框的連接埠,因此問題在於此特定連接埠上的 SFP / 纜線 / 連接裝置介面。
預期動作:
請參閱解決方案中的預設動作。
如果是 ISL 連接埠,請使用
statsclear 和
slotstatsclear 命令清除統計資料,等待 4 至 6 小時,從兩台交換器收集
supportsaves 並開啟 SR 以進行一般故障診斷。
範例 4 CRC:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 1.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。清除連接埠統計資料 (https://support.emc.com/kb/304525),並在 4 至 6 小時後重新取得資料。
連接埠正在記錄以損壞的 CRC 訊框進入交換器的訊框,但訊框已標示為損壞。通常會在 ISL 和 NPIV F 連接埠上看到此資訊。
預期動作:
如果 NPIV 連接埠上記錄 CRC 錯誤,請由維護供應商調查該裝置!
針對 ISL 連接埠,請檢查光纖中的所有連接埠,是否有任何連接埠記錄 crc g_oef 以及範例 3 中的動作。
範例 5 PCS 包含 LINK FAIL 和 LOSS SYNC 的 ERR:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 4 4 0 0 0 0 0 466
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。清除連接埠統計資料 (https://support.emc.com/kb/304525),並在 4 至 6 小時後重新取得資料。
這僅適用於支援 10 Gbps 或 16 Gbps 連接埠的平台 (6505/6510/6520/DCX-8510),並導入了 Condor3 ASIC (GEN5 平台)。ER_PCS_BLK 顯示 Physical Coding Sublayer (PCS) 區塊錯誤的數目。此計數器與 8 GB 或 4 GB 連結的 enc_out 相當,僅適用於 10 GB 和 16 GB 速度。
從錯誤中,我們可以看到 link fail 和 loss of sync 以及 pcs err 錯誤,這些也可能包括 loss sig 錯誤。
這些錯誤的組合通常表示主機重新開機,或是交換器外部的連結重設。
在連結初始化過程中,進行速度交涉時造成 pcs err 錯誤。
預期動作:
確認連接至連接埠的裝置有合理的離線/連線理由,亦即主機重新開機。如果沒有,請提出 SR。
範例 6 PCS ERR:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 466
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。清除連接埠統計資料 (https://support.emc.com/kb/304525),並在 4 至 6 小時後重新取得資料。
未發生任何相關錯誤的 PCS ERR 錯誤表示纜線有髒汙。
預期動作:
檢查並清潔纜線上的所有光纖表面,以及連接至此連接埠和連接裝置的 SFP。
範例 7 C3timout PLUS Disc c3:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 2.4k 0 0 0 0 0 2.4k 0 0
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。清除連接埠統計資料 (https://support.emc.com/kb/304525),並在 4 至 6 小時後重新取得資料。
C3TIMEOUT 捨棄,顯示訊框是在此連接埠捨棄,預設逾時為 500 ms。
TX - 無法從此交換器連接埠傳送訊框。
RX - 交換器連接埠不接受訊框,並在預設逾時 500 ms 時捨棄。
預期動作:
這些錯誤表示光纖或連接裝置可能發生效能問題,請參閱 KB 文章:
464206:
SAN 中的效能問題。(緩慢排空、壅塞、超載。)
和
464027:
Connectrix:壅塞傳播知識圖
作為調查的起點。
範例 8 Disc c3:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err
xx: 849.1k 493.2k 0 0 0 0 0 0 0 2.4k 0 0 0 0 0 0 0 0
一般原因:
僅在連接埠統計資料已在過去 24 小時內清除時有效。否則,請將這些歸類為歷史計數器。清除連接埠統計資料 (https://support.emc.com/kb/304525),並在 4 至 6 小時後重新取得資料。
累積捨棄的「無法連線」、「其他」或「無法路由」訊框。(如需捨棄的詳細資料,請參閱命令 portstatsshow 輸出。)
預期動作:
自行捨棄 C3,一般不會對 SAN 造成任何影響。
範例 9 Uncorr err:
porterrshow :
CURRENT CONTEXT -- 3 , 111
frames enc crc crc too too bad enc disc link loss loss frjt fbsy c3timeout pcs uncor
tx rx in err g_eof shrt long eof out c3 fail sync sig tx rx err err
xx: 1.1g 468.4m 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 48
FEC 未修正的區塊計數
如果隨附任何 CRC、enc_out、bad eof (pcs err) 錯誤,可能會分別影響資料訊框和順序組對 (因此可能會遺失 r_rdy,導致信用耗盡)。請遵循針對這些錯誤建議的活動操作。
如果兩者皆未增加,未修正的錯誤雖會產生最小效果,但也代表連結並非沒有錯誤,因此可能會出現纜線或 SFP 問題。
如果僅出現 uncorr err,則第一步應先測試纜線並清潔連接器。
Affected Products
Connectrix
Products
Connectrix, Connectrix DS-300B, Connectrix DS-5100B, Connectrix DS-5300B, Connectrix DS-6505B, Connectrix DS-6510B, Connectrix DS-6620B, Connectrix ED-DCX6-4B, Connectrix ED-DCX6-8B, Connectrix ED-DCX8510-4B, Connectrix ED-DCX8510-8B
, Connectrix MP-7500B, Connectrix MP-7800B, Connectrix MP-8000B
...
View More
View Less