Skip to main content
  • Place orders quickly and easily
  • View orders and track your shipping status
  • Enjoy members-only rewards and discounts
  • Create and access a list of your products

Connectrix Bシリーズ スイッチ:FOS-849642の欠陥 & FOS-847091 - Gen 7ダイレクターとスイッチで、CRCエラー、ポート障害、またはシステム停止再起動を引き起こす障害状態が発生する可能性がある

Summary: 第7世代のダイレクターおよびスイッチ(X7-8、X7-4、7730、7720)で、9.1.xより前の任意のバージョンのFabric OS(FOS)v9.1.xを実行 v9.1.1cまたはFOS v9.2.0で実行されている場合、CRCエラー、ポート障害、または のオーバーサブスクリプション管理動作の重大な輻輳とアクティブ化に対応して、システム停止による再起動を実行します。 Traffic Optimizer機能 欠陥FOS-849642 & FOS-847091 これらの2つの欠陥は、FOS v9.1.1cおよびv9.2.0aで修正されます。この認定を保留すると、影響を受けるお客様は回避策の実装を選択できます。 ...

This article applies to   This article does not apply to 

Symptoms

影響を受ける
製品FOS v9.1.xまたはFOS v9.2.0を実行しているBrocade X7-8、X7-4、7730、7720
は、リリース
Brocade FOS v9.1.1c、v9.2.0a以降のバージョン

でのみ危険にさらされています。
FC64-48および/またはFC32-X7-48ポート ブレードが取り付けられているGen 7ダイレクター(X7-8およびX7-4)は、オーバーフローエラーと「検証」エラーの両方が発生するリスクがあります。Gen 7ダイレクターに取り付けられているFC32-64およびFC32-48ポート ブレードでは、どちらの障害も発生するリスクはありません。
Gen 7スイッチ(G730およびG720)は、バッファ オーバーフローの障害が発生するリスクがあります。これらのスイッチは、「検証」エラーの障害状態にさらされることも、発生するリスクもありません。
さらにリスクにさらされるには、ファブリックで深刻な輻輳が発生し、Traffic
Optimizerによるオーバーサブスクリプション管理が発生する必要があります。このレベルの応答が発生した場合は、次のRASlogメッセージが表示されます。
[TO-1006]、1011618/1002267、FID 128、INFO、Switch_100、dev02デバイス宛てのフローは、PG_OVER_SUBSCRIPTION_4G_16G PG., cfs_ctrlr.c,行に移動されました。1470、comp:cfsd、ltime:2023/05/17-06:15:33:923058
Traffic Optimizerによるオーバーサブスクリプション管理アクションは、FOS v9.1.xファームウェアにのみ存在します。FOS v9.0.xで実行されているGen 7製品
は、いずれの障害状態にも影響しません。


バッファー オーバーフロー障害のリスク条件
バッファ オーバーフロー状態が発生するには、重大な輻輳の期間が必要になるだけでなく、Gen 7
ダイレクターまたはスイッチのFポートもデフォルト値からより多くのバッファに構成されている必要があります。FOSはデフォルト
で最大28個のバッファを割り当てます。
最大F-Portバッファ数がFOSによって
使用されるデフォルト値を超えて増加したGen 7ダイレクターまたはスイッチはリスクにさらされる可能性があります。また、以前にFOS v9.0.xを実行していたX7-8またはX7-4ダイレクターは、「検証」エラーが発生する
リスクにさらされる可能性があります。どちらの場合も、Traffic Optimizerは、重大な輻輳の期間中に発生したオーバーサブスクリプション イベントに応答して
、フレームのルーティングを管理する必要もあります。

リスクのあるダイレクターとスイッチを特定するには、「portbuffershow」コマンドを使用してバッファー使用率
image.png
を表示します。同じASIC/チップ上のポートのすべてのバッファー使用量の合計が256個を超えるバッファーを合計すると、Gen 7スイッチは、トラフィック オプティマイザーからのオーバーサブスクリプション管理が必要な重大な輻輳イベントが発生するリスクがあると見なされます。この障害は、すべてのオーバーサブスクリプション管理イベントで発生するわけではありません。これは、イベント発生時に管理されるバッファの数が256を超える必要がある一方で、Traffic Optimizerがオーバーサブスクリプションを管理している一方で、256を超えるバッファを処理するように構成されていると、スイッチがリスクにさらされる可能性があるためです。
上記の出力例では、8個のFポートがすべて1つのゾーンにある場合、スイッチはフレーム
バッファー オーバーフローに遭遇するリスクがあります。一方、Traffic Optimizerはオーバーサブスクリプション状態を管理しています。この例のバッファーの総使用量は360です。
ただし、Fポートがすべて一緒にゾーニングされていない次の例では、2つのゾーン(緑色で表示)それぞれ最大232個のバッファと128個のバッファがあるため、このスイッチはリスクにさらされません。
image.png
オーバーサブスクリプション管理に使用されるポートの最大数は8ポートです。8個を超えるポートが同じASIC/チップからゾーニングされている場合は、合計8個のポートとバッファー使用率の最大値を合計してリスクを判断します。

メモ:F-Portバッファ数をデフォルトから変更したことがないGen 7ダイレクターおよびスイッチは、このフレーム バッファ オーバーフローの問題が発生するリスクはありません。Max/Reserved Buffersのデフォルト設定として使用される最大値は、Gen 7製品では28ですが、スイッチのタイプと光ファイバー速度に応じて割り当てられるバッファは少なくなります。最大/予約バッファー数をデフォルトから増やしたことがないお客様
は、バッファー オーバーフロー
の問題が発生しません。8個のポートをまとめてゾーニングした場合でも、ポートあたり最大デフォルト割り当て28個のバッファを使用すると、最大バッファー使用率の
合計値はわずか224フレームです。

障害リスク条件の
「検証」X7-8およびX7-4ダイレクターは、バッファ オーバーフローの問題に加えて、次の条件がこの順序で満たされている場合にエラー メッセージを「検証」するリスクにさらされる可能性もあります。
  • 以前にFOS v9.0.xで実行されていたX7-8またはX7-4ダイレクター
  • その後、ダイレクターはFOX v9.1.xにアップグレードされます。
  • ダイレクターには、v9.1.xバージョンでログアウトしてログインするFポートがあります。
  • ダイレクターは、Traffic Optimizerからの管理を必要とするオーバーサブスクリプション イベントを検出します。
  • その後、ダイレクターはHAフェールオーバーを実行します(ファームウェア のアップグレードによってフェールオーバーが発生します)。
  • ダイレクターが、Traffic Optimizerからの管理を必要とする別のオーバーサブスクリプション イベントを検出する 
指定された順序でこれらの条件をすべて満たすX7-8またはX7-4ダイレクターは、Traffic Optimizerからのオーバーサブスクリプション管理中に「検証」エラーが発生するリスクにさらされる可能性があります。
  • FOS v9.1.xファームウェアでのみ実行されたX7-8またはX7-4ダイレクターは、すべてのポートでv9.1プログラミング モデルのみが使用されているため、「検証」エラーが発生するリスクはありません。この問題の影響を受けやすいために、Gen 7ダイレクターは以前にFOS v9.0.xで実行していた必要があります。
  • FOS v9.1.xファームウェアで実行中にコールド ブート/パワー サイクルされたX7-8またはX7-4ダイレクターも、すべてのポートが再起動後にv9.1プログラミングを使用するため、「検証」エラーが発生するリスクはありません。

症状
オーバーサブスクリプション管理イベントが発生したGen 7ダイレクターとスイッチは、次
の Traffic Optimizer RASlog を観察します。
[TO-1006]、1011618/1002267、FID 128、INFO、Switch_100、b1a02デバイス宛てのフローが、PG_OVER_SUBSCRIPTION_4G_16G PG., cfs_ctrlr.c,行に移動されました。1470、comp:cfsd、ltime:2023/05/17-06:15:33:923058
これらの特定された問題が原因で発生する可能性のあるその他の症状は、次のとおりです。
  • リンク上のCRCエラーの数が多く、光ファイバー/ケーブルの交換で修正されていない可能性がある
  • フレームは破棄される可能性があり、リンク上のクレジットが失われる可能性がある
  • ポートに障害が発生している可能性があり、ASICが停止して障害が発生する可能性がある
  • ダイレクターが予期しないHAフェールオーバーまたはダイレクターのコールド リスタートを観察する場合がある
  • スイッチがコールド リスタートを観察する場合がある

Cause

特定の条件下での Traffic Optimizer 機能によるオーバーサブスクリプション管理は、管理されているフレームまたはポートの転送に影響を与える障害シナリオ
を引き起こす可能性があります。重大な輻輳シナリオでは、これらの障害がスイッチ上でアクティブな他のファブリックOS(FOS)デーモンのパフォーマンスにも
影響を与え、ソフトウェア ウォッチドッグタイムアウト
の結果、HAフェールオーバーまたはスイッチ パニックが発生する可能性があります。

重大な輻輳イベントに対応してオーバーサブスクライブされたフローを管理および再ルーティングしようとすると
、フレーム バッファのオーバーフローが発生するGen 7ダイレクターおよびスイッチ(X7-8、X7-4、7730、7720)は、予期しないエラーを引き起こす可能性があります。オーバーサブスクリプション処理の管理に使用されるバッファをオーバーランするフレームの数が多い場合
、Traffic Optimizerの処理中にこれらの余分なフレームが欠落する可能性があります
。これらの余分なフレームは、フレームCRCエラーにつながる他のフレーム
によって上書きされる可能性があります。また、ヘッダー情報が上書きされた場合は、ポート障害が発生する可能性があります。深刻な輻輳シナリオでは、これらのオーバーフロー/超過フレームを管理すると、他のFOSデーモンがブロックされ、ウォッチドッグ タイムアウトが発生する可能性
があります。タイムアウトする重要なデーモンは、HAフェールオーバーまたは中断スイッチの再起動を引き起こします。

フレーム オーバーフロー処理の可能性に加えて、以前はFOS v9.0.xで動作していたX7-8およびX7-4ダイレクターは、HAフェールオーバー後にFOS v9.1.xにアップグレードした後に検証エラーが発生する可能性があります(ファームウェアをv9.1.xの上位バージョンにアップグレードした場合を含む)。v9.1.xで一部のポートがリセットされたときに作成されたポートのプログラミングで競合が検出されたため、Traffic Optimizerによるオーバーサブスクリプション管理中に複数の「検証」エラー メッセージが表示されます。v9.0.x以降ではリセットされなかったポートでの輻輳管理プログラミング間の競合が発生し、その後、HAフェールオーバー イベントの後にリセットされたv9.1.xのポートで輻輳管理が発生する可能性があります。

Resolution


回避策」リスクにさらされている」ダイレクターとスイッチは、Traffic Optimizerのオーバーサブスクリプション管理アクションを無効にすることができます。
メンテナンス アカウントから次のCLIコマンドを発行して、Traffic Optimizer内のオーバーサブスクリプション
管理アクションの動作を無効にします。
maintenance> serviceexec trafoptdebug --enableosclassification 0
メモ: メンテナンス コマンドは、シャーシ内のすべての論理スイッチで実行する必要があります。
メモ:この設定は、フェールオーバーと電源サイクル

の対応処置
にわたって維持されます。FOS v9.1.1c以降で提供されるソフトウェア ソリューションは、これらの障害を防ぎます。同じソリューションは、FOS v9.2.0a以降のバージョンのFOS v9.2.xでも提供されます
。これらのバージョンのFOSにアップグレードすると、オーバーサブスクリプション管理によるフレームの
オーバーランが防止され、X7ダイレクターの「検証」エラーも防止されます。

Gen 7ダイレクターまたはスイッチ(X7-8、X7-4、7730、7720)でまだバージョンのFOS v9.0.xを実行しており、「リスクにさらされている」
可能性がある場合は、FOS v9.1.1cのリリースを待ってからアップグレードすることをお勧めします。

v9.1.xまたはv9.2.0リリースで現在動作しており、リスク
があると判断されたGen 7ダイレクターとスイッチは、回避策を実装する必要があります。Traffic Optimizerのオーバーサブスクリプション管理アクションを非アクティブ化すると、バッファ オーバーランと「検証」エラーの両方が発生するのを防ぐことができます
。v9.1.1cまたはv9.2.0aにアップグレードした後、次のコマンド
を使用してオーバーサブスクリプション
管理アクションを再度有効にすることができます。 メンテナンス アカウントから次のCLIコマンドを発行して、Traffic Optimizer内のオーバーサブスクリプション管理アクションの動作を再度有効にします。
maintenance> serviceexec trafoptdebug --enableosclassification 1
メモ: メンテナンス コマンドは、シャーシ内のすべての論理スイッチで実行する必要があります。

「バッファ オーバーフロー」障害がすでに発生しているGen 7ダイレクターまたはスイッチは、障害状態から完全にリカバリーするためにコールド リスタート
を実行する必要があります。
取締役:影響を受けるポート ブレード
スイッチのスロット電源オフ/オン: スイッチの再起動(コールド リスタート)
オプション1: 上記の再起動アクションを実行し、回避策を実装して、Traffic Optimizer
オプション2からオーバーサブスクリプション管理アクションを無効にします。ソリューションを使用してFOSのバージョンにアップグレードし、上記の再起動アクションを実行します。

提供されたソリューションを使用してFOSのバージョンにアップグレードすると、「バッファー オーバーフロー」障害が発生するのを防ぐことができますが
、障害状態が発生すると、ASICのコールド リスタートのみが障害状態を解決します。
提供されたソリューションを使用してFOSのバージョンにアップグレードすると、それ以上のアクションを実行せずに「検証」エラー
状態が防止され、自動的にリカバリーされます。

ソリューションを含むFOSのバージョンにアップグレードした後、ダイレクターまたはスイッチで以前に障害が発生したかどうかを判断するために内部メモリーのチェックが実行され、エラー状態から回復するために再起動が必要になります。
次のRASlogは、FOSをソリューションのバージョンにアップグレードした後に障害状態が検出された場合に表示されます。
2023/06/01-17:07:50(GMT)、[C5-1057]、5、SLOT 2 |シャーシ、重要、Switch_3、
S10、C0: HW ASICチップが一貫性のない状態にある = 0x1002。
FOSのアップグレード後に上記のRASlogが観察された場合、ダイレクターまたはスイッチはアップグレード前に「バッファー
オーバーフロー」エラーが発生しており、障害状態から完全にリカバリーするにはコールド リスタートを実行する必要があります。
取締役:影響を受けるポート ブレード
スイッチのスロット電源オフ/オン: スイッチの再起動(コールド リスタート)

Affected Products

Connectrix DS-7720B, Connectrix DS-7730B, Connectrix ED-DCX7-4B, Connectrix ED-DCX7-8B