未解決
Community Manager
•
3.1K メッセージ
0
422
【Coffee Break】自動通報でService Request(SR)が作成される場合、されない場合
この投稿は「ちょっとしたストレージ関連技術のTIPSを思いついたら書いてみる」というコンセプトで、デル・テクノロジーズ社内のTeamsグループ/チームでゆる~く運営されている「Coffee Break」からの情報抜粋です。今回は元VxRailサポートチームのエース(現在は異動しています)からの投稿です。
多くの製品は自動通報でSRを作成する機能がありますが、SRが作成されないこともあります。
どのような場合にSRが作成されないのでしょうか?
それを知るためには自動通報でSRが作成されるまでの流れを理解する必要があります。
以下はVxRailの場合のフロー概要になりますが、ほとんどの製品で同じようなフローになっているはずです
- 障害が発生
- 管理サービスが障害を検知し、障害に対応するEventを生成
- 管理サービスがSRS接続性有無と正常性を確認
- 生成されたEventと、自動通報対象Eventリストと照合
- 対象Eventの場合はEvent送信フィルタールールを適用
- フィルターされなかった場合はSRS VEへ通報リクエストを送信
- SRS VEは、 受信したリクエストを暗号化してInternet 経由でDell EMC Backendに送信
- Dell EMC Backend サーバで暗号化を解除
- Dell EMC Backend サーバで該当のEventに SR作成フィルタ-ルールを適用する
- フィルターがされなければSRが作成される
障害が発生したのにSRが作成されなかった場合、ほとんどのケースで以下の3つに大別できます。
①SR作成条件を満たさないEventだった
②作成条件を満たしていたが経路上でDropした
③自動通報機能のバグ
①の代表的な例は、上記フロー4,5,9の対象Eventリストやフィルタールールで除外されてしまうケースです。
製品側で実施されるフロー4,5と、Dell EMCイントラで実施されるフロー9を比較した場合、多くの場合はフロー9のフィルタールールが支配的に結果に影響します。
このフィルタールールはDell EMC イントラで管理されていますが基本的に外部には非公開です。しかし、フィルタールールの適用結果は確認することができますので、自動通報が飛んだがイントラサーバでフィルターされた事実を確認することは可能です。
上記以外で①に該当するケースとして、障害に一致するEventが存在しなかった場合があります。
具体例を挙げると、VxRailの古いVersionにおいては、Node Missing という状態に一致するEventがそもそも定義されていませんでした。
そのためEventが生成されないため、GUI上で不具合が明白なのに自動通報されないということがおこります
次に、「②作成条件を満たしていたが経路上でDropした」についてですが、これは自動通報という仕組みが本質的にEnd to End での送信完了を保証できるデザインになっていないことに起因します。
つまり、製品側の管理サービスが、送信したEventがDell EMC イントラに届いたかどうかを確認するすべがないということです。テクニカルサポートチームが、自動通報機能はベストエフォート型として説明するのはこのためです。
したがって、製品側は正常に送信処理を完了したが、経路上のSRSVEの動作不良で飛ばない、ということもありますし、お客様やISPの提供するネットワークの問題で飛ばないこともあります。(イントラサーバ側のメンテナンスで受信できなかった、なんてことも)
あと、盲点になりやすい性質として、自動通報機能自体が障害の影響を受け、正常に動作できない場合がある、ということです。
たとえば、管理サービスのメモリリークや、管理領域のDisk Full が発生した場合や、管理サービス自体が再起動をしてしまった場合などが該当します。
StorageがDUになった結果、その上で動作していたSRSや管理VMなどが停止してしまい、重大障害を自動通報できないケースも存在します。
このようにすべてが仕様通りにバグなく動作したとしても自動通報が飛ばない、SRが作成されないというケースはあり得ます。
この性質について公開資料では以下のように表現されています。
2.本サービスは、DellEMCシステム装置内の障害情報を自動でデル・テクノロジーズに通報することにより、結果として顧客のDell EMCシステム装置の障害修復時間の短縮、また信頼性や可用性の向上等を目的としているが、顧客からの全ての障害連絡の代わりを行うものではない。
https://www.delltechnologies.com/asset/ja-jp/services/support/legal-pricing/esrs-cra-tcrs.pdf
自動通報機能を利用している場合であっても、お客様による監視が不要となるわけではなく、必要な部分をお互いに補完しあい、出来るだけ早急に問題対応を開始できるように協力体制を作っていけることが大事だと思います。