「VPNソリューションパック バックアップオプション」をご利用中のお客様で
バックアップが切り替わらない というトラブルがありました。
その時の環境としては
A拠点
は回線を2重化して、バックアップ側の回線はアクトスタンバイ
B拠点
は回線は1本。回線のバックアップなし。
通常時は
A拠点のメイン回線 と B拠点の回線 でVPN接続
A拠点メイン回線障害時に
A拠点バックアップ回線 と B拠点の回線でVPN接続
A拠点のメイン回線が復旧すれば、通常時の状態に自動的に復旧
という環境・VPN構成なのですが
ある日
①A拠点のメイン回線で障害発生(回線故障)
↓
②A拠点バックアップ回線が接続。
B拠点は、自動的にA拠点のバックアップ回線とVPN接続開始
とここまでは良かったんですが
③A拠点のメイン回線復旧するも、VPN接続できず。
ということが起きてしました、、、、
ログを解析してわかったのは
実は①~③までの間の時間が非常に短かったこと(2分程度で復旧)
そのため、それぞれのルータが以下のような状態になっていたことです。
◆A拠点側のルータとしては
メイン回線切れちゃった。
→仕方ないからメイン回線のVPN接続を切って、バックアップ回線でVPN接続できるように準備しよう!
→あれ?もうメイン回線復旧しちゃった。じゃあメイン回線でVPN接続できるように準備しよう。
→ん?なかなかB拠点側がVPN接続しにこないなぁ。。。。。
となっていて
◆B拠点側のルータとしては
A拠点側でメイン回線の障害を発見!
→ よし!A拠点のバックアップ回線のほうにVPN接続しよう!
→と思ったら、メイン回線問題なさげ?
メイン回線障害じゃなかったぽいんで、今繋がっているままでいいや
ということのようです。
A拠点側は、つなぎ来ることを待っていて、
B拠点側は、接続したままで問題ないと思っている。
状態ですね、、、
そこで今回の対策としては、それぞれルータの「思い違い」がないように
対抗拠点の障害検知のトリガー
VPNの切断、および接続のタイミング
の見直しを行いました。
自社の検証環境で試しましたが、より確実に切り替わることを確認。
実際のお客様の環境でも反映させ、今回の対応としは終了となりました、、、
お客様には大変ご迷惑をおかけしまして申し訳ありませんでした。
サービスリリース前の検証の段階で、いろんな状況を想定して検証をし
問題なく提供できる調整をしていたつもりですが、
もうちょっとメイン回線の障害の時間が長かったり、逆にもうちょっと短ければ
起きなかったはずの、ちょうどピンポイントで嵌ってしまった障害でした。。。。