0

ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン

時系列

2016/03/22

03:44am 4台あるDBのうち、1台が停止(3台運用)
08:22am 残り3台が停止(4台全てが停止)
08:59am 1台が再起動。DBを複数台起動すると不安定になる状態が継続
09:27am DB1台での縮退運転決定。空港の自動チェックイン機や係員が使う端末の再開に向けた準備と確認を実施、段階的に搭乗手続きを再開
11:30am 搭乗手続き業務が通常状態に戻る
00:46pm 予約販売業務機能が復旧
08:10pm 国内線インターネットサービスが復旧

2016/03/23

01:14am ネットワーク中継器を交換
03:05am DBを通常構成4台に戻す
04:14am 国内システムに接続する全端末および他システムとの接続を再開、全サービス復旧
ana
【会見詳報】ANA障害の原因判明、「世界4例のスイッチ故障がきっかけ、対応も遅れた」

スイッチ一個壊れて次々とDBサーバダウンするとか脆弱過ぎる。
この規模のシステムならコールドスタンバイ機の1台もなかったのでしょうか。
SNMP Trapを監視システムがロストして捕まえなかったんだろう。
SNMPはサブシステムなどに出してなかったんだろうか。。


疑問は尽きない。

SNMP Trap

SNMPトラップとは、SNMPでネットワーク上の機器を監視する際に、監視下の機器(SNMPエージェント)側から管理用コンピュータ(SNMPマネージャ)に向けて能動的に発信される通知のこと。

SNMPによる監視では、平常時には、マネージャが問い合わせや要求などをエージェントに送り、それにエージェントが返信を送ることが多いが、何からの異常が生じた場合などに、エージェント側からマネージャにそのことを通知することがあり、これをSNMPトラップという。

SNMPトラップが発行されるのは、マネージャが予め指定した異常事態が発生したときや、端末の状態を表すパラメータが予め設定された閾値を超えた場合などである。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です