なんとなく綴ってみた

アクセスカウンタ

zoom RSS 米デルタ航空、停電でシステム障害 451便が欠航・・・先端インフラの脆弱さ

<<   作成日時 : 2016/08/09 08:08   >>

ブログ気持玉 0 / トラックバック 0 / コメント 0

日本で、JALやANAのシステムトラブル(障害)があったのは、今年の3月〜4月の初めにかけてである。春休みの移動に多くの影響を与えたとされるこのトラブルは、世間に一定の衝撃を与えた。システムによって大規模輸送の効率化をシステムが管理しているが、それが停止すれば大混乱に陥る。これが、デジタル時代の欠点である。
http://jp.reuters.com/article/delta-resume-some-flights-idJPKCN10J1GC


デルタのシステムは停電で止まったようだ。メカニズムは分からないが基幹システムの一部に、無停電対策が施されていなかったか、うまく切り替わらなかった可能性が高い。ミッションクリティカルなシステム(停止が許されない環境)では、本系ノードと待機系ノードの2クラスター方式が採用されることが多い。この方式では、2つの物理的なサーバーがファイバーチャンネルと調停装置(ノード管理ツール)で同期できるように設定されている。調停装置にあるサーバーアドレス(運用系アドレス)をそれぞれのクライアント側からのアクセスを設定しておけば、本系サーバートラブルが発生してもコンマ数秒もかからずに、待機系が本系の代わりを始める。

ただし、本系にも直接アクセス可能なアドレスがあり、間違って一部のクライアントや通信サーバーでそれを設定している場合、本系ダウンとともに通信は途絶する。昔は結構こういったトラブルもあったが、年々システムは更新され、こういったトラブルは減ってはいる。


さらに、近年はサブシステムを海外や場所の異なる別のデータセンターを仮運用先に設定するケースもある。災害などが起きた時に、簡易システムでも、見かけ上の動きに支障がないように作業ができるよう対策が施されているわけだ。
こうやって二重三重のバックアップを作るのが最近のシステム傾向であるが、トラブルを完全になくすことは今後もできないだろう。


何故なら・・・それらが機能するかどうかは、実際にその現象が起きてみない限りは分からない。


<システムの欠陥管理は、本当に起きた時に初めて機能する>

切り替えテストというのは、基本的には初期に1度程度やることもあるが、運用が始まってから使われることはない。本当に本番環境が機能し始めたら、テストをするわけにもいかないからだ。もし、本番運用中にテストを実施して、運悪くほかのトラブルが重なり、本当に待機系に支障が出てしまえば、復旧に恐ろしい時間がかかるからだ。

しかも、この手のノード管理はだれもがトラブルを経験しているわけではない。要は、本当にシステムが切り替わった時に、落ちてしまったシステムを復旧させる手段を現場の人間は知らないケースもあるわけだ。フィールドエンジニアや外部通信オペレーターが機能するかどうかも、停電のようなトラブルでは、保証できない。

なぜなら、近年は電話も光化されており、VoIPアダプター、基地局と現地の双方にある光スイッチなどが電気で動くからだ。同軸(Corexial)の回線に比べてこれらのシステムは電気も食い発熱も多い。
そういう点を踏まえると、時代の変化によって便利になる一方で、長い時間の停電が命取りになる可能性は飛躍的に高まっているといえる。大容量無停電電源の確保は重要な課題になっており、一番怖いのは、サーバー室のヒートアップダウンである。

いわゆる、熱暴走のことだ。サーバー室は通常複数のサーバーを一か所で管理しているケースが多い。それは、セキュリティ上大事なデータがあること。複数に分けてしまうと配線トラブルなどが起きやすく管理が煩雑になること、そして、温度管理が難しいという理由がある。

サーバー出す熱量と騒音は、相当な量であり、負荷の高いシステムでは部屋の温度が25度を超えると、アラートが上がるケースもある。もし停電時にその部屋の空調が止まってしまい。1時間も2時間も放置されたら・・・。サーバーはサーマルエラーとなって停止するだろう。待機系も本系もなく、ばらばらに一定の温度に達したものから、強制シャットダウンがかかる。場合によっては、運用系のシャットダウンのタイミングで、割り込みに失敗した待機系がシャットダウンできずに熱暴走することもある。

即ち、電気が止まることほどシステムにとっての災厄(災い)はないのである。



<先端インフラを守るための仕組み>

一般に電力網がシステムには欠かせない。システムの分散も大事だが、電気がなければ障害が起きる可能性は高まる。それは、サーバーだけではなく、サーバーに至る通信回線、サーバー室のエアコンなどの空調システム、監視が外部の人間でリモート監視対象なら、外部の管理回線も含まれる。

これを失うのが、一番脅威となる。

次に、バックアップ体制が不十分であること。これは、考慮不足が必ずあり、ゼロにはできないが、システム会社が努力し、そのシステムを使う会社もシステム会社の責任だけにせずに、構築時に可能な限りの協議を重ねて、予算内でできうる最大のバックアップを充実させることだ。

そして、あとは実際に問題が起きた場合にどう対処するかのマニュアル作りと、練習や教育だろう。
これができなければ、いざというときに、だれも対処できず、担当者がバカンスで海外にでもいっていようものなら、わかる人を探して苦しむことになる。

大手企業では、可能な限りやっているだろうが、中小では忘れている部分があるかもしれない。






テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
米デルタ航空、停電でシステム障害 451便が欠航・・・先端インフラの脆弱さ なんとなく綴ってみた/BIGLOBEウェブリブログ
文字サイズ:       閉じる