AWS・Azure・GCP の障害情報・ダッシュボード・ステータス

前へ << AWS・Azure・GCP クラウド関連資格 クラウドサービスのアイコンセット >> 次へ

3大クラウドの障害情報

AWS・Azure・GCP の障害情報やステータスは下記にまとまっています。 現在の状態を確認する場合はまずは下記がよいでしょう。 いずれも、グリーンなら正常稼働中、レッドなら異常発生、となります。

公式ダッシュボードは信用できるか

これらの、各ベンダが公表する公式ダッシュボードは信用できるか。 当ページ管理人の考えは、「信用できない。あくまでひとつの情報源として扱うべし」です。

理由は、「小規模障害は載らない」「単なる機能バグは載らない」「反映が遅い」ため。

「小規模障害は載らない」について。 クラウドサービス側の問題であっても、一定以上のユーザに影響が出ることが確認できないと、 ダッシュボードには載りません。 少なくとも GCP はそう明言しています。 そもそもハード故障は必ず起こるものであり、しかも何十万台・何百万台もあるサーバの 1台や、 あるいは 1ラックが落ちたとしてダッシュボードに載せるのは現実的ではありません。 しかしながら、その閾値はどれくらいなのかはわかりません。

これは推測ですが、結局のところダッシュボードに記載するかどうかは人が判断しているのだろうと思います。 本当は自動的に正常か否かのステータスを出してほしいのに、今はそうなっていないのではないでしょうか。

「単なる機能バグは載らない」について。 ダッシュボードに載るのは、ネットワーク障害・広範囲なハードウェア障害ですが、 機能バグは基本的には載りません。 クラウドサービスは機能追加・バグ修正のためのリリースが日々行われています。 さきほどまで動いていたあなたのシステムがいきなり動かなくなったのは、こっそり行われたリリースにて バグが混入されたからかもしれませんが、仮にそうであってもダッシュボードには載りません。 なお、いつ、どのようなリリースが行われるかの事前告知も事後告知もありません。

「反映が遅い」について。 上記のように、人が判断しているため (推測です)、必然的に反映が遅くなります。 Azure で発生した東日本リージョン全体の障害で 1時間近くダッシュボードが更新されなかったことがありました。 また、笑い話ではありますが、AWS の S3 障害の際は、「ダッシュボード機能が S3 に依存していたため、最新情報を表示できない」というトラブルもありました。

こういうときは Twitter で、「AWS」「Azure」「GCP」と検索するのが一番よいと思っています。 クラウドが原因となる障害は発生していた場合、誰かしらがつぶやいています。 誰もつぶやいていないなら、それはおそらくあなたのサービスだけの問題です。

twitter アカウント

SNS で速報が欲しい場合や、時系列で見たい場合、松浦隼人氏 (doublemarket) が、上記サイトの情報を自動収集して ツイートする下記アカウントを提供されていますので、活用するとよいでしょう。

詳細は作者の記事 「AWS, GCP, Azureの障害情報の提供方法とTwitterボット」 を参照してください。

また、ダッシュボードの情報を Slack 連携・Chatwork 連携する方法なども、ググればすぐに見つかります。

前へ << AWS・Azure・GCP クラウド関連資格 クラウドサービスのアイコンセット >> 次へ