クラウド移行（インフラ・DB）: 2021.06.29

導入前に確認しておきたい！　クラウド障害対応のためのポイントとは

クラウドの障害対応が発生する原因や具体的な対応方法を知りたいと考えていませんか？
本記事では、クラウド導入前に確認しておきたいクラウド障害対応のためのポイントを、実際の障害事例や障害が起きる原因を交えつつ紹介します。

クラウドの障害とは？

クラウドの障害とは、システム障害やネットワーク障害など、サービスを満足に利用できない状態になることです。「クラウドはサービス継続性が高い（可用性がある）ので安心なのでは」という方もおられるでしょう。

確かに、クラウドサービスは高い可用性・安全性を備えています。特に、三大クラウドサービスと言われる「Microsoft Azure 」「Amazon Web Services（AWS）」「Google Chrome Platform（GCP）」はセキュリティにも力を入れているのは間違いありません。
しかし、いずれも完璧とはいえず、過去に幾度となく大規模なシステム障害、ネットワーク障害を発生させています。そこで本記事では、過去に発生したクラウド障害の事例を確認したのち、その原因と対策を紹介します。

クラウド障害の実例

ここでは、AzureやAWSのデータセンターで生じたいくつかの障害事例について、その原因と被害状況を紹介します。過去の事例を知ることで、障害に備える対策の重要性を再確認しましょう。

アメリカ（2018年9月）　Azure

2018年9月4日、Azureデータセンターの米国中南部リージョンでシステム障害が発生しました。復旧までに24時間以上を要することとなった、大規模クラウドインフラ障害です。結果的に、被害は米国中南部リージョンにとどまらず、広範囲に波及しました。
データセンター周辺の落雷によって施設内部の電圧が急激に上昇し、電力システムに異常が生じました。それにより冷却システムがシャットダウンしたことで、データセンターの機能は一時停止してしまいました。

東京（2020年10月）　AWS

2020年10月22日、AWSデータセンターの東京リージョンでネットワーク障害が起きました。この障害の影響で、一部のAWS を利用しているWebサービスが一時的に利用できませんでした。1時間半程度で復旧しましたが、AWSを利用しているWebサービスが多いことから、大規模なクラウド障害に分類されます。
原因は、一部リージョン間のネットワーク持続性に問題があったことです。具体的にどのような問題だったのか、という点については発表されていません。

アメリカ（2020年11月）　AWS

2020年11月25日、AWSデータセンターの米国東部リージョンにおいて、AWSが提供する分析サービス「Amazon Kinesis」でシステム障害が起きました。「Amazon Kinesis」とは、ストリーミングデータをリアルタイムで収集・処理・分析するサービスです。
これにより、数時間ではありますが「Amazon Kinesis」を利用するWebサービスが影響を受けました。原因は、フロントエンドフリートの全サーバーで、スレッド数が容量を超過したことでした。

クラウド障害が起こる原因とは？

障害が起こる原因は、サービス事業者とその利用者の双方にあり得ます。ここでは、主なクラウド障害が起こる原因を5つ紹介します。

天災

先ほど紹介した事例にもあったように、大規模な豪雨や落雷、大地震などの自然災害によって停電や変圧器の故障が起き、障害が起こることがあります。サービス事業者も施設内に予備電源を設けるなど対策はしていますが、近年でもクラウド障害の主な発生原因の1つです。

冷却装置の故障

冷却装置が故障することでサーバールームの温度も上がり、パフォーマンスの低下やシャットダウンにつながることがあります。稼働時に熱を持つ電子機器にとっては、致命的な要素と言えるでしょう。装置自体の故障だけでなく、天災による電力障害が装置に影響を及ぼすこともあります。

サーバーの負荷

想定数以上のユーザーが一度にサービスを利用することで、サーバーが負荷に耐えられず機能停止することがあります。こうしたサーバーの過負荷によるシステムのシャットダウンは、新たなサービスの実装時や機能の追加時に発生するケースも多々あります。

人為的ミス

システムの追加・修正作業を行うエンジニアの入力ミスにより、大規模障害につながった事例があります。サービス事業者も人為的ミスを防ぐためのチェック体制は徹底しているでしょう。しかし今後も人の手が加わる以上、ゼロになるとは言い切れません。

ユーザーが構築したシステム

ここでのユーザーとは、AzureやAWSなどを利用している企業を指します。これらを使ったシステムを開発する際に、設定ミスやプログラミングミスなどにより障害が起こるケースがあります。

クラウド障害から復旧にかかるまで

過去の障害発生事例を基に考えると、障害の復旧にかかる時間は数十分～数時間ほどです。とはいえ、障害の発生原因や影響によっては、サービスの復旧まで2週間以上かかることもあります。

長期間サービスが利用できないのはもちろん、数時間であっても、障害が起こることは自社のサービス・業務に大きな被害を及ぼすリスクがあります。被害を最小限に止めるためには、障害の発生を想定した体制づくりが重要です。

クラウドの障害に備えた“3つの対策”

ここまで紹介してきたように、障害はさまざまな原因で幾度も発生するリスクがあります。サービス事業者も徹底した対策を実施していますが、自衛のためにユーザー側でもできることはやっておくべきでしょう。ここでは、障害に備えた3つの対策を紹介していきましょう。

複数のデータセンターにシステムを構築する

クラウドサービスを用いてシステムを構築する際は、複数のデータセンター（異なるリージョン）に分散して運用するのが理想です。システムが複数のデータセンターにまたがっていれば、1つのデータセンターで障害が起こっても、別のデータセンターでサービスを継続させられます。

また、同様の理由でバックアップも分散して管理することが重要です。クラウドサービスには基本的にバックアップ機能が付いています。しかし障害が起こると、バックアップからすぐにデータを復旧させられなくなることもあります。これではバックアップの意味がありません。

常用しているサービスでバックアップを取る場合は、複数のデータセンター（異なるリージョン）に分散してデータを保管することで、安全性が向上します。あるいは、「いくつかのサービスに分けてバックアップデータを管理する」「クラウド外にデータを移しておく」ということも万一の備えとして有効です。

常時システムの監視を行う

なんらかの障害が発生した場合、サービス事業者からアナウンスがあるものの、即座に知らせてくれるとは限りません。「障害が生じていないか・自社のシステムに影響が出ていないか」をすぐに確認するには、常時監視を行う必要があります。

特に、自社がAzureやAWSなどを利用したクラウドサービスを提供している場合、システムの監視は重要です。障害が生じていることに気づくのが遅れると、顧客からの信用を失うリスクがあるためです。

障害対応マニュアルを用意する

障害対応マニュアルを用意し社内で復旧が行えるようにしておくと、復旧が早められることがあります。実際、2017年に日本通運が見舞われたAWSのネットワーク障害の際には、マニュアルを用意していたことでシステムの復旧が40分程度で行えたといいます。

ただし、単にマニュアルを置いておけばよいわけではありません。クラウドサービスは日々アップデートや機能の追加が行われており、導入時に用意したマニュアルでは最新の状況と一致しない場合があります。
そのためマニュアルは、「サービス提供側のアップデートに合わせて順次更新していくこと」が重要です。また、実際にマニュアルに沿って復旧できる体制が整っているかどうかの確認も兼ねて、バックアップからのサーバー復旧訓練を実施するのも有効でしょう。

クラウドの障害対策には、導入前の構築が大切

障害の被害を最小にとどめ、素早く復旧作業に移るには、日常的な全社システムの監視が極めて重要です。また、有事の際に復旧作業を実行するには、クラウドサービスへの理解と相応の人員が必要です。

こうした障害対策が、当然実施されるべきものでありながら一般化されていない背景には、各企業のノウハウのなさや人材不足があります。そこで、サービスを導入する時点で、該当するサービスについてアドバイスしてくれる、パートナーを確保することが重要です。

株式会社FIXERは、数多くの企業のAzure導入支援実績を持つ、Azure Expertマネージドサービスプロバイダーです。フルマネージドサービス「cloud.config」により、Azure導入サポートや24時間365日のシステム監視、障害一次対応など、クラウドの安定運用を可能にするサービスを提供しています。