クラウド管理における保護と回復

ワークロードの停止の可能性に備える前に、クラウド管理チームはまず、次の要件を満たしていることを確認する必要があります。

管理を計画するとき、チームは、障害が発生すると何かが失敗するという前提から始める必要があります。 チームは、停止に備えて準備しておくことで、障害をすばやく検出して、迅速に復旧できます。 この分野の焦点は、システムに障害が発生した直後の手順にあります。 障害が発生した場合に、ワークロードを迅速に回復できるように保護するにはどうすればよいでしょうか。

100% のアップタイムを保証する SLA を一貫して提供できるテクニカル ソリューションはありません。 最も冗長性が高いアーキテクチャで提供されるソリューションでは、"6 つの 9"、つまり 99.9999% の稼働率が実現されると主張しています。 しかし、"6 つの 9" を提供するソリューションであっても、1 年のうち 31.6 秒間はダウンします。 "6 つの 9" の稼働率を達成するために必要な、大規模で継続的な運用の投資を保証するソリューションはまれです。

保護と回復についての意見交換を解釈する

ビジネス運営を推進するワークロードは、次のもので構成されます。

  • applications
  • data
  • 仮想マシン (VM)
  • その他の資産

各資産には、保護と回復に対する独自のアプローチが必要になる場合があります。 この規範の重要な目標は、管理ベースライン内で一貫したコミットメントを確立して、ビジネスについてディスカッションするための開始点を用意することです。

少なくとも、クラウド管理チームは、迅速な復旧とデータ損失の最小化に対する明確なコミットメントが設定された、各資産のベースライン アプローチを作成する必要があります。

目標復旧時間 (RTO)

目標復旧時間は、システムを障害発生前の状態に復旧させるために必要な時間です。 これには、以下のために必要な時間が含まれます。

  • VM とアプリケーションの最小限の機能を復元する
  • アプリケーションが必要とするデータを復元する。

ビジネス用語では、RTO は、ビジネス プロセスがサービスを提供できない時間を表します。 ミッションクリティカルなワークロードでは、この変数を相対的に小さくして、ビジネス プロセスを迅速に再開できるようにする必要があります。 優先度の低いワークロードの場合、標準レベルの RTO でも、企業のパフォーマンスに大きな影響が出ない可能性があります。

企業は、ミッション クリティカルではないワークロードの標準 RTO を確立する管理ベースラインを作成する必要があります。 その後、企業は、そのベースラインを使用して、復旧時間に対する投資の追加を正当化できます。

回復ポイントの目標 (RPO)

ほとんどのクラウド管理システムでは、何らかの形式のデータ保護によってデータが定期的にキャプチャされ、保存されます。 回復ポイントは、データが最後にキャプチャされた時刻を指します。 システムに障害が発生した場合、最新の復旧ポイントの時点まで復元できます。

回復ポイントの目標は、最新の回復ポイントから停止まで測定されます。 RPO が時間単位で測定される場合、システム障害により、最後の回復ポイントから停止までの時間分のデータが失われます。 RPO が日単位で測定される場合、システム障害により、最後の回復ポイントから停止までの日数分のデータが失われます。 1 日の RPO の場合、理論的には、当日の障害が発生する時点までのすべてのトランザクションが失われます。

ミッション クリティカルなシステムの場合、分単位または秒単位で RPO を測定すると、収益や利益の損失を回避できる場合があります。 ただし、RPO を短くすると、一般的に管理コストが増加します。 これらのコストを最小限に抑えるために、企業は許容される最も長い RPO に焦点を当てた管理ベースラインを作成する必要があります。 これにより、企業は、より多くの投資を必要とする特定のプラットフォームやワークロードの RPO を短縮することができます。

ワークロードの保護と回復

IT 環境の大部分のワークロードでは、特定のビジネス プロセスまたは技術的プロセスをサポートしています。 通常、ビジネス運営に重大な影響を与えないシステムには、迅速なシステム復旧やデータ損失の最小化のために必要となる投資を増やす正当な理由がありません。 ベースラインを確立することで、企業は、一貫して管理できる価格ポイントで必要となるレベルの復旧サポートを把握できます。 これについて理解することで、企業の利害関係者は、復旧に対する投資を増加することの価値を評価できます。

ほとんどのクラウド管理チームでは、さまざまな資産に対する具体的な RPO/RTO コミットメントを含む拡張ベースラインによって、相互のビジネス コミットメントに最も適したパスが得られます。 以下のセクションで、企業が繰り返し可能なプロセスを通して保護と回復の機能を簡単に追加できるようにする、いくつかの一般的な拡張ベースラインについて概説します。

データの保護と回復

データは、ほぼ間違いなく、デジタル経済における最も貴重な資産です。 運用環境のワークロードを駆動するデータが失われると、収益や利益の損失につながります。 最も一般的な拡張ベースラインは、データの保護と回復を効率的に実行する能力です。 クラウド管理チームは、一般的なデータ プラットフォームをサポートするレベルの拡張管理ベースラインを提供することが推奨されます。

クラウド管理チームは、プラットフォーム運用を実装する前に、一般的に、サービスとしてのプラットフォーム (PaaS) データ プラットフォームの改善された運用をサポートします。 たとえば、クラウド管理チームにとって、Azure SQL Database や Azure Cosmos DB ソリューションのバックアップの頻度を高くしたり、複数リージョンへのレプリケーションを行ったりするのは簡単です。 これにより、開発チームは、データ プラットフォームを最新化することで、簡単に RPO を向上させることができます。

この思考プロセスの詳細については、プラットフォーム運用の規範に関する記事をご覧ください。

VM の保護と復旧

ほとんどのワークロードは、ソリューションのさまざまな側面をホストする仮想マシンにある程度依存しています。 システム障害の発生後、ワークロードでそのプロセスをサポートするには、企業は一部の仮想マシンを迅速に復旧する必要があります。

これらの仮想マシンで発生するダウンタイムは、収益の損失や利益の低下を引き起こす可能性があります。 VM のダウンタイムがビジネスの財政上の業績に直接影響する場合は、RTO が非常に重要です。 クラウド管理チームは、仮想マシンをセカンダリ サイトにレプリケートし、自動復旧 (ホット ウォーム復旧モデルと呼ばれます) を使用することで、仮想マシンをすばやく復旧できます。 また、チームは、ホット ホットまたは高可用性モデルと呼ばれるアプローチを使用して、機能するセカンダリ サイトに仮想マシンをレプリケートすることもできます。 ホット ホット アプローチはより多くのコストがかかりますが、最高の復旧状態を実現します。

これらの各モデルは RTO を短縮し、企業がビジネス機能をより迅速に復元するのに役立ちます。 ただし、各モデルでは、クラウド管理コストも大幅に増加します。

また、高可用性のためのレプリケーションとは別に、次のようなシナリオのためにバックアップを有効にする必要があることに注意してください。

  • 不注意による削除
  • データの破損 (data corruption)
  • ランサムウェア攻撃

この思考プロセスの詳細については、ワークロード運用の規範に関する記事をご覧ください。

次のステップ

この管理ベースラインのコンポーネントが満たされたら、チームは、将来を見据えてプラットフォームの運用ワークロードの運用の停止を回避することができます。