クラウド資産を保護する

2025-04-01

この記事では、Azure クラウド資産の信頼性とセキュリティを維持するためのベストプラクティスについて説明します。信頼性により、ダウンタイムを最小限に抑えながらクラウドサービスの運用を維持できます。セキュリティにより、リソースの機密性、整合性、可用性が保護されます。クラウド運用を成功させるには、信頼性とセキュリティの両方が重要です。

信頼性の管理

信頼性管理には、ダウンタイムを最小限に抑え、ビジネスを保護するために、冗長性、レプリケーション、および定義された復旧戦略を使用する必要があります。 表 1 では、3 つのワークロードの優先順位、信頼性の要件 (アップタイム SLO、最大ダウンタイム、冗長性、負荷分散、レプリケーション)、およびサービスレベル目標 (SLO) に合ったシナリオの例を示します

表 1. ワークロードの優先順位と信頼性の要件の例。

優先順位	ビジネスへの影響	最小アップタイム SLO	1 か月あたりの最大ダウンタイム	アーキテクチャの冗長性	負荷分散	データのレプリケーションとバックアップ	シナリオ例
高 (ミッションクリティカル)	企業の評判や収益に対する直接的および重大な影響。	99.99%	4.32 分	複数リージョン & 各リージョンの複数の可用性ゾーン	アクティブ/アクティブ	同期のリージョン間データレプリケーションおよび回復用のバックアップ	ミッションクリティカルなベースライン
ミディアム	会社の評判または収益に対する測定可能な影響。	99.9%	43.20 分	複数のリージョンおよび各リージョンの複数の可用性ゾーン	アクティブ/パッシブ	非同期のリージョン間データレプリケーションおよび回復用のバックアップ	信頼性の高い Web アプリパターン
低	会社の評判、プロセス、または利益には影響しません。	99%	7.20 時間	単一リージョン & 複数の可用性ゾーン	可用性ゾーンの冗長性	可用性ゾーン間での同期データレプリケーションと復旧のためのバックアップ &	App Service ベースライン仮想マシンのベースライン

信頼性の責任を特定する

信頼性の責任はデプロイモデルによって異なります。次の表を使用して、インフラストラクチャ (IaaS)、プラットフォーム (PaaS)、ソフトウェア (SaaS)、およびオンプレミスのデプロイに対する管理責任を特定します。

責任	オンプレミス	IaaS (Azure)	PaaS (Azure)	SaaS
データ	✔️	✔️	✔️	✔️
コードとランタイム	✔️	✔️	✔️
クラウドリソース	✔️	✔️	✔️
物理ハードウェア	✔️

詳細については、「信頼性に対する共同責任」を参照してください。

信頼性の要件を定義する

明確に定義された信頼性要件は、アップタイムターゲット、復旧、データ損失許容度にとって重要です。信頼性の要件を定義するには、次の手順に従います。

ワークロードに優先順位を付けます。 ビジネスの重要度と財務投資レベルに基づいて、ワークロードに高、中 (既定)、または低優先度を割り当てます。ビジネス目標との整合性を維持するために、優先順位を定期的に確認します。
すべてのワークロードにアップタイムサービスレベル目標 (SLO) を割り当てます。 SLO は、アーキテクチャ、データ管理戦略、復旧プロセス、コストに影響します。ワークロードの優先順位に従ってアップタイムターゲットを確立します。優先順位の高いワークロードでは、より厳密なアップタイム目標が必要です。
サービスレベルインジケーター (SLI) を識別します。 SLI を使用して、SLO に対するアップタイムパフォーマンスを測定します。たとえば、サービス正常性の監視およびエラー率などがあります。
すべてのワークロードに目標復旧時間 (RTO) を割り当てます。 RTO は、ワークロードに許容される最大ダウンタイムを定義します。 RTO は、年間のダウンタイム許容時間よりも短くする必要があります。たとえば、アップタイム SLO 99.99% では、年間ダウンタイムが 52 分 (1 か月あたり 4.32 分) 未満で済みます。 RTO を割り当てるには、次の手順に従います。
1. 1 年あたりの障害の数を見積もります。 運用履歴を含むワークロードの場合は、SLI を使用します。新しいワークロードの場合は、障害モード分析を実行して正確な見積もりを取得します。
2. RTO を見積もる。 年間の許容されるダウンタイムを、推定故障数で割ります。 1 年に 4 つの障害を見積もる場合、RTO は 13 分以下 (52 分/ 4 エラー = 13 分 RTO) である必要があります。
3. 回復時間をテストします。 フェールオーバーテストとライブ障害中の復旧にかかる平均時間を追跡します。障害からの復旧にかかる時間は、RTO よりも短くする必要があります。
すべてのワークロードの目標復旧ポイント (RPO) を定義します。 RPO は、データのレプリケートとバックアップの頻度に影響します。ビジネスが許容できるデータ損失の量を決定します。
ワークロードの信頼性ターゲットを定義します。 ワークロードの信頼性ターゲットについては、信頼性ターゲットを定義するための Well-Architected Framework の推奨事項を参照してください。

データの信頼性を管理する

データの信頼性には、可用性と一貫性を維持するために、データレプリケーション (レプリカ) とバックアップ (ポイントインタイムコピー) が含まれます。表2 を参照して、データの信頼性ターゲットに合わせたワークロードの優先順位の例を確認してください。

表 2. データ信頼性の構成例を使用したワークロードの優先順位。

ワークロードの優先度	アップタイム SLO	データのレプリケーション	データのバックアップ	シナリオ例
高	99.99%	リージョン間の同期データレプリケーション可用性ゾーン間の同期データレプリケーション	高頻度のリージョン間バックアップ。頻度は RTO と RPO をサポートする必要があります。	ミッションに不可欠なデータプラットフォーム
ミディアム	99.9%	リージョン間の同期データレプリケーション可用性ゾーン間の同期データレプリケーション	リージョン間バックアップ。頻度は RTO と RPO をサポートする必要があります。	Reliable Web App パターンにおけるデータベースおよびストレージソリューション
低	99%	可用性ゾーン間の同期データレプリケーション	リージョン間バックアップ。頻度は RTO と RPO をサポートする必要があります。	ゾーン冗長を使用したベースライン Web アプリでのデータの回復性

データの信頼性の構成は、ワークロードの RTO と RPO の要件に合わせる必要があります。その配置を行うには、次の手順に従います。

データレプリケーションを管理します。 ワークロードの RTO と RPO の要件に従って、同期的または非同期的にデータをレプリケートします。

データの配布	データのレプリケーション	負荷分散の構成
可用性ゾーン間	同期 (ほぼリアルタイム)	ほとんどの PaaS サービスは、クロスゾーン負荷分散をネイティブに処理します
リージョン間 (アクティブ/アクティブ)	同期	アクティブ/アクティブの負荷分散
リージョン間 (アクティブ/パッシブ)	非同期 (定期的)	アクティブ/パッシブ構成

詳細については、「レプリケーション: データの冗長性」を参照してください。

データバックアップを管理します。 バックアップは、ディザスターリカバリー (サービスエラー)、データ復旧 (削除または破損)、インシデント対応 (セキュリティ) 用です。バックアップでは、ワークロードごとに RTO と RPO の要件をサポートする必要があります。 Azure Cosmos DB や Azure SQL Database のネイティブバックアップ機能など、Azure サービスに組み込まれているバックアップソリューションを優先します。オンプレミスのデータを含め、ネイティブバックアップが使用できない場合は、 Azure Backup を使用します。詳細については、「バックアップと Azure ビジネス継続性センター」を参照してください。
ワークロードデータの信頼性を設計します。 ワークロードデータの信頼性の設計については、「Well-Architected Framework データのパーティション分割ガイド」を参照し、Azure サービスガイドしてください (信頼性に関するセクションから始めます)。

コードとランタイムの信頼性を管理する

コードとランタイムの信頼性はワークロードの責任です。 Well-Architected フレームワークの自己治癒と自己保存ガイドのに従ってください。

クラウドリソースの信頼性を管理する

クラウドリソースの信頼性を管理するには、多くの場合、アーキテクチャの冗長性 (重複するサービスインスタンス) と効果的な負荷分散戦略が必要です。ワークロードの優先順位に合わせたアーキテクチャの冗長性の例については、表 3 を参照してください。

表 3. ワークロードの優先順位とアーキテクチャの冗長性の例。

ワークロードの優先度	アーキテクチャの冗長性	負荷分散アプローチ	Azure 負荷分散ソリューション	シナリオ例
高	2 つのリージョンと可用性ゾーン	アクティブ/アクティブ	Azure Front Door (HTTP) Azure Traffic Manager (HTTP 以外)	ミッションクリティカルなベースラインアプリケーションプラットフォーム
ミディアム	2 つのリージョンと可用性ゾーン	アクティブ/パッシブ	Azure Front Door (HTTP) Azure Traffic Manager (HTTP 以外)	信頼性の高いウェブアプリケーションパターンの設計指針
低	単一リージョンと可用性ゾーン	可用性ゾーン間	Azure Application Gateway 仮想マシン用の Azure Load Balancer を追加する	App Service ベースライン仮想マシンのベースライン

ワークロードの信頼性要件を満たすために、アーキテクチャの冗長性を実装する必要があります。次の手順に従います。

アーキテクチャのアップタイムを見積もります。 ワークロードごとに、複合 SLA を計算します。ワークロードが失敗する可能性があるサービス (クリティカルパス) のみを含めます。

ワークロードのクリティカルパス内のすべてのサービスを一覧表示します。各サービスの Microsoft アップタイム SLA を公式ドキュメントから収集します。
ワークロードに独立したクリティカルパスが含まれているかどうかを決定します。独立したパスは失敗する可能性があり、ワークロードは引き続き使用できます。
1 つのクリティカルパスがある場合は、単一領域の数式 N = S₁ × S₂ × S₃ ×を使用します。 × S_n。
2 つ以上のクリティカルパスがある場合は、独立パス式 N = S_{1 x 1} - [(1 - S₂) × (1 - S₃)]を使用します。
複雑なワークロードでは、多くの場合、両方の数式の種類が組み合わされます。例: N = S₁ × S₂ × S₃ × (S₄ x 1 - [(1 - S₅) × (1 - S₆)])。
複数領域アプリケーションの場合は、マルチリージョン式の数式を使用します。M = 1 - (1 - N)^R
計算されたアップタイムとアップタイム SLO を比較します。不足するには、より高いレベルの SLA または追加の冗長性が必要です。変更後に再計算します。計算されたアップタイムが SLO を超えた後に停止します。

利用事例	数式	変数	例	説明
単一リージョン	N = S₁ × S₂ × S₃ ×. × S_n	N = 複合 SLA。 S = Azure サービスの SLA。 n = クリティカルパス上のサービスの数。	N = 99.99% (アプリ) × 99.95% (データベース) × 99.9% (キャッシュ)	単一のクリティカルパスにアプリ (99.99%)、データベース (99.95%)、キャッシュ (99.9%) を使用する単純なワークロード。
独立した経路	S₁ x 1 - [(1 - S₂) × (1 - S₃)]	S = Azure サービスの SLA。	99.99% (アプリ) × (1 - [(1 - 99.95% データベース) × (1 - 99.9% キャッシュ)])	アプリでは、データベース (99.95%) またはキャッシュ (99.9%) がダウンタイムを発生させることなく失敗する可能性があります。
マルチリージョン	M = 1 - (1 - N)^R	M = 複数リージョンの SLA。 N = 単一リージョンの SLA。 R = リージョンの数。	N = 99.95% および R = 2 の場合、M = 1 - (1 - 99.95%)^2	2 つのリージョンにデプロイされたワークロード。

サービスレベルを調整します。 アーキテクチャを変更する前に、さまざまな Azure サービスレベル (SKU) が信頼性の要件を満たすことができるかどうかを評価します。一部の Azure サービスレベルでは、Azure Managed Disks など、異なるアップタイム SLA を使用できます。

アーキテクチャの冗長性を追加します。 現在のアップタイムの見積もりが SLO に足りない場合は、冗長性を高めます。

複数の可用性ゾーンを使用します。 複数の可用性ゾーンを使用するようにワークロードを構成します。可用性ゾーンでアップタイムがどのように向上するかは、見積もりが難しい場合があります。可用性ゾーンを考慮するアップタイム SLA を持つのは、一部のサービスのみです。 SLA が可用性ゾーンを考慮する場合は、アップタイムの見積もりでそれらを使用します。例については、次のテーブルを参照してください。

Azure サービスの種類	可用性ゾーン SLA を使用した Azure サービス
コンピューティングプラットフォーム	アプリケーションサービス Azure Kubernetes Service Virtual Machines
データストア	Azure Service Bus（アジュールサービスバス） Azure Storage アカウント Azure Cache for Redis（Azure キャッシュフォーレディス） Azure Files Premium レベル
データベース	Azure Cosmos DB (アジュールコスモスデータベース) Azure SQL データベース Azure MySQL用データベース PostgreSQL 用 Azure データベース Azure Managed Instance for Apache Cassandra（Apache Cassandra 用の Azure 管理インスタンス）
ロードバランサー (負荷分散装置)	アプリケーションゲートウェイ
安全	Azure Firewall

複数のリージョンを使用します。 多くの場合、アップタイム SLO を満たすために複数のリージョンが必要です。トラフィックの分散には、グローバルロードバランサー (Azure Front Door または Traffic Manager) を使用します。マルチリージョンアーキテクチャでは、慎重なデータ整合性管理が必要です。

アーキテクチャの冗長性を管理します。 冗長性の使用方法を決定する: 毎日の操作 (アクティブ) の一部としてアーキテクチャの冗長性を使用できます。または、ディザスターリカバリーシナリオ (パッシブ) でアーキテクチャの冗長性を使用できます。例については、表 3 参照してください。
1. 可用性ゾーン間の負荷分散。 すべての可用性をアクティブに使用します。多くの Azure PaaS サービスでは、可用性ゾーン間の負荷分散が自動的に管理されます。 IaaS ワークロードでは、内部ロードバランサーを使用して、可用性ゾーン間で負荷分散を行う必要があります。
2. リージョン間で負荷分散を行います。 信頼性のニーズに基づいて、複数リージョンのワークロードをアクティブ/アクティブ/パッシブのどちらで実行するかを決定します。
サービス構成を管理します。 Azure リソースの冗長インスタンス間で構成を一貫して適用するため、リソースは同じように動作します。一貫性を維持するために、コードとしてのインフラストラクチャを使用します。詳細については、「重複するリソース構成を参照してください。

ワークロードの信頼性を設計します。 ワークロードの信頼性設計については、Well-Architected フレームワークを参照してください。

ワークロードの信頼性	指導
信頼性の柱	高可用性マルチリージョン設計冗長性を考慮した設計可用性ゾーンとリージョンの使用
サービスガイド	Azure サービスガイドの (信頼性セクションから始めます)

詳細については、「冗長性」を参照してください。

ビジネス継続性を管理する

障害からの復旧には、サービスを迅速に復元し、中断を最小限に抑えてユーザーの満足度を維持するための明確な戦略が必要です。次の手順に従います。

障害に備える。 高、中、低の優先順位に基づいて、ワークロード用に個別の復旧手順を作成します。データの信頼性、コードとランタイムの信頼性、およびクラウドリソースの信頼性は、障害に備える基礎となります。ビジネス継続性の準備に役立つその他の回復ツールを選択します。たとえば、オンプレミスおよび仮想マシンベースのサーバーワークロード Azure Site Recovery を使用します。
テストとドキュメント復旧計画。 フェールオーバーとフェールバックのプロセスを定期的にテストして、ワークロードが目標復旧時間 (RTO) と目標復旧時点 (RPO) を満たしていることを確認します。インシデント発生時に簡単に参照できるように、復旧計画の各ステップを明確に文書化します。 Azure Site Recovery などの復旧ツールが、指定した RTO を一貫して満たしていることを確認します。
エラーを検出します。 この方法で誤検知が増加した場合でも、迅速に停止を特定するためのプロアクティブなアプローチを採用します。ダウンタイムを最小限に抑え、ユーザーの信頼を維持することで、カスタマーエクスペリエンスに優先順位を付けます。
1. エラーを監視します。 ワークロードを監視して、1 分以内に停止を検出します。 Azure Service Health と Azure Resources Health を使用し、Azure Monitor アラートを使用して、関連するチームに通知します。これらのアラートを Azure DevOps または IT Service Management (ITSM) ツールと統合します。
2. サービスレベルインジケーター (SLI) を収集します。 SLA として機能するメトリックを定義して収集することで、パフォーマンスを追跡します。チームでこれらのメトリックを使用して、サービスレベル目標 (SLO) に対するワークロードのパフォーマンスを測定します。
エラーに対応します。 ワークロードの優先順位に合わせて復旧応答を調整します。冗長インフラストラクチャとデータレプリカに要求をすぐに再ルーティングするフェールオーバー手順を実装します。システムが安定したら、根本原因を解決し、データを同期し、フェールバック手順を実行します。詳細については、フェールオーバーとフェールバックに関するセクションを参照してください。
エラーを分析します。 問題の根本原因を特定し、問題に対処します。レッスンを文書化し、必要な変更を加えます。
ワークロードの障害を管理します。 ワークロードのディザスターリカバリーについては、Well-Architected Framework のディザスターリカバリーガイドのと Azure サービスガイドを参照してください (信頼性に関するセクションから始めます)。

Azure 信頼性ツール

利用事例	解決策
データレプリケーション、バックアップ、およびビジネス継続性	Azure サービスガイドの (信頼性セクションから始めます) クイックリファレンス: Azure Cosmos DB Azure SQL Database Azure Blob Storage Azure Files
[データバックアップ]	Azure Backup
ビジネス継続性 (IaaS)	Azure Site Recovery
複数リージョンのロードバランサー	Azure Front Door (HTTP) Azure Traffic Manager (HTTP 以外)
マルチ可用性ゾーンのロードバランサー	Azure Application Gateway (HTTP) Azure Load Balancer (HTTP 以外)

セキュリティの管理

反復的なセキュリティプロセスを使用して、クラウド環境の脅威を特定して軽減します。次の手順に従います。

セキュリティ操作の管理

セキュリティコントロールを管理して、クラウド資産に対する脅威を検出します。次の手順に従います。

セキュリティツールを標準化します。 標準化されたツールを使用して、脅威の検出、脆弱性の修正、問題の調査、データのセキュリティ保護、リソースの強化、大規模なコンプライアンスの適用を行います。 Azure セキュリティツールのを参照してください。
環境のベースラインを設定します。 クラウド資産の通常の状態を文書化します。セキュリティを監視し、ネットワークトラフィックパターンとユーザーの動作を文書化します。 Azure のセキュリティベースラインを使用し、Azure サービスガイドして、サービスのベースライン構成を開発します。このベースラインにより、異常や潜在的なセキュリティの弱点を簡単に検出できます。
セキュリティコントロールを適用します。 アクセス制御、暗号化、多要素認証などのセキュリティ対策を実装すると、環境が強化され、侵害の可能性が軽減されます。詳細については、「セキュリティの管理」を参照してください。
セキュリティ責任を割り当てます。 クラウド環境全体のセキュリティ監視の責任を指定します。定期的な監視とベースラインとの比較により、不正アクセスや通常とは異なるデータ転送などのインシデントをすばやく識別できます。定期的な更新と監査により、進化する脅威に対してセキュリティベースラインが効果的に維持されます。

詳細については、「CAF セキュア」を参照してください。

セキュリティインシデントを管理する

ランサムウェア、サービス拒否、脅威アクターの侵入など、セキュリティインシデントから復旧するためのプロセスとツールを採用します。次の手順に従います。

インシデントの準備を行います。 調査、軽減、通信の役割を明確に定義するインシデント対応計画を策定します。計画の有効性を定期的にテストします。脆弱性管理ツール、脅威検出システム、インフラストラクチャ監視ソリューションを評価して実装します。インフラストラクチャのセキュリティ強化を通じて攻撃対象領域を減らし、ワークロード固有の復旧戦略を作成します。インシデント対応の概要およびインシデント対応プレイブックを参照してください。
インシデントを検出します。 Microsoft Sentinel などのセキュリティ情報およびイベント管理 (SIEM) ツールを使用して、セキュリティデータを一元化します。 Microsoft Sentinel のセキュリティオーケストレーション、自動化、応答機能 (SOAR) を使用して、日常的なセキュリティタスクを自動化します。脅威インテリジェンスフィードを SIEM に統合して、クラウド環境に関連する敵対者の戦術に関する分析情報を得ることができます。 Microsoft Defender for Cloud 使用して、Azure で脆弱性を定期的にスキャンします。 Microsoft Defender は、を Microsoft Sentinel と統合して、セキュリティイベントの統一されたビューを提供します。
インシデントに対応します。 インシデントの検出時にインシデント対応計画を直ちにアクティブ化します。調査と軽減の手順をすばやく開始します。ディザスターリカバリー計画をアクティブ化して、影響を受けるシステムを復元し、インシデントの詳細をチームに明確に伝えます。
セキュリティインシデントを分析します。 各インシデントの後、脅威インテリジェンスを確認し、学習した教訓とパブリックリソースからの分析情報 (MITRE ATT&CK ナレッジベースなど) に基づいてインシデント対応計画を更新します。脆弱性管理および検出ツールの有効性を評価し、インシデント後の分析に基づいて戦略を調整します。

詳細については、「インシデント対応の管理 (CAF セキュア)」を参照してください。

Azure セキュリティツール

セキュリティ機能	Microsoft のソリューション
ID およびアクセス管理	Microsoft Entra ID
ロールベースのアクセス制御	Azure ロールベースのアクセス制御
脅威の検出	Microsoft Defender for Cloud
セキュリティ情報管理	Microsoft Sentinel
データのセキュリティとガバナンス	Microsoft Purview
クラウドリソースのセキュリティ	Azure セキュリティベースライン
クラウドガバナンス	Azure Policy
エンドポイントのセキュリティ	Microsoft Defender for Endpoint
ネットワークのセキュリティ	Azure Network Watcher
産業用セキュリティ	Microsoft Defender for IoT
データバックアップのセキュリティ	Azure Backup のセキュリティ

次のステップ

CAF 管理チェックリスト