この記事は、Azure クラウド資産を管理するための効果的な運用を確立し、維持するのに役立ちます。 クラウド運用を成功させるには、すべてのクラウド管理領域に対して明確に定義された責任とプロセスが必要です。
管理責任を特定する
Azure 環境を効果的に管理するには、一元的な (プラットフォーム全体の) 責任とワークロードの責任が必要です。 一元的な責任によって、Azure クラウド資産全体がサポートされます。 ワークロードの責任は、個々のワークロードに重点を置きます。 表 1 を使用して、運用アカウントが重要なクラウド運用の責任を果たしていることを確認します。
表 1. クラウド管理の主な責任
クラウド管理領域 | 一元的な責任 | ワークロードの責任 |
---|---|---|
コンプライアンス | ▪ 操作手順を定義します。 ▪ ガバナンス ポリシーを適用します。 ▪ コンプライアンスを監視 し、必要に応じて修復またはエスカレートします。 |
▪ 運用手順に従います。 ▪ ガバナンス ポリシーに合わせて設計を調整します。 |
安全 | ▪ 組織全体の セキュリティ操作を管理します。 ▪ Microsoft Entra ID で ID を管理します。 ▪ Azure サブスクリプションへの アクセス 権を付与します。 ▪ Azure Policy と Microsoft Defender for Cloud を使用してセキュリティ ベースラインを定義および管理します。 ▪ Microsoft Sentinel との脅威保護とインシデント対応の統合を監視します。 |
▪ セキュリティで保護されたワークロード設計を実装します。 ▪ ワークロード固有のセキュリティ アラートとインシデントに対応します。 ▪ ワークロード内の脆弱性を継続的に評価します。 |
リソース管理 | ▪ リソース階層を定義および管理します。 ▪ 要求に応じてワークロード サブスクリプションを作成します。 ▪ 名前付けとタグ付けの戦略を定義します。 ▪ ネットワーク トポロジを定義します。 ▪ 共有ネットワーク (仮想ネットワーク ピアリング、オンプレミス接続) を構成します。 ▪ ワークロード間または共有リソース/サービスを管理します。 ▪ サブスクリプション の制限を 監視し、クォータの引き上げ要求を処理します。 |
▪ ワークロード固有のサブスクリプションを管理します (委任されている場合)。 ▪ 各ワークロードのリソース グループとリソースを管理します。 ▪ 名前付けとタグ付けの標準に従って適用します。 ▪ アプリケーション レベルのリソース使用率を管理し、リソースがサブスクリプション クォータ内に収まるようにします。 |
デプロイメント | ▪ CI/CD パイプラインとツール (Azure DevOps、GitHub Actions) を標準化して管理します。 ▪ コードとしての参照インフラストラクチャ テンプレート (Bicep、Terraform、ARM テンプレート) を定義します。 ▪ パイプラインのセキュリティ (コード スキャン、シークレット管理) の中心的なベスト プラクティスを提供します。 |
▪ ワークロードのデプロイには、中央の CI/CD フレームワークと IaC テンプレートを使用します。 ▪ ワークロード固有のデプロイ タスクを実装する (アプリ設定、データベースの構成)。 ▪ 主要なガイドラインを尊重しながら、ワークロードのニーズに合わせて参照テンプレートを調整します。 |
発達 | ▪ 標準化された開発ツールチェーンとフレームワークを提供して適用し、一貫性を高めます (コーディング標準、DevOps のベスト プラクティス)。 ▪ 共有ライブラリまたはモジュールの内部リポジトリまたはパッケージ フィードを維持します。 |
▪ ワークロード開発に標準のツールチェーンを採用し、適応させます。 ▪ アプリケーションのライフサイクルを所有し、ベスト プラクティス (単体テスト、統合テスト) を組み込みます。 ▪ ワークロードのコード ベースの継続的な改善を管理します。 |
モニタリング | ▪ 監視戦略を計画する。 ▪ 一元的な責任に関する アラート 。 ▪ 環境全体で一般的な運用メトリックのダッシュボードを提供します。 |
▪ ワークロードの監視 ▪ 中央のアラートを拡張または微調整して、ワークロード固有の条件をキャプチャします。 ▪ アラートとログに基づいてワークロード レベルのインシデントを調査して修復します。 |
費用 | ▪ グローバルまたはサブスクリプション レベルのクラウド予算を割り当てる ▪ 組織全体の クラウド支出 を監視し、コスト レポートを作成します。 ▪ 通常、タグまたはカスタム コスト割り当てモデルを使用して、事業単位または製品にコストを割り当てます。 ▪ コストの割り当てにタグ付け戦略を適用します。 |
▪ ワークロード設計のコスト最適化 ▪ 予算の制約を尊重します。 |
信頼性 | ▪ ワークロードの優先順位ごとに 信頼性要件 (SLO、RPO、RTO) を定義します。 ▪ ビジネス継続性とディザスター リカバリー (BCDR) に関するガイダンスを提供します。 ▪ 集中型 のディザスター リカバリー ソリューションを管理します。 ▪ すべてのワークロードにわたる主要なインシデント管理をサポートします。 |
▪ 信頼性の要件を満たすようにワークロードを設計します。 |
[パフォーマンス] | ▪ 一元化されたコンポーネント (ハブ ネットワーク、共有サービス) でパフォーマンスを監視および維持します。 ▪ パフォーマンスの最適化と容量計画のガイドラインを提供します。 ▪ クォータの監視 |
▪ パフォーマンス効率を高めるワークロードを設計する。 |
クラウド運用を確立する
表 1 に記載されている責任を使用して、効果的な運用基盤を構築します。 次の手順に従って、チーム、標準、プロセスを明確に定義します。
クラウド運用モデルを定義します。 次の表に示すように、組織のサイズと成熟度に基づいて、一元管理モデルまたは共有管理モデルを選択します。
運用アプローチ 責任とスコープ 最適な用途 利点 短所 集中化 1 つのチームがすべてのタスクを管理します。 スタートアップまたは小さなクラウド フットプリント。 クラウド管理を簡素化します。 ボトルネックが発生するリスク。 共有管理 中央 (プラットフォーム) チームとワークロード チームを分離する 多様なワークロードを持つ組織。 ガバナンスと機敏性のバランスを取ります。 明確な責任の割り当てが必要 中心的な責任を確立します。 中央管理タスクを処理するための専用チームを形成します。 表 1 のスキル マトリックスを作成して、必要な専門知識を特定します。
ワークロードの責任を確立します。 ワークロード固有のタスクに特化したチームを設定します。 表 1 を使用して責任を特定し、それに応じて採用します。
Azure Well-Architected レビューを実施する。Well-Architected 評価ツールを使用して、設計変更の開発とテスト中に各ワークロードを再評価します。
Azure Well-Architected Framework を使用します。オペレーショナル エクセレンスの柱を使用して、ワークロード管理の責任を導きます。
責任を割り当てます。 クラウド管理のすべての責任について、特定の所有者に名前を付けます。 共有管理モデルでは、ワークロード チームはサブスクリプションを管理するための自律性を持つ必要があります。
クラウド運用を文書化する
クラウド運用を明確に文書化して、効率的な危機対応とスムーズな変更の実装を可能にします。 包括的な手順を確立し、頻繁かつ特定のタスクの詳細なガイドを作成します。
運用手順を文書化する
自動化では処理できない変更、ディザスター リカバリー、および定期的なメンテナンス タスクを管理するための運用手順を定義します。 次の手順に従います。
変更管理手順を定義します。 変更は、クラウドでの障害の主な原因です。 クラウド環境での障害を回避するために、変更を管理するための標準化されたプロセスを開発します。 「 変更の管理」を参照してください。
展開手順を定義する (リリース管理)。 一貫性のある構成を維持するには、デプロイ、リリース、環境の昇格を標準化します。 「 デプロイの管理」を参照してください。
ディザスター リカバリーとビジネス継続性の手順を定義します。 潜在的な障害を処理するには、標準化された対応計画を準備します。 ディザスター リカバリーとビジネス継続性の管理に関するページを参照してください。
追加のプロシージャを定義します。 サービス要求、修正プログラムの適用、および構成管理を管理するためのプロセスを文書化します。 これらのプロセスを明確に文書化して、各タスクを開始または完了する方法を関係者が確実に把握できるようにします。
ドキュメント運用ガイド
主要な運用タスクの詳細なステップ バイ ステップ ガイド (Runbook またはプレイブック) を作成します。 この準備により、一貫性のある実行が保証され、効率が向上し、重要なイベント中の解決時間が短縮されます。
毎日のタスクを定義します。 特権エスカレーション要求やログ レビューなど、毎日の責任をカバーするマニュアルを準備します。 各システムのメトリック、アラートのしきい値、ダッシュボードを監視するための標準の運用手順 (SOP) を確立します。
Azure 中心の Runbook のライブラリを作成します。 次のようなシナリオに対処する Azure 固有の Runbook を作成します。
シナリオ 例 CPU 使用率が高い Azure App Service でのスケールアップの管理 フェールオーバーとフェールバック Azure Site Recovery でのフェールオーバーとフェールバック ブルー/グリーン デプロイ Azure Front Door でのブルー/グリーンデプロイメント バックアップの復元 Azure Blob Storage と Azure Cosmos DB でのバックアップ復元 これらの Runbook を中央リポジトリに格納します。 インシデント発生時にすぐに使用できるように、オンコール エンジニアがアクセスできる中央リポジトリに Runbook を維持します。
プログラムによって操作を実装します。 コードとしてのインフラストラクチャを Runbook に統合して、一般的なリソースを毎回一貫して正確にデプロイします。
確認して更新します。 運用上の調整とクラウド サービスの更新を反映するように、ドキュメントを定期的に確認して修正します。
ドキュメント ツールとソリューション
明確なドキュメントにより、一貫性が確保され、運用上のリスクが軽減され、チームの効率が向上します。 クラウド ツールの包括的なドキュメントを作成して管理します。 ドキュメントを定期的に更新して、現在のプラクティスを反映し、すべてのチーム メンバーが簡単にアクセスできるようにします。
面積 | 利点の例 |
---|---|
統合 | 標準化により、ログとコード リポジトリを統合することで統合が簡略化されます。 |
オートメーション | チーム間での IaC テンプレートの再利用、自動化スクリプト、プロジェクト間のベスト プラクティス。 |
インシデント管理 | 問題をキャプチャし、リリース サイクルに統合する修復アクションを生成します。 |
クラウド運用を管理する
効果的なクラウド管理により、運用効率が最適化され、ダウンタイムが短縮され、役割と責任が明確になります。 自動化と構造化されたサポート プロセスを通じてクラウド運用を標準化します。 次の運用ガイドラインに従ってください。
継続的なクラウド サポートを提供します。 24 時間 365 日のサポート カバレッジを確立します。グローバル チームは、フォロー ザ サン モデルを採用するか、構造化されたオンコール ローテーションを採用します。 重大なインシデントのタイムリーな対応と解決を確実にするために、責任を明確に定義します。 指定されたサポート担当者にすぐに通知するように、自動 アラート を構成します。
反復的な作業を自動化します。 Azure Automation 機能を使用して、手動プロセスを最小限に抑え、運用オーバーヘッドを削減します。 定期的なアクティビティを自動化して、エラーを排除し、ワークフローを合理化し、チームが戦略的な優先順位に集中できるようにします。
ユース ケース 例示 オートメーション Azure Boards または ITSM システムでワークフローを自動化します。 "変更要求" および "インシデント" 作業項目のテンプレート。 インシデント対応 標準フィールドが設定されたインシデント チケットを自動生成するには、Azure Monitor と Azure Service Health とチケット システムを統合します。 変更管理 Azure Logic Apps を使用して、リスクの低い変更を自動的に適用するか、特定のインシデントを自動修復します。 コンプライアンス Azure Policy を使用して、クラウド コンプライアンスを適用および監視します。 安全 Microsoft Defender for Cloud と Microsoft Sentinel を使用して、セキュリティ上の脅威の検出と対応を自動化します。 Microsoft Entra ID ガバナンスを使用して、アクセス許可を確認し、アクセス許可の管理を自動化します。
運用を改善する
継続的な改善を促進することで、Azure クラウド環境を最適化します。 運用を定期的に評価し、継続的な学習とフィードバックに優先順位を付けます。 次の手順に従います。
改善する操作を確認します。 ベスト プラクティスに従って、正常性、コンプライアンス、セキュリティ、コスト、データ、クラウド リソースを 監視 します。 毎週の運用レビューを実施して、主要なメトリック、最近のインシデント、デプロイされた変更、予想されるリスクについて話し合います。 リソースのスプロールと技術的負債に積極的に対処します。
操作をトレーニングします。 重要な学習リソースに優先順位を付けることで、継続的なスキル開発を促進します。 実践的なトレーニング環境を通じて、動的なクラウド運用を維持します。 次の表に、操作トレーニングのリソースを示します。
運用トレーニング 説明 資格情報の取得 専門知識を構築するために、適用されたスキルや Microsoft 認定資格などの Microsoft 資格情報の目標を設定します。 運用リソースを使用する Azure 管理リソースを参照してください。 製品ドキュメントを使用する Microsoft Learn を使用して、Azure サービスに関するガイダンスを確認します。 実践的な練習をする 非運用環境のサンドボックス環境での実践的な実践を奨励します。
Azure 管理リソース
カテゴリ | 管理リソース | 説明 |
---|---|---|
コンプライアンス | CAF ガバナンス | Microsoft のクラウド ガバナンス フレームワーク |
安全 | セキュリティ オペレーションを管理する | セキュリティ操作を管理するためのガイダンス |
安全 | Microsoft セキュリティ ツール | Microsoft と Azure のセキュリティ ツールの一覧 |
安全 | ワークロードのセキュリティ | セキュリティに関するワークロード ガイダンス |
リソース管理 | 名前付けとタグ付けの戦略 | リソースを管理するための名前付けとタグ付けの推奨事項 |
リソース管理 | Azure の省略形 | Azure リソースの省略形の一覧 |
リソース管理 | Azure Advisor | Azure のベスト プラクティスに合わせたデジタル アシスタント。 |
リソース管理 | Azure の名前付け規則 | すべての Azure リソースの名前付け規則 |
リソース管理 | Azure サービス ガイド | サービス構成の決定に関するガイダンス |
発達 | ワークロード ソフトウェア開発 | ソフトウェア開発のワークロード ガイダンス |
発達 | Azure アーキテクチャ センター | さまざまなユース ケースのアーキテクチャとガイド |
発達 | 開発者リソース ハブ | 開発者ツールとリソースのハブ |
デプロイメント | Bicep、Terraform、ARM テンプレート | すべての Azure リソースの IaC テンプレート |
デプロイメント | Azure リージョンのペア | Azure のペアになっているリージョンの一覧 |
デプロイメント | Azure Cloud Services のディレクトリ | すべての Azure サービスのディレクトリ |
デプロイメント | ワークロードのデプロイ | 継続的インテグレーションのワークロード ガイダンス |
モニタリング | Azure クラウド資産を監視する | 包括的な Azure 監視ガイダンス |
モニタリング | ワークロードの監視 | 監視のためのワークロード ガイダンス |
費用 | コストを管理する | コスト管理のガイダンス |
費用 | ワークロード コストの最適化 | コストの最適化に関するワークロード ガイダンス |
信頼性 | データの信頼性を管理する | データの信頼性を維持するためのガイダンス |
信頼性 | クラウド リソースの信頼性を管理する | リソースの信頼性を維持するためのガイダンス |
信頼性 | セキュリティ インシデントの管理 | セキュリティ インシデントに対応するための推奨事項 |
[パフォーマンス] | ワークロードのパフォーマンス効率 | パフォーマンス効率のためのワークロード ガイダンス |