Azure Kubernetes Service (AKS) の高可用性とディザスターリカバリーの概要

[アーティクル]
08/02/2024

クラウドでアプリケーションを作成および管理する場合、機能停止や災害による中断のリスクが常に伴います。ビジネス継続性 (BC) を確保するには、高可用性 (HA) とディザスターリカバリー (DR) を計画する必要があります。

HA は、信頼性が高く、ダウンタイムを最小限に抑えるシステムまたはサービスの設計と実装を指します。 HA は、目的の機能をシステムまたはサービスが確実に実行できるようにするツール、テクノロジー、プロセスの組み合わせです。 HA は、DR 計画の重要なコンポーネントです。 DR は、障害から復旧し、事業運営を通常の状態に復元するプロセスです。 DR は、BC (大規模な中断が発生した場合にビジネス機能を維持する、または即座に再開するプロセス) のサブセットです。

この記事では、AKS にデプロイされるアプリケーションについて推奨されるプラクティスをいくつか取り上げますが、考えられるソリューションの完全な一覧を意味するものではありません。

テクノロジの概要

Kubernetes クラスターは、次の 2 つのコンポーネントに分割されています。

コントロールプレーン。中心的な Kubernetes サービスと、アプリケーションのオーケストレーションを提供します。
ノード。アプリケーションワークロードを実行します。

Kubernetes のコントロールプレーンとノードのコンポーネントの図。

AKS クラスターを作成すると、Azure プラットフォームによってコントロールプレーンが自動的に作成されて構成されます。 AKS には、クラスター管理用に Free レベルと Standard レベルの 2 つの価格レベルが用意されています。詳しくは、AKS クラスター管理での Free と Standard の価格レベルに関する記事をご覧ください。

コントロールプレーンとそのリソースは、クラスターを作成したリージョンにのみ存在します。 AKS は、専用の API サーバーやスケジューラなどを備えたシングルテナントコントロールプレーンを提供します。ノードの数とサイズを定義すると、Azure プラットフォームによって、コントロールプレーンとノードの間のセキュリティで保護された通信が構成されます。コントロールプレーンとの対話は、kubectl や Kubernetes ダッシュボードなどの Kubernetes API を介して行われます。

アプリケーションとサポート対象のサービスを実行するには、Kubernetes のノードが必要です。 AKS クラスターには少なくとも 1 つのノードがあり、これは Kubernetes ノードのコンポーネントとコンテナーランタイムを実行する Azure Vrtual Machine (VM) となります。ノードの Azure VM サイズでは、CPU、メモリ、サイズ、使用可能なストレージの種類 (高性能の SSD や通常の HDD など) を定義します。アプリケーションで大容量の CPU やメモリ、または高性能ストレージが必要かどうかに応じて VM とストレージのサイズを計画します。 AKS では、クラスターのノードの VM イメージは、Ubuntu Linux、Azure Linux、または Windows Server 2022 に基づいています。 AKS クラスターを作成したり、ノード数をスケールアウトしたりすると、Azure プラットフォームによって、要求された数の VM が作成され構成されます。

AKS のクラスターおよびワークロードコンポーネントの詳細については、AKS での Kubernetes の中心的な概念に関するページを参照してください。

重要な考慮事項

リージョンリソースとグローバルリソース

リージョンリソースは、デプロイスタンプの一部として単一の Azure リージョンにプロビジョニングされます。これらのリソースは、他のリージョンのリソースと何も共有せず、個別に削除したり、他のリージョンにレプリケートしたりすることができます。詳細については、「リージョンリソース」を参照してください。

グローバルリソースは、システムの有効期間を共有し、マルチリージョンデプロイのコンテキスト内でグローバルに使用できます。詳細については、「グローバルリソース」を参照してください。

復旧目標

完全なディザスターリカバリー計画では、アプリケーションに実装される各プロセスのビジネス要件を指定する必要があります。

回復ポイントの目標 (RPO)は、データ損失が許容される最大継続時間です。 RPO は、分、時間、日などの時間単位で測定されます。
目標復旧時間 (RTO) は、ダウンタイムが許容される最大継続時間です。"ダウンタイム" は仕様によって定義されます。たとえば、障害発生時に許容されるダウンタイムの期間が "8 時間" の場合、RTO は 8 時間です。

可用性ゾーン

可用性ゾーンを使用すると、同じリージョン内の複数のゾーン間でデータを分散できます。リージョン内では、可用性ゾーンは、他の可用性ゾーンへの待機時間の短い接続を行えるほど十分に近接していますが、複数の可用性ゾーンがローカルな停止や気象の影響を受ける可能性を減らせるほど十分に離れています。詳細については、「可用性ゾーンとリージョンを使用するための推奨事項」を参照してください。

ゾーンの回復性

AKS クラスターは、ゾーン障害に対する回復性があります。ゾーンで障害が発生した場合、クラスターは残りのゾーンで引き続き実行されます。クラスターのコントロールプレーンとノードはゾーン間で分散され、ノードの分散は Azure プラットフォームによって自動的に処理されます。詳細については、AKS ゾーンの回復性に関する記事を参照してください。

負荷分散

グローバル負荷分散

グローバル負荷分散サービスは、トラフィックをリージョンのバックエンド間、クラウド間、またはハイブリッドオンプレミスサービス間で分散します。これらのサービスは、エンドユーザーのトラフィックを、最も近い使用可能なバックエンドにルーティングします。可用性とパフォーマンスを最大化するために、サービスの信頼性またはパフォーマンスの変化にも反応します。グローバル負荷分散を提供する Azure サービスは、次のとおりです。

リージョン負荷分散

リージョン負荷分散サービスは、仮想ネットワーク内のトラフィックを、リージョン内の仮想マシン (VM) 間、またはゾーンおよびゾーン冗長のサービスエンドポイント間で分散します。リージョン負荷分散を提供する Azure サービスは、次のとおりです。

可観測性

効果的な運用を可能にし、信頼性を最大化するには、アプリケーションとインフラストラクチャからデータを収集する必要があります。 Azure には、AKS ワークロードの監視と管理に役立つツールが用意されています。詳細については、「監視リソース」を参照してください。

スコープ定義

アプリケーションのアップタイムは、AKS クラスターを管理する際に重要になります。既定で、AKS では、仮想マシンスケールセット内の複数のノードを使用して高可用性を提供しますが、これらのノードによってシステムがリージョン障害から保護されることはありません。アップタイムを最大化するには、次のベストプラクティスを使用して、事業継続の維持とディザスターリカバリーの準備を事前に計画します。

複数リージョン内の AKS クラスターに関する計画を立てる。
Azure Traffic Manager を使用して、複数のクラスター間でトラフィックをルーティングする。
コンテナーイメージのレジストリに geo レプリケーションを使用する。
複数のクラスター間でのアプリケーション状態に関する計画を立てる。
複数のリージョン間でストレージをレプリケートする。

デプロイモデルの実装

デプロイメントモデル	長所	デメリット
アクティブ/アクティブ	• フェールオーバー中にデータの損失または不整合が発生しない • 高い回復性 • パフォーマンスが高いリソースの使用率の向上	• 複雑な実装と管理 • 高コスト • 負荷分散とトラフィックルーティングの形成が必要
アクティブ/パッシブ	• 実装と管理の簡略化 • 低コスト • 負荷分散とトラフィックマネージャーが不要	• フェールオーバー中にデータの損失または不整合が発生する可能性がある • 復旧時間とダウンタイムの増加 • リソースの過小使用
パッシブ/コールド	• 最低コスト • 同期、レプリケーション、負荷分散、またはトラフィックマネージャーが不要 • 優先順位が低く重要ではないワークロードに適している	• フェールオーバー中にデータの損失または不整合が発生するリスクが高い • 復旧時間とダウンタイムが最長 • クラスターをアクティブ化し、バックアップをトリガーするには、手動による介入が必要

アクティブ/アクティブの高可用性デプロイモデル

アクティブ/アクティブの高可用性 (HA) デプロイモデルでは、2 つの異なる Azure リージョン (通常は、カナダ中部とカナダ東部、米国東部 2 と米国中部などのペアになっているリージョン) に、トラフィックをアクティブに処理する 2 つの独立した AKS クラスターがデプロイされます。

このアーキテクチャ例では、次のようになります。

2 つの AKS クラスターを個別の Azure リージョンにデプロイします。
通常の運用中、ネットワークトラフィックは両方のリージョン間にルーティングされます。一方のリージョンが使用できなくなった場合、トラフィックは、要求を発行したユーザーに最も近いリージョンに自動的にルーティングされます。
リージョンの AKS インスタンスごとにハブスポークのペアがデプロイされます。各リージョン間のファイアウォール規則は、Azure Firewall Manager ポリシーによって管理されます。
Azure Key Vault は、シークレットとキーを格納するために、各リージョンにプロビジョニングされます。
Azure Front Door は、トラフィックを負荷分散し、各 AKS クラスターの前に配置されているリージョンの Azure Application Gateway インスタンスにルーティングします。
リージョンの Log Analytics インスタンスは、リージョンのネットワークメトリックと診断ログを格納します。
ワークロードのコンテナーイメージは、マネージドコンテナーレジストリに格納されます。 1 つの Azure Container Registry が、クラスター内のすべての Kubernetes インスタンスに使用されます。 Azure Container Registry の geo レプリケーションにより、選択した Azure リージョンへのイメージのレプリケートが可能になり、リージョンで停止が発生した場合でも、引き続きイメージにアクセスできます。

AKS でアクティブ/アクティブのデプロイモデルを作成するには、次の手順を行います。

2 つの異なる Azure リージョンに 2 つの同一のデプロイを作成します。
Web アプリの 2 つのインスタンスを作成します。
次のリソースを含む Azure Front Door プロファイルを作成します。
- エンドポイント。
- それぞれが優先度 1 の 2 つの配信元グループ。
- 1 つのルート。
Web アプリへのネットワークトラフィックを Azure Front Door インスタンスからのみに制限します。 5. データベース、ストレージアカウント、認証プロバイダーなどの他のすべてのバックエンド Azure サービスを構成します。
継続的デプロイを使用して、両方の Web アプリにコードをデプロイします。

詳細については、「AKS の推奨されるアクティブ/アクティブの高可用性ソリューションの概要」を参照してください。

アクティブ/パッシブのディザスターリカバリーデプロイモデル

アクティブ/パッシブのディザスターリカバリー (DR) デプロイモデルでは、2 つの異なる Azure リージョン (通常は、カナダ中部とカナダ東部、米国東部 2 と米国中部などのペアになっているリージョン) に、トラフィックをアクティブに処理する 2 つの独立した AKS クラスターがデプロイされます。特定の時点でトラフィックをアクティブに処理するのは、一方のクラスターのみです。他方のクラスターには、アクティブなクラスターと同じ構成とアプリケーションデータが含まれますが、トラフィックマネージャーによって指示されない限り、トラフィックは受け入れられません。

このアーキテクチャ例では、次のようになります。

2 つの AKS クラスターを個別の Azure リージョンにデプロイします。
通常の操作中、ネットワークトラフィックは、Azure Front Door 構成で設定されたプライマリ AKS クラスターにルーティングされます。
- 優先度は、"1 から 5" の間で設定する必要があり、1 が最も高く、5 が最も低い優先度です。
- 複数のクラスターを同じ優先度レベルに設定し、クラスターごとに重みを指定できます。
プライマリクラスターが使用できなくなった (障害が発生した) 場合、トラフィックは Azure Front Door で選択された次のリージョンに自動的にルーティングされます。
- このシステムが機能するには、すべてのトラフィックが Azure Front Door を経由する必要があります。
Azure Front Door は、トラフィックをプライマリリージョンの Azure App Gateway にルーティングします (クラスターには優先度 1 でマークされている必要があります)。リージョンで障害が発生した場合、サービスにより、優先度リスト内の次のクラスターにトラフィックがリダイレクトされます。
- 規則は、Azure Front Door から取得されます。
ハブスポークのペアは、リージョン AKS インスタンスごとにデプロイされます。各リージョン間のファイアウォール規則は、Azure Firewall Manager ポリシーによって管理されます。
Azure Key Vault は、シークレットとキーを格納するために、各リージョンにプロビジョニングされます。
リージョンの Log Analytics インスタンスは、リージョンのネットワークメトリックと診断ログを格納します。
ワークロードのコンテナーイメージは、マネージドコンテナーレジストリに格納されます。 1 つの Azure Container Registry が、クラスター内のすべての Kubernetes インスタンスに使用されます。 Azure Container Registry の geo レプリケーションにより、選択した Azure リージョンへのイメージのレプリケートが可能になり、リージョンで停止が発生した場合でも、引き続きイメージにアクセスできます。

AKS でアクティブ/パッシブのデプロイモデルを作成するには、次の手順を行います。

2 つの異なる Azure リージョンに 2 つの同一のデプロイを作成します。
プライマリリージョンが非アクティブになったときにプライマリと同じインスタンス数にスケーリングされるように、セカンダリアプリケーションの自動スケーリング規則を構成します。非アクティブな間は、スケールアップする必要はありません。これは、コストの削減に役立ちます。
Web アプリケーションの 2 つのインスタンスを (各クラスターに 1 つずつ) 作成します。
次のリソースを含む Azure Front Door プロファイルを作成します。
- エンドポイント。
- プライマリリージョン用の優先度が 1 の配信元グループ。
- セカンダリリージョン用の優先度が 2 の 2 番目の配信元グループ。
- 1 つのルート。
Web アプリケーションへのネットワークトラフィックを Azure Front Door インスタンスからのトラフィックのみに制限します。
データベース、ストレージアカウント、認証プロバイダーなどの他のすべてのバックエンド Azure サービスを構成します。
継続的デプロイを使用して、両方の Web アプリケーションにコードをデプロイします。

詳細については、「AKS の推奨されるアクティブ/パッシブのディザスターリカバリーソリューションの概要」を参照してください。

パッシブ/コールドのフェールオーバーデプロイモデル

パッシブ/コールドのフェールオーバーデプロイモデルは、アクティブ/パッシブのディザスターリカバリーデプロイモデルと同じ方法で構成されます。ただし、クラスターは、障害発生時にユーザーがアクティブにするまで非アクティブのままです。必要な構成はアクティブ/パッシブと同様ですが、クラスターをアクティブにしてバックアップをトリガーするための手動介入の複雑さが増すため、このアプローチは "対象外" であると考えられます。

このアーキテクチャ例では、次のようになります。

回復性を向上するには、可能であれば異なるリージョンまたはゾーンに、2 つの AKS クラスターを作成します。
フェールオーバーする必要がある場合、デプロイをアクティブにしてトラフィックフローを引き継ぎます。
プライマリのパッシブクラスターがダウンした場合、トラフィックフローを引き継ぐには、コールドクラスターを手動でアクティブにする必要があります。
この条件は、毎回手動で入力して設定するか、ユーザーが指定した特定のイベントによって設定する必要があります。
Azure Key Vault は、シークレットとキーを格納するために、各リージョンにプロビジョニングされます。
リージョンの Log Analytics インスタンスは、各クラスターのリージョンのネットワークメトリックと診断ログを格納します。

AKS でパッシブ/コールドのフェールオーバーデプロイモデルを作成するには、次の手順を行います。

異なるゾーンまたはリージョンに 2 つの同一のデプロイを作成します。
プライマリリージョンが非アクティブになったときにプライマリと同じインスタンス数にスケーリングされるように、セカンダリアプリケーションの自動スケーリング規則を構成します。非アクティブな間は、スケールアップする必要はなく、コストの削減に役立ちます。
Web アプリケーションの 2 つのインスタンスを (各クラスターに 1 つずつ) 作成します。
データベース、ストレージアカウント、認証プロバイダーなどの他のすべてのバックエンド Azure サービスを構成します。
コールドクラスターをトリガーする必要がある場合の条件を設定します。必要に応じて、ロードバランサーを使用できます。

詳細については、「AKS の推奨されるパッシブ/コールドのフェールオーバーソリューションの概要」を参照してください。

サービスのクォータと制限

AKS には、特定の VM SKU に関する使用制限など、リソースと機能に対して既定の制限とクォータが設定されています。

リソース	制限
グローバルで見たサブスクリプションあたりの最大クラスター数	5,000
1 リージョン 1 サブスクリプションあたりの最大クラスター数 ¹	100
Virtual Machine Scale Sets と Standard Load Balancer SKU を使用したクラスターあたりの最大ノード数	5000 (すべてのノードプール対象) 注: クラスターあたり最大 5000 ノードまでスケールアップできない場合は、大規模なクラスターのベストプラクティスを参照してください。
ノードプールあたりの最大ノード数 (Virtual Machine Scale Sets ノードプール)	1000
クラスターあたりの最大ノードプール数	100
ノードあたりの最大ポッド数: Kubenet ネットワーキングプラグインを使用した場合¹	最大値: 250 Azure CLI の既定値: 110 Azure Resource Manager テンプレートの既定値: 110 Azure portal デプロイの既定値: 30
ノードあたりの最大ポッド数: Azure Container Networking Interface (Azure CNI) を使用した場合²	最大値: 250 Windows Server コンテナーに推奨される最大値: 110 既定値: 30
Open Service Mesh (OSM) AKS アドオン	Kubernetes クラスターのバージョン: AKS でサポートされているバージョンクラスターあたりの OSM コントローラー数: 1 OSM コントローラーあたりのポッド数: 1600 OSM によって管理される Kubernetes サービスアカウント数: 160
Standard Load Balancer SKU を使用したクラスターあたりの最大負荷分散 kubernetes サービス数	300
仮想マシン可用性セットと Basic Load Balancer SKU を使用したクラスターあたりの最大ノード	100

¹ 要求に応じて追加できます。
² Windows Server コンテナーでは Azure CNI ネットワークプラグインを使用する必要があります。 Kubenet は Windows Server コンテナーではサポートされていません。

Kubernetes コントロールプレーンのサービスレベル	制限
Standard レベル	負荷に基づいて Kubernetes API サーバーを自動的にスケーリングします。より大きなコントロールプレーンコンポーネントの制限と API サーバー/etcd インスタンス。
Free レベル	50 件の変更と 100 件の読み取り専用の呼び出しという配信要求制限付きの制限されたリソース。クラスターあたり 10 個のノードという推奨ノード制限。実験、学習、簡単なテストに最適です。運用環境や重要なワークロードにはお勧めしません。

詳細については、AKS サービスのクォータと制限に関する記事を参照してください。

バックアップ

Azure Backup では、バックアップ拡張機能を使用して、AKS クラスターリソースと、クラスターにアタッチされた永続ボリュームのバックアップがサポートされています。 Backup コンテナーは、拡張機能を介して AKS クラスターと通信して、バックアップと復元の操作を実行します。

詳細については、次の記事をご覧ください。

次の方法で共有

Azure Kubernetes Service (AKS) の高可用性とディザスターリカバリーの概要

テクノロジの概要

重要な考慮事項

リージョンリソースとグローバルリソース

復旧目標

可用性ゾーン

ゾーンの回復性

負荷分散

グローバル負荷分散

リージョン負荷分散

可観測性

スコープ定義

デプロイモデルの実装

アクティブ/アクティブの高可用性デプロイモデル

アクティブ/パッシブのディザスターリカバリーデプロイモデル

パッシブ/コールドのフェールオーバーデプロイモデル

サービスのクォータと制限

バックアップ

その他のリソース

次の方法で共有

Azure Kubernetes Service (AKS) の高可用性とディザスター リカバリーの概要

テクノロジの概要

重要な考慮事項

リージョン リソースとグローバル リソース

復旧目標

可用性ゾーン

ゾーンの回復性

負荷分散

グローバル負荷分散

リージョン負荷分散

可観測性

スコープ定義

デプロイ モデルの実装

アクティブ/アクティブの高可用性デプロイ モデル

アクティブ/パッシブのディザスター リカバリー デプロイ モデル

パッシブ/コールドのフェールオーバー デプロイ モデル

サービスのクォータと制限

バックアップ

その他のリソース

Azure Kubernetes Service (AKS) の高可用性とディザスターリカバリーの概要

リージョンリソースとグローバルリソース

デプロイモデルの実装

アクティブ/アクティブの高可用性デプロイモデル

アクティブ/パッシブのディザスターリカバリーデプロイモデル

パッシブ/コールドのフェールオーバーデプロイモデル