Azure SQL Managed Instance の高可用性

[アーティクル]
12/11/2023

この記事では、Azure SQL Managed Instance での高可用性について説明します。

重要

ゾーン冗長構成は、General Purpose サービスレベルではパブリックプレビュー段階にあり、Business Critical サービスレベルでは一般提供が開始されています。

概要

Azure SQL Managed Instance の高可用性アーキテクチャの目的は、短時間のダウンタイム、サービスのメンテナンス操作、予期しない停止など、お客様が開始した管理操作によるお客様のワークロードへの影響を最小限に抑えることです。さまざまなサービスレベルの特定の SLA について詳しくは、Azure SQL Managed Instance に関する記事をご覧ください。

高可用性により、以下への影響から保護されます。

データセンターを形成する可用性ゾーン (複数ゾーンリージョンの場合)
サービスに電源を供給するノードが実行されているラック
ノード自体
アプリケーションレイヤー

地域的または大規模な障害が発生した場合の影響を最小限に抑えるために、ビジネス継続性の概要に記載されている利用可能な手法のいずれかを使用することができます。

SQL Managed Instance は、適用可能なすべてのパッチが適用された Windows オペレーティングシステム上の SQL Server データベースエンジンの最新の安定バージョンで実行されます。 SQL Managed Instance は、パッチの適用、バックアップ、Windows と SQL エンジンのアップグレードなどの重要なサービスタスク、および基になるハードウェア、ソフトウェア、またはネットワークのエラーなどの計画外のイベントを、自動的に処理します。アプリで再試行ロジックが使用されている場合、インスタンスのパッチ適用やフェールオーバーのときのダウンタイムによる大きな影響はありません。 SQL Managed Instance は、クリティカルな状況であっても迅速な復旧が可能であるため、データが常に使用可能であることが保証されます。ほとんどのユーザーは、アップグレードが継続的に実行されていることに気付きません。

高可用性ソリューションは、コミットされたデータが障害によって失われないこと、メンテナンス操作がワークロードに影響を及ぼさないこと、そしてインスタンスがソフトウェアアーキテクチャでの単一障害点にならないことを保証するように設計されています。

サービスレベルに基づいて、2 つの異なる高可用性アーキテクチャモデルがあります。

リモートストレージモデルは、リモートストレージの高可用性と信頼性、および Azure Service Fabric によって管理されるコンピューティングクラスターの高可用性に依存する、General Purpose および Next-gen General Purpose サービスレベルでのコンピューティングとストレージの分離に基づいています。この高可用性モデルでは、メンテナンスアクティビティ中に一定のパフォーマンスの低下を許容できる予算重視のビジネスアプリケーションを対象とします。
ローカルストレージモデルは、ローカルストレージを持つ Business Critical サービスレベルの可用性データベースエンジンノードのクォーラムに依存するデータベースエンジンプロセスのクラスターに基づいています。このローカルストレージモデルは、トランザクションレートが高く、高い IO パフォーマンスを必要とするミッションクリティカルなアプリケーションを対象とします。高可用性アーキテクチャにより、メンテナンスアクティビティ中のワークロードへのパフォーマンスへの影響を最小限に抑えることができます。

ローカル冗長可用性

ローカル冗長可用性は、計算ノードとデータをプライマリリージョンの 1 つのデータセンター内に格納することに基づいており、小規模なネットワークや停電などのローカル障害が発生した場合にデータが保護されます。火災や洪水などの大規模な災害がリージョン内で発生した場合、計算ノードのストレージアカウントやデータのすべてのレプリカが失われたり、回復不能になる可能性があります。そのため、ローカル冗長可用性オプションを使用するときにデータをさらに保護するには、データベースのバックアップに回復性の高いストレージオプションを使用することを検討してください。

汎用のサービス階層

General Purpose サービスレベルでは、リモートストレージの可用性アーキテクチャが使われます。次の図は、計算レイヤーとストレージレイヤーが分離されている4 つの異なるノードを示しています。

計算とストレージの分離を示す図。

リモートストレージの可用性モデルには、2 つのレイヤーが含まれます。

ステートレス計算レイヤー。データベースエンジンプロセスが実行され、一時的なデータとキャッシュデータ (アタッチされた SSD 上の tempdb と model データベース、およびメモリ内のプランキャッシュ、バッファープール、列ストアプールなど) のみが含まれています。このステートレスノードは、データベースエンジンの初期化、ノードの正常性の制御、必要に応じた他のノードへのフェールオーバーの実行を行う Azure Service Fabric によって操作されます。
ステートフルデータレイヤー。データベースファイル (.mdf および .ldf) は Azure Blob Storage に保存されています。 Azure Blob Storage には、データの可用性と冗長性の機能が組み込まれています。ローカル冗長可用性は、データをローカル冗長ストレージ (LRS) に格納することに基づいています。これにより、プライマリリージョンの 1 つのデータセンター内でデータが 3 回コピーされます。データベースエンジンプロセスがクラッシュした場合でも、ログファイル内のすべてのレコードまたはデータファイル内のすべてのページが保持されることが保証されます。

データベースエンジンまたはオペレーティングシステムがアップグレードされるとき、または障害が検出されたとき、Azure Service Fabric は常に、ステートレスデータベースエンジンプロセスを十分な空き容量がある別のステートレス計算ノードに移動します。 Azure Blob Storage 内のデータは移動による影響を受けず、データとログファイルは、新しく初期化されたデータベースエンジンプロセスにアタッチされます。このプロセスにより高い可用性が保証されますが、新しいデータベースエンジンプロセスはコールドキャッシュを使って起動されるため、負荷の高いワークロードでは移行の間にパフォーマンスが低下する可能性があります。

Next-gen General Purpose サービスレベル

Note

Next-gen General Purpose サービスレベルのアップグレードは現在プレビュー段階です。

Next-gen General Purpose は、ページ BLOB ではなくマネージドディスクにインスタンスデータとログファイルを格納するアップグレードされたリモートストレージレイヤを使用する、既存の General Purpose サービスレベルへのアーキテクチャアップグレードです。

Business Critical サービスレベル

Business Critical サービスレベルではローカルストレージ可用性モデルが使われ、コンピューティングリソース (データベースエンジンプロセス) とストレージ (ローカルにアタッチされた SSD) が 1 つのノードに統合されます。高可用性は、コンピューティングとストレージの両方を追加のノードにレプリケートすることで実現されます。

データベースエンジンノードのクラスターの図。

基になるデータベースファイル (.mdf/.ldf) は、非常に低い待機時間の IO をワークロードに提供するために、アタッチされている SSD ストレージ上に配置されています。高可用性は、SQL Server Always On 可用性グループと同様のテクノロジを使用して実装されます。クラスターには、読み取り/書き込みの顧客ワークロードにアクセス可能な単一のプライマリレプリカと、データのコピーを格納する最大 3 つのセカンダリレプリカ (計算とストレージ) が含まれます。プライマリレプリカは、常に変更を順次セカンダリレプリカにプッシュして、各トランザクションをコミットする前に、十分な数のセカンダリレプリカにデータが保持されるようにします。このプロセスにより、何らかの理由でプライマリレプリカまたは読み取り可能なセカンダリレプリカが利用不可になった場合に、フェールオーバー先となる完全に同期されたノードが常に利用可能であることが保証されます。フェールオーバーは、Azure Service Fabric によって開始されます。セカンダリレプリカが新しいプライマリレプリカになると、クォーラムを維持するのに十分な数のレプリカがクラスターに確実にあるよう、別のセカンダリレプリカが作成されます。フェールオーバーが完了すると、Azure SQL の接続は、新しいプライマリレプリカ (または接続文字列に基づく読み取り可能なセカンダリレプリカ)に自動的にリダイレクトされます。

その他の利点として、ローカルストレージ可用性モデルは、読み取り専用の Azure SQL 接続をセカンダリレプリカの 1 つにリダイレクトする機能を備えています。この機能は、読み取りスケールアウトと呼ばれます。追加料金なしで 100% の追加のコンピューティング容量を提供し、分析ワークロードなどの読み取り専用の操作をプライマリレプリカからオフロードします。

ゾーン冗長可用性

ゾーン冗長可用性は、プライマリリージョンの 3 つの Azure 可用性ゾーンに計算ノードとストレージレプリカを配置する方法に基づいています。各可用性ゾーンは、独立した電源、冷却装置、ネットワークを備えた独立した物理的な場所です。

既定では、ローカルストレージ可用性モデル用のノードのクラスターは、同じデータセンター内に作成されます。 Azure Availability Zones の導入により、SQL Managed Instance は、同じリージョン内の異なる可用性ゾーンに、Business Critical インスタンスの異なるレプリカを配置できます。同様に、General Purpose サービスレベルのステートレスコンピューティングノードは別の可用性ゾーンに配置され、ステートフルストレージではゾーン冗長ストレージ (ZRS) 構成が使用されます。

単一障害点をなくすため、制御リングも複数のゾーンで 3 つのゲートウェイリング (GW) として複製できます。特定のゲートウェイリングへのルーティングは Azure Traffic Manager (ATM) によって制御されます。ゾーン冗長構成を選ぶことで、アプリケーションロジックを変更しなくても、Business Critical インスタンスや General Purpose インスタンスに、データセンターの壊滅的な障害などの極めて大規模な障害に対する回復性を持たせることができます。また、任意の既存の Business Critical インスタンスや General Purpose インスタンスを、ゾーン冗長構成に変換することもできます。

ゾーン冗長インスタンスでは、少し離れたところの異なるデータセンターにレプリカがあるため、ネットワーク待ち時間が長くなるとトランザクションのコミット時間が長くなり、一部の OLTP ワークロードのパフォーマンスに影響を及ぼす可能性があります。いつでもゾーン冗長設定を無効にして単一ゾーン構成に戻ることができます。このプロセスはオンライン操作であり、サービスレベルの通常の目標アップグレードと似ています。プロセスの最後に、インスタンスは、ゾーン冗長リングから単一ゾーンリングに (またはその逆に) 移行されます。

ゾーン冗長による高可用性アーキテクチャを、次の図に示します。

ゾーン冗長高可用性アーキテクチャの図。

ゾーン冗長を使うときは、次の点を考慮してください。

ゾーン冗長は、Next-gen General Purpose サービスレベルでは使用できません。
ゾーン冗長構成がサポートされているリージョンの最新情報については、リージョン別のサービスのサポートに関する記事をご覧ください。
ゾーン冗長可用性の場合、既定以外のメンテナンス期間を選択することは、現在、一部のリージョンでのみ可能です。

Business Critical インスタンスでサポートされているリージョン

Business Critical SQL Managed Instance のゾーン冗長は、次のリージョンでサポートされています。

アメリカ	ヨーロッパ	中東	アフリカ	アジア太平洋
ブラジル南部	フランス中部	カタール中部	南アフリカ北部	オーストラリア東部
カナダ中部	イタリア北部	イスラエル中部		インド中部
米国中部	ドイツ中西部			東日本
米国東部	ノルウェー東部			韓国中部
米国東部 2	北ヨーロッパ			東南アジア
米国中南部	英国南部			東アジア
米国西部 2	スウェーデン中部
米国西部 3	スイス北部
	ポーランド中部

General Purpose インスタンスでサポートされているリージョン

Note

ゾーン冗長構成は、General Purpose サービスレベルのパブリックプレビューにあります。

アメリカ	ヨーロッパ	中東	アフリカ	アジア太平洋
ブラジル南部	フランス中部	カタール中部	南アフリカ北部	オーストラリア東部
米国東部	イタリア北部	イスラエル中部		インド中部
米国東部 2	ドイツ中西部			東日本
米国中南部	ノルウェー東部			韓国中部
米国西部 2	北ヨーロッパ			東南アジア
米国西部 3	英国南部			東アジア
	スウェーデン中部
	スイス北部
	ポーランド中部

アプリケーションの障害回復性のテスト

高可用性は、データベースアプリケーションに対して透過的に機能する、SQL Managed Instance プラットフォームの基礎となる部分です。しかし、計画済みまたは計画外のイベント時に開始された自動フェールオーバー操作がアプリケーションに与える影響をテストしてから、運用環境にデプロイする必要があると Microsoft は認識しています。特別な API を呼び出してマネージドインスタンスを再起動することで、フェールオーバーを手動でトリガーできます。ゾーン冗長インスタンスの場合、API 呼び出しによって、クライアント接続が、古いプライマリの可用性ゾーンとは異なる可用性ゾーン内の新しいプライマリにリダイレクトされます。そのため、フェールオーバーが既存のデータベースセッションにどのように影響するかをテストするだけでなく、ネットワーク待機時間の変化によってエンドツーエンドのパフォーマンスを変化させるかどうかを確認することもできます。再起動は負荷のかかる操作であり、数が多いとプラットフォームに負荷をかける可能性があるため、各マネージドインスタンスに対しては、15 分ごとに 1 つのフェールオーバー呼び出しのみが許可されます。

フェールオーバーは、PowerShell、REST API または Azure CLI を使用して開始できます。

PowerShell	REST API	Azure CLI
Invoke-AzSqlInstanceFailover	SQL Managed Instance - フェールオーバー	Azure CLI から REST API 呼び出しを呼び出すために az sql mi failover が使用できます

まとめ

Azure SQL Managed Instance では、Azure プラットフォームと緊密に統合される、組み込みの高可用性ソリューションが使われています。障害の検出と復旧に Service Fabric を、データ保護に Azure BLOB ストレージを、フォールトトレランスを高めるために Availability Zones を活用しています。また、Business Critical サービスレベルでは、データベースのレプリケーションとフェールオーバーのために、SQL Managed Instance は SQL Server の Always On 可用性グループのテクノロジを利用しています。これらのテクノロジを組み合わせることで、アプリケーションは混合ストレージモデルを最大限に活用し、最も要求の厳しい SLA に対応できます。

次のステップ

Azure 可用性ゾーンの詳細
Service Fabric の詳細
Azure Traffic Manager の詳細
SQL Managed Instance で手動フェールオーバーを開始する方法の詳細
高可用性およびディザスターリカバリーのためのその他のオプションについては、ビジネス継続性に関するページを参照してください。

Azure SQL Managed Instance の高可用性

概要