Azure Database for PostgreSQL - フレキシブルサーバーでの高可用性 (信頼性)

[アーティクル]
12/21/2023

適用対象: Azure Database for PostgreSQL - フレキシブルサーバー

この記事では、Azure Database for PostgreSQL - フレキシブルサーバーの高可用性について説明します。これには、可用性ゾーン、リージョン間の復旧とビジネス継続性が含まれます。 Azure における信頼性の詳細については、Azure の信頼性に関するページを参照してください。

Azure Database for PostgreSQL - フレキシブルサーバーでは、同じ可用性ゾーン内 (ゾーン) または可用性ゾーン間 (ゾーン冗長) で、物理的に分離されたプライマリレプリカとスタンバイレプリカをプロビジョニングすることで、高可用性のサポートを提供します。この高可用性モデルは、障害が発生した場合にコミットされたデータが失われないように設計されています。また、このモデルは、データベースがソフトウェアアーキテクチャにおいて単一障害点とならないようにも設計されています。高可用性と可用性ゾーンのサポートに関する詳細については、「可用性ゾーンのサポート」をご覧ください。

可用性ゾーンのサポート

Azure 可用性ゾーンとは、各 Azure リージョン内にある、3 つ以上に物理的に分離されたデータセンターのグループです。各ゾーン内のデータセンターには、独立した電源、冷却手段、ネットワークインフラストラクチャが備わっています。ローカルゾーンの障害が発生した場合、可用性ゾーンは、1 つのゾーンが影響を受けたときに、リージョンのサービス、容量、高可用性が残りの 2 つのゾーンによってサポートされるように設計されています。

障害の範囲は、ソフトウェアやハードウェアの障害から、地震、水害、火災などの事象に至る可能性があります。 Azure サービスの冗長と論理的な分離により、障害に対するトレランスが実現されます。 Azure の可用性ゾーンの詳細については、リージョンと可用性ゾーンに関する記事を参照してください。

Azure の可用性ゾーン対応サービスは、適切なレベルの信頼性と柔軟性を提供するように設計されています。それらは 2 つの方法で構成できます。それらは、ゾーン間の自動レプリケーションによるゾーン冗長、またはインスタンスを特定のゾーンにピン留めするゾーンベースのいずれかになります。これらのアプローチを組み合わせることもできます。ゾーンベースとゾーン冗長のアーキテクチャを比較した詳細については、「可用性ゾーンとリージョンの使用に関する推奨事項」を参照してください。

Azure Database for PostgreSQL - フレキシブルサーバーでは、高可用性構成のゾーン冗長モデルとゾーンモデルの両方がサポートされています。どちらの高可用性構成でも、計画的なイベントと計画外のイベントの両方で、データ損失ゼロの自動フェールオーバー機能が有効になります。

ゾーン冗長。ゾーン冗長の高可用性では、別のゾーン内に自動フェールオーバー機能を備えたスタンバイレプリカがデプロイされます。ゾーン冗長では最高レベルの可用性が提供されますが、ゾーン間でアプリケーションの冗長性を構成する必要があります。そのため、ゾーン冗長は、可用性ゾーンレベルの障害からの保護が必要な場合や、可用性ゾーン間の待機時間を許容できる場合に選択します。

プライマリサーバーとスタンバイサーバーの両方について、リージョンと可用性ゾーンを選択できます。スタンバイレプリカサーバーは、同じリージョン内の選択した可用性ゾーンにプロビジョニングされ、コンピューティング、ストレージ、ネットワーク構成はプライマリサーバーと同じになります。データファイルとトランザクションログファイル (先書きログ、別名 WAL) は、各可用性ゾーン内のローカル冗長ストレージ (LRS) に保存され、その際に 3 つのデータコピーが自動的に保存されます。ゾーン冗長構成では、プライマリサーバーとスタンバイサーバー間でスタック全体が物理的に分離されます。
ゾーンベース。単一の可用性ゾーン内で最高レベルの可用性を実現しながら、ネットワーク待機時間を最小限に抑えたい場合は、ゾーンデプロイを選択します。両方のプライマリデータベースサーバーをデプロイするリージョンと可用性ゾーンを選択できます。スタンバイレプリカサーバーは、同じ可用性ゾーンで自動的にプロビジョニングおよび管理され、コンピューティング、ストレージ、ネットワーク構成はプライマリサーバーと同じになります。ゾーン構成は、ノードレベルの障害からデータベースを保護し、計画的および計画外のダウンタイムイベント中のアプリケーションのダウンタイムを削減するのにも役立ちます。プライマリサーバーからのデータは、同期モードでスタンバイレプリカにレプリケートされます。プライマリサーバーで何らかの障害が発生した場合、サーバーは自動的にスタンバイレプリカにフェールオーバーされます。

Note

ゾーンデプロイモデルとゾーン冗長デプロイモデルは、アーキテクチャ的にはどちらも同じように動作します。以下のセクションのさまざまな記述は、特に明記されていない限り、両方に適用されます。

前提条件

ゾーン冗長性:

ゾーン冗長オプションは、可用性ゾーンをサポートするリージョンでのみ使用できます。
ゾーン冗長は、次ではサポートされていません。
- Azure Database for PostgreSQL - 単一サーバー SKU。
- バースト可能なコンピューティング層。
- 単一ゾーンの可用性を持つリージョン。

ゾーン:

ゾーン デプロイオプションは、フレキシブルサーバーをデプロイできるすべての Azure リージョンで利用できます。

高可用性機能

スタンバイレプリカは、プライマリサーバーと同じ VM 構成 (仮想コア、ストレージ、ネットワーク設定を含む) でデプロイされます。
既存のデータベースサーバーに可用性ゾーンのサポートを追加できます。
高可用性を無効にすることで、スタンバイレプリカを削除できます。
ゾーン冗長可用性を実現するために、プライマリデータベースサーバーとスタンバイデータベースサーバーの可用性ゾーンを選択できます。
停止、開始、再起動などの操作は、プライマリとスタンバイの両方のデータベースサーバーで同時に実行されます。
ゾーン冗長モデルおよびゾーンモデルでは、自動バックアップがプライマリデータベースサーバーから定期的に実行されます。同時に、トランザクションログがスタンバイレプリカからバックアップストレージに継続的にアーカイブされます。リージョンで可用性ゾーンがサポートされている場合、バックアップデータがゾーン冗長ストレージ (ZRS) に保存されます。可用性ゾーンがサポートされていないリージョンでは、バックアップデータがローカル冗長ストレージ (LRS) に保存されます。
クライアントは常に、プライマリデータベースサーバーのエンドホスト名に接続されます。
サーバーパラメーターへの変更は、スタンバイレプリカにも適用されます。
静的サーバーパラメーターの変更を取得するためにサーバーを再起動する機能。
マイナーバージョンのアップグレードなどの定期的なメンテナンスアクティビティは、ダウンタイムを減らすために、最初にスタンバイで行われ、残りのノードにメンテナンスタスクが適用されている間、ワークロードを維持できるようにスタンバイがプライマリに昇格されます。

高可用性の制限

スタンバイサーバー (特にゾーン冗長構成を使用したもの) への同期レプリケーションのため、アプリケーションで書き込みとコミットの待機時間が長くなる場合があります。
スタンバイレプリカを読み取りクエリに使用することはできません。
プライマリサーバーでのワークロードとアクティビティによっては、昇格する前にスタンバイレプリカで復旧が必要な場合、フェールオーバープロセスにかかる時間が 120 秒を超える場合があります。
通常、スタンバイサーバーでは、40 MB/秒で WAL ファイルが復旧されます。ワークロードがこの制限を超える場合、フェールオーバー中または新しいスタンバイの確立後、復旧完了までの時間が延びる可能性があります。
可用性ゾーンを構成すると、書き込みとコミットに多少の待機時間が発生しますが、クエリの読み取りにはまったく影響しません。パフォーマンスへの影響は、実際のワークロードによって異なります。一般的なガイドラインとして、書き込みとコミットへの影響は、約 20 ～ 30% の影響となる可能性があります。
プライマリデータベースサーバーを再起動すると、スタンバイレプリカも再起動されます。
追加のスタンバイの構成はサポートされていません。
お客様が開始した管理タスクの構成は、管理されたメンテナンス期間中にスケジュールすることはできません。
コンピューティングのスケーリングやストレージのスケーリングなどの計画的なイベントは、最初にスタンバイで、その後にプライマリサーバーで実行されます。現在、これらの計画的な操作については、サーバーのフェールオーバーは行われません。
可用性が構成されているたフレキシブルサーバーで論理デコードまたは論理レプリケーションが構成されている場合、スタンバイサーバーへのフェールオーバー発生時に、論理レプリケーションスロットがスタンバイサーバーにコピーされることはありません。論理レプリケーションスロットを維持し、フェールオーバー後のデータ整合性を確保するには、PG フェールオーバースロット拡張機能を使用することをお勧めします。この拡張機能を有効にする方法の詳細については、ドキュメントを参照してください。
プライベート (VNET) とプライベートエンドポイントを使用したパブリックアクセス間の可用性ゾーンの構成はサポートされていません。 VNET 内 (1 つのリージョン内の複数の可用性ゾーンにまたがる) で可用性ゾーンを構成するか、またはプライベートエンドポイントを使用したパブリックアクセスを構成する必要があります。
可用性ゾーンは、単一のリージョン内でのみ構成されます。可用性ゾーンをリージョン間で構成することはできません。

SLA

ゾーン モデルでは、99.95% の SLA のアップタイムを実現します。
ゾーン冗長モデルでは、99.99% の SLA のアップタイムを実現します。

可用性ゾーンが有効な Azure Database for PostgreSQL フレキシブルサーバーを作成する

可用性ゾーンを使用して高可用性を実現する Azure Database for PostgreSQL - フレキシブルサーバーを作成する方法については、「クイックスタート:Azure portal 内で Azure Database for PostgreSQL - フレキシブルサーバーを作成する」をご覧ください。

可用性ゾーンの再デプロイと移行

ゾーン冗長デプロイモデルとゾーンデプロイモデルの両方で、フレキシブルサーバーでの高可用性構成を有効または無効にする方法については、「フレキシブルサーバーで高可用性を管理する」をご覧ください。

高可用性コンポーネントとワークフロー

トランザクションの完了

アプリケーションのトランザクションによってトリガーされた書き込みとコミットは、まずプライマリサーバー上の WAL に記録されます。これらはその後、Postgres ストリーミングプロトコルを使用してスタンバイサーバーにストリーミングされます。ログがスタンバイサーバーのストレージで永続化されたら、プライマリサーバーが書き込みの完了を確認します。その後はじめて、アプリケーションでトランザクションのコミットが確認されます。この追加的なラウンドトリップの分、アプリケーションでの待機時間が長くなります。影響の度合いは、アプリケーションによって異なります。この確認プロセスでは、スタンバイサーバーへのログの適用を待機しません。スタンバイサーバーは、昇格されるまで永続的に復旧モードになります。

正常性チェック

フレキシブルサーバーの稼働状況の監視では、プライマリとスタンバイの両方の正常性が定期的にチェックされます。複数の ping の後、稼働状況の監視でプライマリサーバーに到達できないことが検出された場合、サービスはスタンバイサーバーへの自動フェールオーバーを開始します。稼働状況の監視のアルゴリズムは、擬陽性を回避するため、複数のデータポイントに基づいています。

フェールオーバーモード

フレキシブルサーバーは、計画フェールオーバーと計画外フェールオーバー の 2 つのフェールオーバーモードをサポートします。どちらのモードでも、レプリケーションが切断されると、スタンバイサーバーはプライマリとして昇格されたり、読み取り/書き込み用に開かれる前に、復旧を実行します。新しいプライマリサーバーエンドポイントで自動 DNS エントリが更新されると、アプリケーションは同じエンドポイントを使用してサーバーに接続できるようになります。新しいスタンバイサーバーがバックグラウンドで確立されるので、それによってアプリケーションは接続性を維持できます。

高可用性の状態

プライマリとスタンバイサーバーの正常性は継続的に監視され、スタンバイサーバーへのフェールオーバーのトリガーなど、問題を修復するための適切なアクションが実行されます。次の表に、考えられる高可用性の状態を示します。

状態	説明
初期化中	新しいスタンバイサーバーの作成中です。
データのレプリケート中	スタンバイの作成後、そのスタンバイがプライマリに追い付こうとしています。
Healthy	レプリケーションは安定状態にあり、正常です。
フェールオーバー中	データベースサーバーはスタンバイにフェールオーバー中です。
スタンバイの削除中	スタンバイサーバーの削除中です。
有効ではない	高可用性が有効ではありません。

Note

高可用性の有効化はサーバーの作成時に行うことも、後で行うこともできます。作成後のステージで高可用性の有効化または無効化を行う場合は、プライマリサーバーのアクティビティが少ないときに操作することをお勧めします。

安定状態の操作

PostgreSQL クライアントアプリケーションは、DB サーバー名を使用してプライマリサーバーに接続されます。アプリケーションの読み取りは、プライマリサーバーから直接行なわれます。同時に、コミットと書き込みは、ログデータがプライマリサーバーとスタンバイレプリカの両方に保存された後にのみ、アプリケーションに確認されます。この余分なラウンドトリップのため、アプリケーションでは、書き込みとコミットの待機時間が長くなることが予想されます。高可用性の正常性はポータルで監視できます。

Picture showing high availability steady state operation workflow.

クライアントがフレキシブルサーバーに接続し、書き込み操作を実行します。
変更はスタンバイサイトにレプリケートされます。
プライマリが受信確認を受け取ります。
書き込み/コミットが確認されます。

高可用性サーバーのポイントインタイムリストア

高可用性が構成されているフレキシブルサーバーでは、ログデータはリアルタイムでスタンバイサーバーにレプリケートされます。プライマリサーバー上のユーザーエラー (テーブルの予想外の切断やデータの間違った更新など) は、スタンバイレプリカにレプリケートされます。そのため、このような論理エラーから復旧するためにスタンバイを使用することはできません。このようなエラーから復旧するには、バックアップからポイントインタイムリストアを実行する必要があります。フレキシブルサーバーのポイントインタイムリストア機能を使用すると、エラーが発生する前の時刻に復元できます。新しいデータベースサーバーが、高可用性が構成されたデータベースのために単一ゾーンフレキシブルサーバーとして復元され、ユーザーが指定した新しいサーバー名が付けられます。復元されたサーバーは、次のようないくつかのユースケースに使用できます:

復元されたサーバーを運用環境に使用し、必要に応じて、同じゾーンまたは同じリージョン内の別のゾーンのスタンバイレプリカで高可用性を有効にすることができます。
オブジェクトを復元する場合は、復元されたデータベースサーバーからオブジェクトをエクスポートして、運用データベースサーバーにインポートします。
テストおよび開発目的でデータベースサーバーを複製する場合や、その他の目的のために復元する場合は、ポイントインタイムリストアを実行できます。

フレキシブルサーバーのポイントインタイムリストアを実行する方法については、「フレキシブルサーバーのポイントインタイムリストア」をご覧ください。

フェールオーバーのサポート

計画されたフェールオーバー

計画的なダウンタイムのイベントには、Azure のスケジュールされた定期的なソフトウェア更新やマイナーバージョンのアップグレードが含まれます。計画フェールオーバーを使用して、プライマリサーバーを優先可用性ゾーンに戻すこともできます。高可用性で構成されている場合は、アプリケーションが引き続きプライマリサーバーにアクセスしている間、これらの操作は最初にスタンバイレプリカに適用されます。スタンバイレプリカが更新されると、プライマリサーバーの接続がドレインされ、スタンバイレプリカを同じデータベースサーバー名を持つプライマリとしてアクティブ化するフェールオーバーがトリガーされます。クライアントアプリケーションは、同じデータベースサーバー名を使用して新しいプライマリサーバーに再接続する必要があり、その後に操作を再開できます。新しいスタンバイサーバーは、古いプライマリと同じゾーン内に確立されます。

他のユーザーが開始した操作 (コンピューティングのスケーリングやストレージのスケーリングなど) の場合、変更は最初にスタンバイで、その後にプライマリで適用されます。現在、サービスはスタンバイにフェールオーバーされないため、スケール操作がプライマリサーバーで実行されている間、アプリケーションで短時間のダウンタイムが発生します。

また、この機能を使用すると、ダウンタイムを短縮してスタンバイサーバーにフェールオーバーできます。例えば、計画外のフェールオーバー後に、プライマリがアプリケーションとは異なる可用性ゾーンに存在する可能性があります。アプリケーションと併置するために、プライマリサーバーを前のゾーンに戻す必要があります。

この機能を実行する場合、スタンバイサーバーでは、まず最新のトランザクションに追い付いていることを確認するための準備が行われ、アプリケーションで読み取りや書き込みを続行できるようになります。その後、スタンバイが昇格され、プライマリへの接続が切断されます。新しいスタンバイサーバーがバックグラウンドで確立されている間、アプリケーションは引き続きプライマリに書き込みを行うことができます。計画フェールオーバーに伴う手順を次に示します。

Step	説明	アプリのダウンタイムが予想されるかどうか
1	スタンバイサーバーがプライマリに追い付くまで待ちます。	いいえ
2	内部監視システムによって、フェールオーバーワークフローが開始されます。	いいえ
3	スタンバイサーバーがプライマリのログシーケンス番号 (LSN) に近い場合、アプリケーションの書き込みはブロックされます。	はい
4	スタンバイサーバーが独立したサーバーに昇格されます。	はい
5	DNS レコードがスタンバイサーバーの新しい IP アドレスで更新されます。	はい
6	アプリケーションが新しいプライマリに再接続され、読み取り/書き込みが再開されます。	いいえ
7	別のゾーンの新しいスタンバイサーバーが確立されます。	いいえ
8	スタンバイサーバーで、確立中に失われたログの復旧が (Azure BLOB から) 開始されます。	いいえ
9	プライマリサーバーとスタンバイサーバーの間に安定した状態が確立されます。	いいえ
10	計画されたフェールオーバーのプロセスが完了します。	いいえ

アプリケーションのダウンタイムは手順 3 から始まり、手順 5 の後に操作を再開できます。残りの手順は、アプリケーションの書き込みとコミットに影響を与えることなく、バックグラウンドで行われます。

ヒント

フレキシブルサーバーでは、必要に応じて、データベース上のアクティビティが少ないと予測される任意の日の 60 分の期間を選択することによって、Azure によって開始されるメンテナンスアクティビティをスケジュールできます。修正プログラムの適用やマイナーバージョンのアップグレードなどの Azure のメンテナンスタスクは、その期間中に実行されます。カスタム期間を選択しない場合は、システムによって割り当てられたローカル時刻の午後 11 時から午前 7 時の間の 1 時間がサーバーに対して選択されます。 Azure が開始するこれらのメンテナンスアクティビティは、可用性ゾーンが構成されているフレキシブルサーバーのスタンバイレプリカでも実行されます。

発生する可能性のある計画的なダウンタイムイベントの一覧については、「計画的なダウンタイムイベント」をご覧ください

計画外のフェールオーバー

計画外のダウンタイムは、基になるハードウェアの障害、ネットワークの問題、ソフトウェアのバグなど、予期しない中断の結果として発生する可能性があります。高可用性が構成されているデータベースサーバーが予期せず停止した場合は、スタンバイレプリカがアクティブ化され、クライアントは操作を再開できます。高可用性 (HA) が構成されていない場合は、再起動の試みが失敗すると、新しいデータベースサーバーが自動的にプロビジョニングされます。計画外のダウンタイムは回避できませんが、フレキシブルサーバーを使用すると、ユーザーの介入を必要とすることなく自動的に復旧操作を実行することでダウンタイムが軽減されます。

考えられるシナリオなど、計画外のフェールオーバーとダウンタイムの詳細については、「計画外のダウンタイムの軽減」をご覧ください。

フェールオーバーテスト (強制フェールオーバー)

強制フェールオーバーを使用すると、運用ワークロードの実行中に計画外の停止シナリオをシミュレートし、アプリケーションのダウンタイムを観察できます。プライマリサーバーが応答しなくなったときに強制フェールオーバーを使用することもできます。

強制フェールオーバーによってプライマリサーバーが停止され、スタンバイ昇格操作が実行されるフェールオーバーワークフローが開始されます。スタンバイは、最後にコミットされたデータまで復旧プロセスを完了すると、プライマリサーバーに昇格されます。 DNS レコードが更新され、アプリケーションは昇格されたプライマリサーバーに接続できます。新しいスタンバイサーバーがバックグラウンドで確立されている間、アプリケーションは引き続きプライマリに書き込みを行うことができます。これが稼働時間に影響を及ぼすことはありません。

以下は、強制フェールオーバー中に実行されるステップです。

Step	説明	アプリのダウンタイムが予想されるかどうか
1	プライマリサーバーは、フェールオーバー要求を受信した直後に停止します。	はい
2	プライマリサーバーがダウンしているため、アプリケーションでダウンタイムが発生します。	はい
3	内部監視システムによってエラーが検出され、スタンバイサーバーへのフェールオーバーが開始されます。	はい
4	スタンバイサーバーは、独立したサーバーとして完全に昇格される前に、回復モードに移行します。	はい
5	フェールオーバープロセスは、スタンバイの復旧が完了するまで待機します。	はい
6	サーバーが起動すると、DNS レコードは同じホスト名で更新されますが、スタンバイの IP アドレスが使用されます。	はい
7	アプリケーションは新しいプライマリサーバーに再接続して操作を再開できます。	いいえ
8	優先ゾーン内のスタンバイサーバーが確立されます。	いいえ
9	スタンバイサーバーで、確立中に失われたログの復旧が (Azure BLOB から) 開始されます。	いいえ
10	プライマリサーバーとスタンバイサーバーの間に安定した状態が確立されます。	いいえ
11	強制フェールオーバープロセスが完了します。	いいえ

アプリケーションのダウンタイムは、ステップ 1 の後に始まり、ステップ 6 が完了するまで継続することが予想されます。残りのステップは、そのアプリケーションの書き込みとコミットに影響を与えることなく、バックグラウンドで行われます。

重要

エンドツーエンドのフェールオーバープロセスには、(a) プライマリの障害発生後のスタンバイサーバーへのフェールオーバーと (b) 定常状態での新しいスタンバイサーバーの確立が含まれます。スタンバイへのフェイルオーバーが完了するまでアプリケーションのダウンタイムが発生するため、エンドツーエンドのフェイルオーバープロセス全体ではなく、アプリケーション/クライアントの観点からダウンタイムを測定してください。

強制フェールオーバーを実行する際の考慮事項

エンドツーエンドの全体的な操作時間は、アプリケーションで発生する実際のダウンタイムよりも長く見える可能性があります。

重要

常にアプリケーションの観点からダウンタイムを観察してください。
フェールオーバーをすぐに連続して実行することはしないでください。フェールオーバー間は少なくとも 15 分から 20 分待ち、新しいスタンバイサーバーが完全に確立されるようにします。
ダウンタイムを減らすために、アクティビティの少ない期間中に強制フェールオーバーを実行することをお勧めします。

フェールオーバー後の PostgreSQL 統計のベストプラクティス

PostgreSQL のフェールオーバー後、最適なデータベースパフォーマンスを維持するための主要なメカニズムには、pg_statistic テーブルと pg_stat_* テーブルの個別のロールを解釈することが含まれます。 pg_statistic テーブルには、クエリプランナーにとって重要なオプティマイザー統計が含まれます。これらの統計にはテーブル内のデータ分散が含まれており、フェールオーバー後もそのまま残ります。これにより、クエリプランナーは、正確な履歴データ分散情報に基づいてクエリの実行を効果的に最適化し続けることができます。

これに対し、スキャンの数、読み取られたタプル、更新などのアクティビティの統計情報を記録する pg_stat_* テーブルは、フェールオーバー時にリセットされます。このようなテーブルの例として、ユーザー定義テーブルのアクティビティを追跡する pg_stat_user_tables テーブルがあります。このリセットは、新しいプライマリの運用状態を正確に反映するように設計されていますが、自動バキュームプロセスやその他の運用効率を通知する可能性のある履歴アクティビティメトリックが失われることも意味します。

この違いを考えると、PostgreSQL フェールオーバーの後のベストプラクティスは ANALYZE を実行することです。このアクションにより、新しいアクティビティ統計などを含むpg_stat_* テーブル (例えば pg_stat_user_tables) が更新され、自動バキュームプロセスに役立ち、新しいロールでデータベースのパフォーマンスが最適なまま維持されます。このプロアクティブな手順は、データベースの現在の状態に合わせて、基本的なオプティマイザー統計を保持することとアクティビティメトリックを更新することとのギャップを埋めます。

ゾーンダウンエクスペリエンス

ゾーン: ゾーンレベルの障害から復旧するには、バックアップを使用してポイントインタイムリストアを実行します。最新時刻のカスタム復元ポイントを選択して、最新のデータを復元できます。影響を受けていない別のゾーンに、新しいフレキシブルサーバーがデプロイされます。復元にかかる時間は、前回のバックアップと、復旧するトランザクションログの量によって異なります。

ポイントインタイムリストアの詳細については、「Azure Database for PostgreSQL フレキシブルサーバーでのバックアップと復元」を参照してください。

ゾーン冗長: フレキシブルサーバーは、60 秒から 120 秒以内にデータ損失なしでスタンバイサーバーに自動的にフェールオーバーされます。

可用性ゾーンのない構成

推奨はされませんが、高可用性を有効にせずにフレキシブルサーバーを構成することもできます。高可用性なしで構成されたフレキシブルサーバーの場合、このサービスは、データのコピーが 3 つあるローカル冗長ストレージ、ゾーン冗長バックアップ (サポートされるリージョンの場合) を提供します。また、クラッシュしたサーバーを自動的に再起動し、サーバーを別の物理ノードに再配置する組み込みのサーバー回復性も提供します。この構成では、99.9% の SLA のアップタイムが提供されます。計画的または計画外のフェールオーバーイベント中にサーバーがダウンした場合、サービスでは次の自動化された手順を使用してサーバーの高可用性が維持されます。

新しいコンピューティング Linux VM がプロビジョニングされます。
データファイルを含むストレージが新しい仮想マシンにマップされます。
新しい仮想マシン上で PostgreSQL データベースエンジンがオンラインになります。

次の図は、VM とストレージの障害の遷移を示しています。

リージョン間のディザスターリカバリーおよび事業継続

リージョン全体の障害が発生した場合、Azure では別のリージョンを使用することで、ディザスターリカバリーによる局地的または大規模な地理的災害からの保護を提供できます。 Azure ディザスターリカバリーアーキテクチャの詳細については、「Azure から Azure へのディザスターリカバリーアーキテクチャ」を参照してください。

フレキシブルサーバーでは、計画的および計画外のダウンタイムイベントの発生時に、データを保護し、ミッションクリティカルなデータベースのダウンタイムを軽減する機能が提供されています。フレキシブルサーバーは堅牢な回復性と可用性を提供する Azure インフラストラクチャ上に構築されており、障害からの保護を強化し、復旧時間要件に対処し、データ損失の発生を減らすビジネス継続性機能を備えています。アプリケーションを設計するときは、ダウンタイムの許容範囲 (目標復旧時間 (RTO)) とデータ損失の発生 (目標復旧時点 (RPO)) を考慮する必要があります。たとえば、ビジネスクリティカルなデータベースでは、テストデータベースよりも厳しいアップタイムが必要になります。

複数リージョンの地域でのディザスターリカバリー

geo 冗長バックアップと復元

地理的冗長バックアップと復元により、災害発生時に別のリージョンにサーバーを復元することができます。さらにこれにより、バックアップオブジェクトの年間 99.99999999999999% (9 が 16 個) 以上の持続性が実現されます。

geo 冗長バックアップの構成は、サーバーの作成時にのみ行うことができます。サーバーが geo 冗長バックアップで構成されている場合、バックアップデータとトランザクションログは、ストレージレプリケーションを使用してペアリージョンに非同期的にコピーされます。

地理的冗長バックアップと復元の詳細については、「地理的冗長バックアップと復元」をご覧ください。

読み取りレプリカ

リージョンにまたがる読み取りレプリカは、リージョンレベルの障害からデータベースを保護するためにデプロイできます。読み取りレプリカは、PostgreSQL の物理的なレプリケーションテクノロジを使用して非同期的に更新され、プライマリより遅れることがあります。読み取りレプリカは、汎用およびメモリ最適化されたコンピューティングレベルでサポートされます。

読み取りレプリカの機能と考慮事項の詳細については、読み取りレプリカに関する記事をご覧ください。

停止の検出、通知、管理

サーバーが geo 冗長バックアップを使用して構成されている場合は、ペアになっているリージョンで geo 復元を実行できます。新しいサーバーがプロビジョニングされ、そのリージョンにコピーされた使用可能な最後のデータに復旧されます。

リージョンにまたがる読み取りレプリカも使用できます。リージョンで障害が発生した場合、読み取りレプリカを昇格させてスタンドアロンの読み取り/書き込み可能サーバーにすることで、ディザスターリカバリー操作を実行できます。 RPO は最長 5 分と予想されます (データ損失の可能性あり)。ただし、重大なリージョン障害が発生した場合を除きます。この場合、RPO は障害発生時のレプリケーションラグに近くなる可能性があります。

計画外のダウンタイム軽減策とリージョン障害後の復旧の詳細については、「計画外のダウンタイムの軽減」をご覧ください。

次のステップ

Azure Database for PostgreSQL のドキュメント

Azure での信頼性

Azure Database for PostgreSQL - フレキシブル サーバーでの高可用性 (信頼性)