Azure Web PubSub Service の回復性とディザスターリカバリー

[アーティクル]
08/23/2023

回復性とディザスターリカバリーは、各種オンラインシステムに共通の要件です。 Azure Web PubSub Service では既に 99.9% の可用性が保証されていますが、それはまだリージョンサービスです。リージョン規模の停止が発生したときに、サービスによるリアルタイムメッセージの処理を、別のリージョンで続行することが極めて重要です。

リージョンのディザスターリカバリーを行う場合は、次の 2 つの方法をお勧めします。

geo レプリケーションを有効にする (簡単な方法)。この機能は、リージョンのフェールオーバーを自動的に処理します。有効にすると、Azure SignalR インスタンスは 1 つだけのままで、コードの変更は発生しません。詳細については、geo レプリケーションに関するページを確認してください。
複数のエンドポイントを利用します。 このドキュメントでは、その方法について説明します。

Web PubSub サービスの高可用性アーキテクチャ

Web PubSub サービスを使用する一般的なパターンは 2 つあります。

1 つは、クライアントがサーバーにイベントを送信し、サーバーがクライアントにメッセージをプッシュするクライアントサーバーパターンです。
もう 1 つは、Web PubSub サービスを介してクライアントから他のクライアントとメッセージを送受信 (pub/sub) するクライアント/クライアントパターンです。

以下のセクションでは、これら 2 つのパターンでディザスターリカバリーを行うさまざまな方法について説明します。

クライアント/サーバーパターンの高可用性アーキテクチャ

Web PubSub サービスでリージョンをまたぐ回復性を確保するためには、複数のサービスインスタンスを異なるリージョンにセットアップする必要があります。そうすることで、1 つのリージョンがダウンしても、その他のリージョンをバックアップとして使用することができます。

リージョンをまたぐシナリオの一般的な 1 つの構成は、Web PubSub サービスインスタンスとアプリサーバーのペアを 2 組 (またはそれ以上) 用意することです。

アプリサーバーと Web PubSub サービスのペアはそれぞれ同じリージョンに配置され、Web PubSub サービスによって同じリージョン内のアプリサーバーへのイベントハンドラーアップストリームが設定されます。

アーキテクチャをわかりやすく説明するために、Web PubSub サービスを同じペアのアプリサーバーに対するプライマリ サービスと呼びます。また、他のペアの Web PubSub サービスを、アプリサーバーに対するセカンダリ サービスと呼びます。

アプリケーションサーバーでは、サービス正常性チェック API を使用して、プライマリ サービスとセカンダリ サービスが正常であるかどうかが検出されます。たとえば、demo という名前の Web PubSub サービスの場合、サービスが正常であれば、https://demo.webpubsub.azure.com/api/health エンドポイントによって 200 が返されます。アプリサーバーでは、エンドポイントを定期的に呼び出すかオンデマンドでエンドポイントを呼び出して、エンドポイントが正常かどうかを確認できます。 WebSocket クライアントでは、通常、まずアプリケーションサーバーとのネゴシエートを行って、Web PubSub サービスに接続するための URL が取得され、アプリケーションでは、このネゴシエート手順を使用して、クライアントの他の正常なセカンダリ サービスへのフェールオーバーが行われます。詳細な手順は次のとおりです。

クライアントによるアプリサーバーとのネゴシエート時、アプリサーバーによって返されるのはプライマリ Web PubSub サービスエンドポイントのみであるため、通常の場合、クライアントの接続先はプライマリエンドポイントのみになります。
プライマリインスタンスがダウンしている場合は、ネゴシエートによって正常なセカンダリエンドポイントが返されるため、クライアントの接続は引き続き可能であり、クライアントはセカンダリエンドポイントに接続されます。
プライマリインスタンスが起動している場合は、ネゴシエートによって正常なプライマリエンドポイントが返されるため、クライアントではプライマリエンドポイントに接続できるようになります。
アプリサーバーでメッセージをブロードキャストする場合は、プライマリとセカンダリの両方を含むすべての正常なエンドポイントにメッセージがブロードキャストされる必要があります。
アプリサーバーでは、セカンダリ エンドポイントに接続されている接続を閉じることで、クライアントが正常なプライマリエンドポイントに再接続するように強制できます。

このトポロジによって、すべてのアプリサーバーと Web PubSub サービスインスタンスが相互接続されているので、引き続き 1 つのサーバーからのメッセージをすべてのクライアントに配信できます。

この戦略は SDK にまだ統合されていないため、今のところ、アプリケーションでこの戦略を単独で実装する必要があります。

アプリケーション側で実装する必要があるものの要約を次に示します。

正常性チェック: アプリケーションでは、サービス正常性チェック API をバックグラウンドで定期的に使用するか、すべてのネゴシエート呼び出しに対してオンデマンドで実行して、サービスが正常であるかどうかを確認できます。
ネゴシエートロジック: 既定では、アプリケーションによって正常なプライマリ エンドポイントが返されます。 プライマリ エンドポイントがダウンしている場合は、アプリケーションによって正常なセカンダリ エンドポイントが返されます。
ブロードキャストロジック: 複数のクライアントにメッセージを送信する場合、アプリケーションでは、正常なすべてのエンドポイントにメッセージをブロードキャストする必要があります。

次の図は、そのようなトポロジを示したものです。

Diagram shows two regions each with an app server and a Web PubSub service, where each server is associated with the Web PubSub service in its region as primary and with the service in the other region as secondary.

フェールオーバーのシーケンスとベストプラクティス

以上で、適切なシステムトポロジのセットアップが完了しました。片方の Web PubSub サービスインスタンスがダウンすると、オンライントラフィックは他方のインスタンスにルーティングされます。プライマリインスタンスがダウンしたとき (そしてその後しばらくしてから復旧するとき) の挙動を次に示します。

プライマリサービスインスタンスがダウンすると、このインスタンスに接続されているすべてのサーバーが切断されます。
新しいクライアントまたは再接続クライアントによるアプリサーバーとのネゴシエート
アプリサーバーによってプライマリサービスインスタンスの停止が検出され、ネゴシエートでこのエンドポイントを返すことが停止され、正常なセカンダリエンドポイントを返すことが開始されます。
クライアントは、セカンダリインスタンスに接続されます。
これですべてのオンライントラフィックがセカンダリインスタンスに向かうようになりました。セカンダリはすべてのアプリサーバーに接続されているため、サーバーからクライアントへのメッセージは依然としてすべて配信されます。ただし、クライアントからサーバーへのイベントメッセージは、同じリージョン内のアップストリームアプリサーバーにのみ送信されます。
プライマリインスタンスが回復してオンラインに戻ると、アプリサーバーによってプライマリインスタンスが正常な状態に戻ったことが検出されます。以後ネゴシエートでは再びプライマリエンドポイントが返されるようになるので、新しいクライアントは元どおりプライマリに接続されます。ただし、既存のクライアントは切断されず、自ら切断するまでそのままセカンダリへの接続が続行されます。

下の図は、フェールオーバーのしくみを示しています。

図.1 フェールオーバー前 Before Failover

図.2 フェールオーバー後 After Failover

図.3 プライマリの復旧後間もなく Short time after primary recovers

通常は、プライマリのアプリサーバーと Web PubSub サービスにのみオンライントラフィック (青色) があることがわかります。

フェールオーバー後は、セカンダリのアプリサーバーと Web PubSub サービスもアクティブになります。プライマリの Web PubSub サービスがオンラインに戻った後、新しいクライアントはプライマリの Web PubSub に接続されます。一方、既存のクライアントはそのままセカンダリに接続された状態になるので、両方のインスタンスにトラフィックが向かうことになります。

既存のクライアントがすべて切断されると、システムが正常な状態に戻ります (図 1)。

リージョンをまたぐ高可用性アーキテクチャを導入する場合、主に次の 2 つのパターンがあります。

1 つ目は、アプリサーバーと Web PubSub サービスインスタンスの 1 つのペアですべてのオンライントラフィックを処理し、別のペアをバックアップとして使用する方法です (これは "アクティブ/パッシブ" と呼ばれます。図 1 を参照)。
もう 1 つは、アプリサーバーと Web PubSub サービスインスタンスのペアを 2 つ (またはそれ以上) 用意し、それぞれのペアでオンライントラフィックを分担して処理し、他のペアのバックアップとして機能させる方法です (これは "アクティブ/アクティブ" と呼ばれます。図 3 と同様)。

Web PubSub サービスでは両方のパターンをサポートできます。主な違いはアプリサーバーの実装方法です。アプリサーバーがアクティブ/パッシブである場合、Web PubSub サービスもアクティブ/パッシブになります (プライマリのアプリサーバーから返されるのはそのプライマリ Web PubSub サービスインスタンスのみであるため)。アプリサーバーがアクティブ/アクティブである場合、Web PubSub サービスもアクティブ/アクティブになります (すべてのアプリサーバーから、それぞれのプライマリ Web PubSub インスタンスが返されるので、そのすべてのインスタンスでトラフィックを受けることができます)。

どちらのパターンを使用するにしても、それぞれの Web PubSub サービスインスタンスをプライマリ ロールとしてアプリサーバーに接続する必要があることに注意してください。

また、WebSocket 接続 (長時間接続) の性質上、障害とフェールオーバーが発生すると、クライアントで接続の切断が発生します。そのようなケースはクライアント側で処理して、エンドユーザーからは見えないようにする必要があります。たとえば、接続が閉じられた後で再接続を行うことが考えられます。