調整を最小限に抑える

Azure Storage

Azure SQL データベース

Azure Cosmos DB

アプリケーションサービス間の調整を最小限に抑えてスケーラビリティを実現する

ほとんどのクラウドアプリケーションは、複数のアプリケーションサービス (Web フロントエンド、データベース、ビジネスプロセス、レポートおよび分析など) で構成されています。スケーラビリティと信頼性を実現するには、それらのサービスの各々を複数のインスタンスで実行する必要があります。

2 つのインスタンスが、共有状態に影響する操作を同時に実行しようとすると、どうなるでしょうか。場合によっては、たとえば、ACID 保証を維持するために、ノード間で調整の必要があります。この図では、Node2 は Node1 がデータベースロックを解放するのを待っています。

Database lock diagram

調整は水平スケールの利点を制限し、ボトルネックを作り出します。この例では、アプリケーションをスケールアウトしてより多くのインスタンスを追加すると、ロックの競合が増加することがわかります。最悪の場合、フロントエンドインスタンスはほとんどの時間をロック待機に費やします。

"1 回限り" のセマンティクスは、もう 1 つのよくある調整の発生源です。たとえば、1 つの注文は 1 回だけ処理されなければいけません。 2 つのワーカーが新しい注文をリッスンしています。 Worker1 は、1 つの注文を処理するために取得します。アプリケーションは Worker2 がこの作業を重複しないように、しかしまた、もし Worker1 がクラッシュしたらこの注文が抜け落ちないようにする必要があります。

Coordination diagram

Scheduler Agent Supervisor のようなパターンを使用してワーカー間を調整することができますが、ここでは、作業を分割するのがより適切な方法かもしれません。各ワーカーには、注文の特定の範囲 (たとえば、請求先リージョンごと) が割り当てられます。ワーカーがクラッシュした場合、新しいインスタンスは直前のインスタンスが中断された場所を取得しますが、複数のインスタンスは競合しません。

Recommendations

最終的な整合性の受容。 データを分散すると、強力な整合性を保証するには調整が必要になります。たとえば、1 つの操作が 2 つのデータベースを更新するとします。 1 つのトランザクションスコープに入れるのではなく、そのシステムが最終的な整合性に対応できるのであれば (おそらく補正トランザクションパターンを使用して)、エラーの後に論理的にロールバックする方がよいでしょう。

ドメインイベントを使用した状態の同期。 ドメインイベントは、ドメイン内で重要な出来事が発生したときに記録するイベントです。対象サービスは、グローバルトランザクションを使用して複数サービスを調整するのではなく、このイベントをリッスンすることができます。この手法を使用する場合、システムは最終的な整合性を許容する必要があります (前の項目を参照してください)。

CQRS およびイベントソーシングなどのパターンの検討。 これら 2 つのパターンは、読み取りワークロードと書き込みワークロードの競合を削減するのに役立ちます。

CQRS パターンは、書き込み操作と読み取り操作を分けます。一部の実装では、読み取りデータは書き込みデータから物理的に分離されます。
イベントソーシングのパターンでは、状態の変更は、一連のイベントとして追加専用のデータストアに記録されます。ストリームへのイベント追加はアトミック操作であり、最小限のロックを必要とします。

これら 2 つのパターンは、相互に補完します。 CQRS の書き込み専用ストアでイベントソーシングを使用する場合は、読み取り専用ストアは同じイベントをリッスンして、クエリ用に最適化された、現在の状態の読み取り可能なスナップショットを作成することができます。ただし、CQRS またはイベントソーシングを採用するときは、この手法についての課題に注意してください。

データのパーティション分割。 すべてのデータを、多くのアプリケーションサービス間で共有されている 1 つのデータスキーマに配置することは避けます。マイクロサービスアーキテクチャでは、各サービスにそれ自身のデータストアを担当させることにより、この原則を強制します。 1 つのデータベース内では、データをシャードに分割するとコンカレンシーを向上させることができますが、これは、1 つのシャードへ書き込むサービスは別のシャードに書き込むサービスに影響しないからです。

べき等操作の設計。 可能であれば、操作がべき等になるように設計します。こうすれば、1 回以上のセマンティクスを使用して、それらを処理できます。たとえば、1 つのキューに作業項目を配置します。 1 つの操作の途中でワーカーがクラッシュしたら、別のワーカーがその作業項目を取得するだけです。ワーカーがデータを更新し、そのロジックの一部として他のメッセージを出力する必要もある場合は、べき等メッセージ処理パターンを使う必要があります。

オプティミスティックコンカレンシーの使用 (可能な場合)。 ペシミスティックコンカレンシー制御は、競合を防ぐためにデータベースロックを使用します。これはパフォーマンスの低下を発生させ、可用性を低下させる場合があります。オプティミスティックコンカレンシーでは、各トランザクションは、データのコピーまたはスナップショットを変更します。トランザクションがコミットされると、データベースエンジンはトランザクションを検証し、データベースの整合性に影響を与えるトランザクションを拒否します。

Azure SQL Database および SQL Server は、スナップショット分離によってオプティミスティックコンカレンシーをサポートします。一部の Azure ストレージサービスは、Azure Cosmos DB および Azure Storage を含む Etag を使用して、オプティミスティックコンカレンシーをサポートします。

MapReduce またはその他の並列の分散アルゴリズムの検討。 実行するデータと作業の種類によっては、作業を、並行して動作する複数のノードで実行できる独立したタスクに分割することができます。大規模なコンピューティングアーキテクチャスタイルに関する記事をご覧ください。

調整でのリーダー選択の使用。 操作を調整する必要がある場合、コーディネーターがアプリケーションの単一障害点にならないことを確認します。リーダー選択パターンを使用すると、1 つのインスタンスはいつでもリーダーで、コーディネーターとして機能します。このリーダーが失敗した場合、新しいインスタンスがリーダーに選択されます。

調整を最小限に抑える

アプリケーションサービス間の調整を最小限に抑えてスケーラビリティを実現する

Recommendations

フィードバック

フィードバック

その他のリソース

調整を最小限に抑える

アプリケーション サービス間の調整を最小限に抑えてスケーラビリティを実現する

Recommendations

フィードバック

フィードバック

その他のリソース

アプリケーションサービス間の調整を最小限に抑えてスケーラビリティを実現する