障害復旧

2025-06-17

Azure Databricks のようなクラウドネイティブの Data Analytics プラットフォームにとって、明確なディザスターリカバリーパターンは非常に重要です。データチームが Azure Databricks プラットフォームを使用できることは、ハリケーンや地震などの地域的な災害や別のソースによって引き起こされる場合でも、リージョン全体のクラウドサービスプロバイダーが停止するまれなケースでも使用できることです。

多くの場合、Azure Databricks は、アップストリームデータインジェストサービス (バッチ/ストリーミング)、ADLS などのクラウドネイティブストレージ (2023 年 3 月 6 日より前に作成されたワークスペース、Azure Blob Storage 用)、ビジネスインテリジェンスアプリなどのダウンストリームツールとサービス、オーケストレーションツールなど、多くのサービスを含む、全体的なデータエコシステムの中核となる部分です。ユースケースによっては、地域的なサービス全体の停止にとりわけ影響を受けやすい場合があります。

この記事では、Databricks プラットフォームのリージョンをまたがるディザスターリカバリーソリューションを成功に導くための概念とベストプラクティスについて説明します。

リージョン内の高可用性の保証

このトピックの残りの部分では、リージョン間のディザスターリカバリーの実装に焦点を当てていますが、Azure Databricks が単一リージョン内で提供する高可用性の保証を理解することが重要です。リージョン内の高可用性の保証には、次のコンポーネントが含まれます。

Databricks コントロールプレーンの可用性

Databricks コントロールプレーンはゾーン障害に対する回復性があり、ゾーン障害から約 15 分以内に自動的に回復する必要があります。定期的なゾーン障害テストでこれを検証します。

すべてのステートレスコントロールプレーンサービスは、ゾーン全体のすべての VM だけでなく、個々の VM の損失を自動的に処理できます。ワークスペースデータは、リージョン内のゾーン間でレプリケートされたデータベースに格納されます。 Databricks ランタイムイメージの提供に使用されるストレージアカウントもリージョン内で冗長であり、すべてのリージョンにはプライマリがダウンしたときに使用されるセカンダリストレージアカウントがあります。「Azure Databricks のリージョン」を参照してください。

ゾーン障害の回復性では、ダウンしているゾーンが最大 1 つだけサポートされ、複数のゾーンをサポートする Azure リージョンでのみ使用できます。

コンピューティングプレーンの可用性

ワークスペースの可用性は、コントロールプレーンの可用性に依存します (前述のとおり)。 DBFS ルートのストレージアカウントがゾーン冗長ストレージ (ZRS) または Geo ゾーン冗長ストレージ (GZRS) (既定は Geo 冗長ストレージ (GRS)) で構成されている場合、DBFS ルート上のデータは影響を受けません。

クラスターのノードは、Azure コンピューティングプロバイダーからノードを要求することによって、異なる可用性ゾーンからプルされます (残りのゾーンの容量が要求を満たすために十分な場合)。ノードが失われた場合、クラスターマネージャーが Azure コンピューティングプロバイダーに交換ノードを要求し、それによって使用可能な AZ からノードがプルされます。唯一の例外は、ドライバーノードが失われた場合です。この場合、クラスターマネージャーはジョブとクラスターを再起動します。

ディザスターリカバリーの概要

ディザスターリカバリーには、自然または人による災害の後に重要なテクノロジインフラストラクチャとシステムの復旧または継続を可能にする一連のポリシー、ツール、手順が含まれます。 Azure のような大規模クラウドサービスは、多くの顧客にサービスを提供し、1 つの障害に対する保護機能が組み込まれています。たとえば、リージョンは複数の異なる電源に接続した建物のグループであり、その目的は、1 つの電源が失われてもリージョンがシャットダウンしないことの保証です。それでも、クラウドリージョンの障害は起こりうるものであり、中断の程度や組織への影響はさまざまです。

ディザスターリカバリー計画を実装する前に、ディザスターリカバリー (DR) と高可用性 (HA) の違いを理解することが重要です。

高可用性は、システムの回復性の特性です。高可用性は、安定した稼働時間または稼働時間の割合で定義されるのが通例である最小レベルの運用パフォーマンスを保証するものです。高可用性は、プライマリシステムの機能として設計することによって (プライマリシステムと同じリージョンに) 実装されます。たとえば、Azure などのクラウドサービスには、ADLS などの高可用性サービスがあります (2023 年 3 月 6 日より前に作成されたワークスペースの場合、Azure Blob Storage)。高可用性は、大規模で明示的な準備を Azure Databricks の顧客に要求するものではありません。

これに対し、ディザスターリカバリー計画には、クリティカルなシステムがリージョンのレベルで大規模に停止する事態に対処するために、特定の組織にとって有効である意思決定とソリューションが必要です。この記事では、一般的なディザスターリカバリーの用語、一般的なソリューション、Azure Databricks を使用したディザスターリカバリー計画のベストプラクティスについて説明します。

用語

リージョンの用語

この記事では、リージョンに関して次の定義を使用します。

プライマリリージョン: 一般的で日常的な Data Analytics ワークロードを、ユーザーが対話形式および自動化された形式で実行する地理的リージョン。
セカンダリリージョン: プライマリリージョンの停止中に IT チームが Data Analytics ワークロードを一時的に移動する地理的リージョン。
geo 冗長ストレージ: Azure では、非同期のストレージレプリケーションプロセスを使用したストレージ永続化のために、リージョン横断の geo 冗長ストレージが用意されています。

重要

ディザスターリカバリープロセスの場合、Databricks では、Azure サブスクリプション内の各ワークスペースに対して Azure Databricks によって作成される ADLS (2023 年 3 月 6 日より前に作成されたワークスペース、Azure Blob Storage) などのデータのリージョン間重複に geo 冗長ストレージを使用 しないことを お勧めします。一般に、差分テーブルにはディープクローンを使用し、データを Delta 形式に変換して、可能であれば他のデータ形式に対して Deep Clone を使用します。

デプロイ状態の用語

この記事では、デプロイ状態について次の定義を使用します。

アクティブデプロイ: ユーザーは、Azure Databricks ワークスペースのアクティブデプロイに接続してワークロードを実行できます。ジョブは、Azure Databricks スケジューラまたはその他のメカニズムを使用して定期的にスケジュールされます。このデプロイでは、データストリームを実行することもできます。ドキュメントによっては、アクティブデプロイはホットデプロイとも呼ばれます。
パッシブデプロイ: プロセスはパッシブデプロイでは実行されません。 IT チームは、コード、構成、その他の re:[Databricks] オブジェクトをパッシブデプロイにデプロイするための自動化された手順を設定できます。このデプロイは、現在のアクティブデプロイがダウンしている場合にのみアクティブになります。ドキュメントによっては、パッシブデプロイはコールドデプロイとも呼ばれます。

重要

プロジェクトでは、必要に応じて、異なるリージョンに複数のパッシブデプロイを含めて、リージョンの停止を解決するための選択肢を増やすことができます。

通常、チームはアクティブ/ パッシブディザスターリカバリー戦略と呼ばれるアクティブなデプロイを一度に 1 つだけ持ちます。あまり一般的ではありませんが、2 つのアクティブデプロイを同時に運用する、アクティブ/アクティブと呼ばれるディザスターリカバリーソリューション戦略もあります。

ディザスターリカバリーの業界用語

2 つの重要な業界用語を理解し、チームのために定義する必要があります。

目標復旧時点: 目標復旧時点 (RPO) は、メジャーインシデントの発生時に、超過すると IT サービスからデータ (トランザクション) が失われる可能性がある最長の目標期間です。 Azure Databricks デプロイには、メインの顧客データは格納されません。これは、ADLS (2023 年 3 月 6 日より前に作成されたワークスペース、Azure Blob Storage) などの別のシステムや、管理下にある他のデータソースに格納されます。 Azure Databricks コントロールプレーンには、ジョブやノートブックなどの一部のオブジェクトが部分的または完全に格納されます。 Azure Databricks の場合、RPO は、ジョブやノートブックの変更などのオブジェクトが失われる可能性がある最大ターゲット期間として定義されます。また、ADLS (2023 年 3 月 6 日より前に作成されたワークスペース、Azure Blob Storage) またはその他のデータソースの管理下で、独自の顧客データの RPO を定義する必要があります。
目標復旧時間: 目標復旧時間 (RTO) は、災害発生後にビジネスプロセスを復旧しなければならない期限を表す時間とサービスレベルの目標です。

ディザスターリカバリーとデータの破損

ディザスターリカバリーソリューションは、データの破損を軽減するものではありません。プライマリリージョンで破損したデータは、プライマリリージョンからセカンダリリージョンにレプリケートされ、両方のリージョンで破損します。この種の障害を軽減する、Delta タイムトラベルのようなその他の方法があります。

一般的な復旧ワークフロー

Azure Databricks のディザスターリカバリーシナリオは通常、次のように進行します。

プライマリリージョンで使用しているクリティカルなサービスで障害が発生します。これは、Azure Databricks のデプロイに影響を及ぼすデータソースサービスまたはネットワークである可能性があります。
クラウドプロバイダーと協力して状況を調査します。
会社がプライマリリージョンで問題が修復されるのを待てない場合は、セカンダリリージョンにフェールオーバーすることを決定できます。
同じ問題の影響がセカンダリリージョンには及ばないことを確認します。
セカンダリリージョンにフェールオーバーします。
1. ワークスペース内のすべてのアクティビティを停止します。ユーザーがワークロードを停止します。ユーザーまたは管理者は、可能であれば最近の変更のバックアップを取るように指示されます。停止のため、ジョブがすでに失敗していない場合は、シャットダウンされます。
2. セカンダリリージョンで復旧手順を開始します。復旧手順では、ルーティングを更新し、セカンダリリージョンへの接続とネットワークトラフィックの名前を変更します。
3. テストが終了したら、セカンダリリージョンの稼働を宣言します。これで、実稼働ワークロードを再開できます。ユーザーは、新しくアクティブになったデプロイにログインできます。スケジュールまたは遅延していたジョブをもう一度トリガーできます。
Azure Databricks コンテキストでの詳細な手順については、「フェールオーバーのテスト」を参照してください。
ある時点で、プライマリリージョンの問題が軽減され、この事実を確認します。
プライマリリージョンに復元 (フェールバック) します。
1. セカンダリリージョンでのすべての作業を中止します。
2. プライマリリージョンで復旧手順を開始します。復旧手順では、プライマリリージョンへの接続とネットワークトラフィックのルーティングと名前変更が処理されます。
3. 必要に応じて、プライマリリージョンにデータをレプリケートします。複雑さを減らすために、レプリケートする必要があるデータの量を最小限にします。たとえば、セカンダリデプロイでの実行時に読み取り専用であるジョブに関しては、そのデータをプライマリリージョンのプライマリデプロイにレプリケートする必要はないかもしれません。ただし、1 つの運用ジョブを実行する必要があり、プライマリリージョンへのデータレプリケーションが必要な場合があります。
4. プライマリリージョンでデプロイをテストします。
5. プライマリリージョンが稼働状態であり、アクティブデプロイであることを宣言します。実稼働ワークロードを再開します。
プライマリリージョンへの復元の詳細については、「復元のテスト (フェールバック)」を参照してください。

重要

これらの手順の間に、データの損失が発生する可能性があります。組織では、許容できるデータ損失の規模と、この損失を軽減するための可能な対策を定義する必要があります。

ステップ 1: ビジネスニーズを理解する

最初のステップは、ビジネスニーズを定義して理解することです。クリティカルなデータサービスと、各サービスの RPO と RTO の期待値を定義します。

各システムの実際の許容度を調査します。ディザスターリカバリー、フェールオーバー、フェールバックはコストがかかり、他のリスクを伴う可能性があることを覚えておいてください。その他のリスクとしては、データの破損、データの重複 (間違ったストレージの場所に書き込む場合)、間違った場所にログインして変更を加えたユーザーなどがあります。

ビジネスに影響を与えるすべての Azure Databricks 統合ポイントをマップします。

ディザスターリカバリーソリューションで、対話型プロセス、自動化されたプロセス、またはその両方に対応する必要がありますか?
どのデータサービスを使用していますか? 一部はオンプレミスである可能性があります。
入力データはどのようにしてクラウドに到達しますか?
誰がこのデータを使用しますか? ダウンストリームではどのプロセスが使用しますか?
ディザスターリカバリーの変更を認識する必要があるサードパーティの統合はありますか?

ディザスターリカバリー計画をサポートできるツールまたはコミュニケーション戦略を決定します。

ネットワーク構成をすばやく変更するために、どのツールを使用しますか?
自然で保守しやすい形でディザスターリカバリーソリューションを組み込めるよう、構成を事前に定義し、モジュール化することができますか?
ディザスターリカバリーのフェールオーバーとフェールバックの変更について、内部チームとサードパーティ (統合、ダウンストリームコンシューマー) に通知する通信ツールとチャネルはどれですか? どのように彼らの確認を確認しますか?
どのようなツールまたは特別なサポートが必要になりますか?
完全な復旧が行われるまで、どのようなサービスがシャットダウンされますか?

ステップ 2: ビジネスニーズを満たすプロセスを選択する

ソリューションでは、コントロールプレーン、コンピューティングプレーン、およびデータソース内の正しいデータをレプリケートする必要があります。ディザスターリカバリー用の冗長ワークスペースは、リージョンによって異なるコントロールプレーンにマップする必要があります。同期ツールまたは CI/CD ワークフローのいずれかのスクリプトベースのソリューションを使用して、データの同期を定期的に維持する必要があります。コンピューティングプレーンネットワーク自体の内部から (例: Databricks Runtime ワーカーから) データを同期する必要はありません。

VNet インジェクション機能 (すべてのサブスクリプションとデプロイの種類で使用できるわけではありません) を使用する場合、Terraform のようなテンプレートベースのツールを使用して、両方のリージョンにこれらのネットワークを整合性のある形でデプロイすることができます。

さらに、データソースが必要に応じてリージョン間でレプリケートされることを保証する必要があります。

ディザスターリカバリー - レプリケートする必要があるもの

一般的なベストプラクティス

ディザスターリカバリー計画を成功に導くための一般的なベストプラクティスには、以下のものがあります。

ビジネスにとって重要であり、ディザスターリカバリーで実行する必要があるプロセスを理解します。
関係するサービス、処理されているデータ、データフローの内容、格納場所を明確に特定します。
可能な限りサービスとデータを分離します。たとえば、ディザスターリカバリー用のデータのために特別なクラウドストレージコンテナーを作成するか、災害時に必要な Azure Databricks オブジェクトを別のワークスペースに移動します。
Databricks コントロールプレーンに格納されていないその他のオブジェクトに関して、プライマリデプロイとセカンダリデプロイの間で整合性を維持する必要があります。

警告

ベストプラクティスは、ワークスペースの DBFS ルートアクセスに使用されるルート ADLS (2023 年 3 月 6 日より前に作成されたワークスペース、Azure Blob Storage の場合) にデータを格納しないことをお勧めします。 DBFS ルートストレージは、運用環境の顧客データではサポートされていません。また、Databricks では、ライブラリ、構成ファイル、または init スクリプトをこの場所に格納しないことをお勧めします。
データソースの場合は、可能であれば、レプリケーションと冗長性のためにネイティブ Azure ツールを使用して、ディザスターリカバリーリージョンにデータをレプリケートすることをお勧めします。

リカバリーソリューションの戦略を選択する

典型的なディザスターリカバリーソリューションには、2 つ (以上) のワークスペースが関係します。いくつかの戦略から選択できます。中断の潜在的な長さ (数時間または 1 日)、ワークスペースが完全に動作していることを確認する作業、プライマリリージョンに復元 (フェールバック) する作業を検討します。

アクティブ/パッシブソリューションの戦略

アクティブ/パッシブソリューションは最も一般的で、最も簡単なソリューションであり、この記事ではこの種類のソリューションに焦点を当てます。アクティブ/パッシブソリューションでは、アクティブデプロイからパッシブデプロイにデータとオブジェクトの変更を同期します。必要に応じて、異なるリージョンに複数のパッシブデプロイを配置することもできますが、この記事ではパッシブデプロイを 1 つにするアプローチに焦点を当てます。ディザスターリカバリーイベント中は、セカンダリリージョンのパッシブデプロイがアクティブデプロイになります。

この戦略には主に 2 つのバリエーションがあります。

統合 (エンタープライズ向け) ソリューション: 組織全体をサポートするアクティブおよびパッシブデプロイの 1 つのセットです。
部門またはプロジェクト別のソリューション: 部門またはプロジェクトのドメインごとに個別のディザスターリカバリーソリューションを維持します。部門間でディザスターリカバリーの詳細を分離し、各チーム固有のニーズに基づいてチームごとに異なるプライマリリージョンとセカンダリリージョンを使用したいと考える組織もあります。

読み取り専用のユースケースにはパッシブデプロイを使用するなど、その他のバリエーションもあります。ユーザークエリなど、読み取り専用のワークロードがある場合、データやノートブックやジョブなどの Azure Databricks オブジェクトを変更しない場合は、パッシブソリューションでいつでも実行できます。

アクティブ/アクティブソリューションの戦略

アクティブ/アクティブソリューションでは、両方のリージョンのすべてのデータプロセスを常に並列実行します。運用チームは、ジョブなどのデータプロセスについて、両方のリージョンで正常に終了した時点ではじめて完了とマークされることを保証する必要があります。オブジェクトは実稼働では変更できず、開発/ステージングから実稼働への厳密な CI/CD 昇格に従う必要があります。

アクティブ/アクティブソリューションは最も複雑な戦略であり、両方のリージョンでジョブが実行されるため、追加の財務コストが発生します。

アクティブ/パッシブ戦略と同様、これは統合型の組織ソリューションとして、または部門別に実装できます。

ワークフローによっては、すべてのワークスペースについてセカンダリシステムに同等のワークスペースが必要ではない場合があります。たとえば、開発またはステージングのワークスペースは複製が不要な場合があります。開発パイプラインの設計が適切であれば、必要に応じてこれらのワークスペースを簡単に再構築できる場合があります。

ツールを選択する

プライマリリージョンとセカンダリリージョンのワークスペース間でデータの類似性をできる限り保持するためのツールには、主に 2 つのアプローチがあります。

プライマリからセカンダリにコピーする同期クライアント: 同期クライアントは、プライマリリージョンからセカンダリリージョンに運用データと資産をプッシュします。通常、これはスケジュールに基づいて実行されます。
並列デプロイ用の CI/CD ツール: 実稼働のコードとアセットに対して、実稼働システムへの変更を両方のリージョンに同時にプッシュする CI/CD ツールを使用します。たとえば、ステージング/開発から実稼働にプッシュされたコードとアセットは、CI/CD システムの働きによって同時に、両方のリージョンで使用可能になります。中核となる考え方は、Azure Databricks ワークスペース内のすべての成果物を infrastructure-as-code (コードとしてのインフラストラクチャ) として扱うことです。ほとんどの成果物はプライマリとセカンダリ両方のワークスペースに同時デプロイできますが、ディザスターリカバリーイベントの終了後にしかデプロイできない成果物もあります。ツールについては、「オートメーションスクリプト、サンプル、プロトタイプ」を参照してください。

次の図は、これら 2 つのアプローチを対比しています。

ディザスターリカバリーのオプション

ニーズに応じて、アプローチを組み合わせることができます。たとえば、ノートブックのソースコードには CI/CD を使用し、プールやアクセス制御などの構成には同期を使用します。

次の表では、各ツールオプションを使用してさまざまな種類のデータを処理する方法について説明します。

説明	CI/CD ツールでの処理方法	同期ツールを使用して処理する方法
ソースコード: ノートブックソースのエクスポートとパッケージ化されたライブラリのソースコード	プライマリとセカンダリの両方に同時デプロイします。	プライマリからセカンダリにソースコードを同期します。
ユーザーとグループ	Git でメタデータを構成として管理します。または、両方のワークスペースに同じ ID プロバイダー (IdP) を使用します。ユーザーとグループのデータをプライマリデプロイとセカンダリデプロイに同時デプロイします。	両方のリージョンで SCIM またはその他の自動化を使用します。手動作成は "非推奨" ですが、使用する場合は両方で同時に行う必要があります。手動セットアップを使用する場合は、スケジュールされた自動プロセスを作成して、2 つのデプロイ間のユーザーとグループの一覧を比較します。
プール構成	Git でテンプレートにすることができます。プライマリとセカンダリに同時デプロイします。ただし、セカンダリの `min_idle_instances` は、ディザスターリカバリーイベントまではゼロである必要があります。	API または CLI を使用してセカンダリワークスペースに同期されるときに、任意の `min_idle_instances` で作成されたプール。
ジョブの構成	Git でテンプレートにすることができます。プライマリデプロイの場合、ジョブ定義をそのままデプロイします。セカンダリデプロイの場合は、ジョブをデプロイし、コンカレンシーを 0 に設定します。これにより、このデプロイでジョブが無効になり、余計な実行を防止します。セカンダリデプロイがアクティブになったら、コンカレンシーの値を変更します。	ジョブが何らかの理由で既存の `<interactive>` クラスターで実行される場合、同期クライアントはセカンダリワークスペース内の対応する `cluster_id` にマップする必要があります。
アクセス制御リスト (ACL)	Git でテンプレートにすることができます。ノートブック、フォルダー、クラスターの場合、プライマリデプロイとセカンダリデプロイに同時デプロイします。ただし、ディザスターリカバリーイベントまではジョブのデータを保持します。	Permissions API では、クラスター、ジョブ、プール、ノートブック、およびフォルダーのアクセス制御を設定できます。同期クライアントは、セカンダリワークスペース内の各オブジェクトの対応するオブジェクト ID にマップする必要があります。 Databricks では、アクセス制御をレプリケートする "前" に、これらのオブジェクトの同期と並行して、プライマリワークスペースからセカンダリワークスペースへのオブジェクト ID のマップを作成することが推奨されています。
ライブラリ	ソースコードとクラスター/ジョブテンプレートに含めます。	一元化されたリポジトリ、DBFS、またはクラウドストレージからカスタムライブラリを同期します (マウントできます)。
クラスター初期化スクリプト	必要に応じて、ソースコードに含めます。	より簡単な同期を行う場合は、可能であれば、プライマリワークスペースの共通フォルダーまたは少数のフォルダーに init スクリプトを格納します。
マウントポイント	ノートブックベースのジョブまたはコマンド API のみを使用して作成された場合は、ソースコードに含めます。	Azure Data Factory (ADF) アクティビティとして実行できるジョブを使用します。ワークスペースが異なるリージョンにある場合、ストレージのエンドポイントが変わる可能性があることに注意してください。これは、データのディザスターリカバリー戦略にも大きく依存します。
テーブルメタデータ	ノートブックベースのジョブまたはコマンド API のみを使用して作成された場合は、ソースコードと共に含めます。これは、内部の Azure Databricks メタストアと、外部で構成されたメタストアのどちらにも当てはまります。	Spark Catalog API を使用してメタストア間のメタデータ定義を比較するか、ノートブックまたはスクリプトを使用してテーブルの作成を表示します。基になるストレージのテーブルはリージョンベースにすることができ、メタストアインスタンス間で異なる点に注意してください。
シークレット	コマンド API のみを使用して作成された場合は、ソースコードに含めます。一部のシークレットコンテンツについては、プライマリとセカンダリの間で変更が必要な場合があることに注意してください。	シークレットは、API を使用して両方のワークスペースに作成されます。一部のシークレットコンテンツについては、プライマリとセカンダリの間で変更が必要な場合があることに注意してください。
クラスター構成	Git でテンプレートにすることができます。プライマリデプロイとセカンダリデプロイに同時デプロイしますが、セカンダリデプロイではディザスターリカバリーイベントまで終了する必要があります。	クラスターは、API または CLI を使用してセカンダリワークスペースに同期された後に作成されます。自動終了の設定によっては、必要に応じて明示的に終了することができます。
ノートブック、ジョブ、フォルダーのアクセス許可	Git でテンプレートにすることができます。プライマリデプロイとセカンダリデプロイに同時デプロイします。	Permissions API を使用してレプリケートします。

リージョンと複数のセカンダリワークスペースを選択する

ディザスターリカバリートリガーを完全に制御できる必要があります。いつでも、どのような理由でも、これをトリガーすることを決定できます。フェールバック (通常の運用) モードで操作を再開する前に、ディザスターリカバリーの安定化に責任を持つ必要があります。通常、これは、運用とディザスターリカバリーのニーズに対応するために複数の Azure Databricks ワークスペースを作成し、セカンダリフェールオーバーリージョンを選択する必要があることを意味します。

Azure で、使用可能な製品と VM の種類に加えて、データレプリケーションを確認します。

ステップ 3: ワークスペースを準備して 1 回限りのコピーを実行する

ワークスペースが既に実稼働である場合、1 回限りのコピー操作を実行して、パッシブデプロイをアクティブデプロイと同期させるのが一般的です。この 1 回限りのコピーにより、以下が処理されます。

データレプリケーション: クラウドレプリケーションソリューションまたは Delta Deep Clone 操作を使用してレプリケートします。
トークン生成: トークン生成を使用して、レプリケーションと将来のワークロードを自動化します。
ワークスペースレプリケーション: 「ステップ 4 : データソースを準備する」で説明されている方法を使用して、ワークスペースレプリケーションを使用します。
ワークスペースの検証: -ワークスペースとプロセスが正常に実行され、期待どおりの結果が得られることを確認するためのテストを行います。

最初の 1 回限りのコピー操作の後、後続のコピー操作と同期操作が高速になります。ツールからのログ記録には、変更の内容とタイミングも記録されます。

ステップ 4: データソースを準備する

Azure Databricks では、バッチ処理またはデータストリームを使用して、さまざまなデータソースを処理できます。

データソースからのバッチ処理

データがバッチ処理される場合、通常は、簡単にレプリケートしたり、別のリージョンに配信したりできるデータソースに存在します。

たとえば、クラウドストレージの場所にデータが定期的にアップロードされる場合があります。セカンダリリージョンのディザスターリカバリーモードでは、ファイルがセカンダリリージョンストレージにアップロードされることを確認する必要があります。ワークロードは、セカンダリリージョンストレージから読み取り、セカンダリリージョンストレージに書き込む必要があります。

データストリーム

データストリームの処理は、より大きな課題です。ストリーミングデータは、さまざまなソースから取り込み、処理し、ストリーミングソリューションに送信できます。

Kafka などのメッセージキュー
データベース変更データキャプチャストリーム
ファイルベースの連続処理
ファイルベースのスケジュールされた処理 (トリガーワンスとも呼ばれる)

以上のいずれの場合も、ディザスターリカバリーモードを処理し、セカンダリリージョンのセカンダリデプロイを使用するようにデータソースを構成する必要があります。

ストリームライターは、処理されたデータに関する情報をチェックポイントに格納します。このチェックポイントにはデータの場所 (通常はクラウドストレージ) を含めることができ、ストリームの再起動が確実に成功するよう、この場所を新しい場所に変更する必要があります。たとえば、チェックポイント配下の source サブフォルダーには、ファイルベースのクラウドフォルダーが格納されている場合があります。

このチェックポイントを、適切なタイミングでレプリケートする必要があります。チェックポイントの間隔を新しいクラウドレプリケーションソリューションと同期することを検討してください。

チェックポイントの更新はライターの機能であるため、データストリームの取り込みまたは処理、および別のストリーミングソースへの格納に適用されます。

ストリーミングワークロードの場合、顧客が管理するストレージでチェックポイントが構成されていることを確認して、最後の障害の時点からワークロードを再開するためにチェックポイントをセカンダリリージョンにレプリケートできるようにします。プライマリプロセスと並行してセカンダリストリーミングプロセスを実行することもできます。

ステップ 5: ソリューションを実装してテストする

ディザスターリカバリーのセットアップを定期的にテストして、正しく機能することを確認します。ディザスターリカバリーソリューションを必要なときに使用できない場合、ディザスターリカバリーソリューションを維持しても価値はありません。企業によっては、数か月ごとにリージョンを切り替えます。定期的なスケジュールでリージョンを切り替えることによって、想定とプロセスをテストし、それらが復旧のニーズを満たしていることを確認できます。これにより、緊急事態に備えたポリシーと手順を組織が理解していることも保証されます。

重要

現実的な条件下でディザスターリカバリーソリューションを定期的にテストしてください。

オブジェクトまたはテンプレートが見つからない場合でも、プライマリワークスペースに格納されている情報に依存する必要がある場合は、計画を変更してこれらの障害を取り除くか、セカンダリシステムでこの情報をレプリケートするか、他の方法で使用できるようにします。

プロセスと構成全般に必要な組織の変更をテストします。ディザスターリカバリー計画はデプロイパイプラインに影響を与えます。同期する必要がある内容をチームが認識することが重要です。ディザスターリカバリーワークスペースを設定したら、インフラストラクチャ (手動またはコード)、ジョブ、ノートブック、ライブラリ、およびその他のワークスペースオブジェクトがセカンダリリージョンで使用できることを確認する必要があります。

標準の作業プロセスと構成パイプラインを拡張してすべてのワークスペースに変更をデプロイする方法について、チームと相談してください。すべてのワークスペースでユーザー ID を管理します。ジョブの自動化や新しいワークスペースの監視などのツールを忘れずに構成してください。

構成ツールの変更を計画し、テストします。

インジェスト: データソースの場所と、それらのソースがデータを取得する場所を理解します。可能であれば、ソースをパラメーター化し、セカンダリデプロイとセカンダリリージョンを操作するための個別の構成テンプレートがあることを確認します。フェールオーバーの計画を準備し、すべての前提をテストします。
実行の変更: ジョブやその他のアクションをトリガーするスケジューラがある場合は、セカンダリデプロイまたはそのデータソースを操作する個別のスケジューラを構成することが必要な場合があります。フェールオーバーの計画を準備し、すべての前提をテストします。
対話型接続: REST API、CLI ツール、またはその他のサービス (JDBC/ODBC など) を使用する場合のリージョンの中断によって、構成、認証、およびネットワーク接続がどのように影響を受ける可能性があるかを検討します。フェールオーバーの計画を準備し、すべての前提をテストします。
自動化の変更: すべての自動化ツールについて、フェールオーバーの計画を作成し、すべての想定をテストします。
出力: 出力データまたはログを生成するツールについては、フェールオーバーの計画を準備し、すべての前提条件をテストします。

フェールオーバーをテストする

ディザスターリカバリーは、さまざまなシナリオによってトリガーされる可能性があります。予期しない中断によってトリガーされることがあります。クラウドネットワーク、クラウドストレージ、別のコアサービスなど、一部のコア機能が停止する場合があります。システムを正常にシャットダウンするためのアクセス権がないため、復旧を試みる必要があります。ただし、このプロセスは、シャットダウンまたは計画停止によってトリガーされる場合もあれば、2 つのリージョン間でのアクティブデプロイの定期的な切り替えによりトリガーされる場合もあります。

フェールオーバーをテストするときは、システムに接続してシャットダウンプロセスを実行します。すべてのジョブが完了し、クラスターが終了していることを確認します。

同期クライアント (または CI/CD ツール) は、関連する Azure Databricks オブジェクトとリソースをセカンダリワークスペースにレプリケートできます。セカンダリワークスペースをアクティブ化するために、以下の一部または全部がプロセスに含まれる場合があります。

テストを実行して、プラットフォームが最新であることを確認します。
プライマリリージョンのプールとクラスターを無効にして、障害が発生したサービスがオンラインに戻ってもプライマリリージョンで新しいデータの処理が開始しないようにします。
復旧プロセスは次のとおりです。
1. 最も新しく同期されたデータの日付を確認します。 [_](# dr-terminology) を参照してください。この手順の詳細は、データの同期方法と固有のビジネスニーズによって異なります。
2. データソースを安定させ、それらがすべて使用可能であることを確認します。 Azure Cloud SQL、Delta Lake、Parquet、またはその他のファイルなど、すべての外部データソースを含めます。
3. ストリーミング復旧ポイントを見つけます。そこから再起動し、潜在的な重複を特定して排除する準備ができているプロセスを設定します (Delta Lake Lake を使用すると、この作業が容易になります)。
4. データフロープロセスを完了し、ユーザーに通知します。
関連するプールを開始します (または、関連する数に min_idle_instances を増やします)。
関連するクラスターを開始します (終了していない場合)。
ジョブの同時実行を変更し、関連するジョブを実行します。これらは、1 回限りの実行または定期的な実行である可能性があります。
Azure Databricks ワークスペースの URL またはドメイン名を使用する外部ツールの場合は、新しいコントロールプレーンを考慮するように構成を更新します。たとえば、REST API と JDBC/ODBC 接続の URL を更新します。コントロールプレーンが変更されると、Azure Databricks Web アプリケーションの顧客向け URL が変更されるため、組織のユーザーに新しい URL を通知します。

復元のテスト (フェールバック)

フェールバックは制御が容易で、メンテナンス期間に実行できます。この計画には、以下の一部または全部が含まれる可能性があります。

プライマリリージョンが復元されたことを確認します。
セカンダリリージョンのプールとクラスターを無効にして、新しいデータの処理を開始しないようにします。
セカンダリワークスペース内の新規または変更された資産をプライマリデプロイに同期します。フェールオーバースクリプトの設計によっては、同じスクリプトを実行して、セカンダリ (ディザスターリカバリー) リージョンからプライマリ (運用) リージョンにオブジェクトを同期できる場合があります。
新しいデータ更新をプライマリデプロイに同期します。ログとデルタテーブルの監査証跡を使用して、データの損失を保証できます。
ディザスターリカバリーリージョンのすべてのワークロードをシャットダウンします。
ジョブとユーザーの URL をプライマリリージョンに変更します。
テストを実行して、プラットフォームが最新であることを確認します。
関連するプールを開始します (または、関連する数に min_idle_instances を増やします)。
関連するクラスターを開始します (終了していない場合)。
ジョブの同時実行を変更し、関連するジョブを実行します。これらは、1 回限りの実行または定期的な実行である可能性があります。
必要に応じて、将来のディザスターリカバリーのためにセカンダリリージョンをもう一度設定します。

自動化スクリプト、サンプル、プロトタイプ

ディザスターリカバリープロジェクトで検討する自動化スクリプトには、次のようなものがあります。

Databricks では、独自の同期プロセスの開発に役立つ Databricks Terraform プロバイダーを使用することをお勧めします。
サンプルスクリプトとプロトタイプスクリプトについては、Databricks ワークスペース移行ツールに関するページも参照してください。 Azure Databricks オブジェクトに加えて、関連する Azure Data Factory パイプラインをレプリケートして、セカンダリワークスペースにマップされているリンクされたサービスをオブジェクトが参照するようにします。
Databricks Sync (DBSync) プロジェクトは、Databricks ワークスペースのバックアップ、復元、同期を行うオブジェクト同期ツールです。

次の方法で共有

障害復旧

リージョン内の高可用性の保証

Databricks コントロール プレーンの可用性

コンピューティング プレーンの可用性

ディザスター リカバリーの概要

用語

リージョンの用語

デプロイ状態の用語

ディザスター リカバリーの業界用語

ディザスター リカバリーとデータの破損

一般的な復旧ワークフロー

ステップ 1: ビジネス ニーズを理解する

ステップ 2: ビジネス ニーズを満たすプロセスを選択する

一般的なベスト プラクティス

リカバリー ソリューションの戦略を選択する

アクティブ/パッシブ ソリューションの戦略

アクティブ/アクティブ ソリューションの戦略