Azure Databricks アーキテクチャの概要
この記事では、Azure と組み合わせたエンタープライズ アーキテクチャなど、Azure Databricks アーキテクチャの概要について説明します。
大まかなアーキテクチャ
Azure Databricks は、"コントロール プレーン" と "コンピューティング プレーン" により動作します。
コントロール プレーンには、Azure Databricks によって Azure Databricks アカウントで管理されるバックエンド サービスが含まれています。 Web アプリケーションは、コントロール プレーン内にあります。
コンピューティング プレーンは、データが処理される場所です。 コンピューティング プレーンには、使用するコンピューティングに応じて次の 2 つの種類があります。
- サーバーレス コンピューティングの場合、サーバーレス コンピューティング リソースは、Azure Databricks アカウント内の "サーバーレス コンピューティング プレーン" 内で実行されます。
- 従来の Azure Databricks コンピューティングの場合、コンピューティング リソースは、Azure サブスクリプション内にあり、"クラシック コンピューティング プレーン" と呼ばれます。 これは、Azure サブスクリプション内のネットワークとそのリソースを指します。
クラシック コンピューティングとサーバーレス コンピューティングの詳細については、「コンピューティングの種類」を参照してください。
Azure Databricks の各ワークスペースには、ワークスペース ストレージ アカウントと呼ばれる、ストレージ アカウントが関連付けられています。 ワークスペース ストレージ アカウントは、Azure サブスクリプション内にあります。
次の図は、全体的な Azure Databricks アーキテクチャについて説明しています。
サーバーレス コンピューティング プレーン
サーバーレス コンピューティング プレーンでは、Azure Databricks コンピューティング リソースは、Azure Databricks アカウント内のコンピューティング レイヤーで実行されます。 Azure Databricks では、ワークスペースのクラシック コンピューティング プレーンと同じ Azure リージョンに、サーバーレス コンピューティング プレーンが作成されます。 ワークスペースを作成する場合は、このリージョンを選択します。
サーバーレス コンピューティング プレーン内の顧客データを保護するために、サーバーレス コンピューティングはワークスペースのネットワーク境界内で実行され、Azure Databricks の異なる顧客のワークスペースを隔離するさまざまなセキュリティ レイヤーと、同じ顧客のクラスター間の追加のネットワーク制御を備えています。
サーバーレス コンピューティング プレーン内のネットワークの詳細については、「サーバーレス コンピューティング プレーン ネットワーク」を参照してください。
クラシック コンピューティング プレーン
クラシック コンピューティング プレーンでは、Azure Databricks コンピューティング リソースは Azure サブスクリプションで実行されます。 新しいコンピューティング リソースは、顧客の Azure サブスクリプションの各ワークスペースの仮想ネットワーク内に作成されます。
クラシック コンピューティング プレーンは、各顧客の独自の Azure サブスクリプションで実行されるため、自然に分離されます。 クラシック コンピューティング プレーン内のネットワークの詳細については、「クラシック コンピューティング プレーン ネットワーク」を参照してください。
リージョンのサポートについては、「Azure Databricks のリージョン」を参照してください。
ワークスペース ストレージ アカウント
ワークスペースを作成すると、Azure Databricks でワークスペース ストレージ アカウントとして使用されるアカウントが Azure サブスクリプション内に作成されます。
ワークスペース ストレージ アカウントには、次のものが含まれています。
- ワークスペース システム データ: ワークスペース システム データは、ノートブックの作成など、Azure Databricks の各種機能を使用すると生成されます。 このバケットには、ノートブックのリビジョン、ジョブの実行の詳細、コマンドの結果、Spark のログが含まれます
- DBFS: DBFS (Databricks ファイル システム) は、
dbfs:/
ワークスペースからアクセスできる、Azure Databricks 環境内の分散ファイル システムです。 DBFS ルートと DBFS マウントは、両方ともdbfs:/
名前空間にあります。 DBFS ルートまたは DBFS マウントを使用したデータの保存とアクセスは非推奨のパターンであり、Databricks では推奨されません。 詳細については、「DBFS とは」を参照してください。 - Unity Catalog ワークスペース カタログ: Unity Catalog に対してワークスペースが自動的に有効になっている場合は、そのワークスペース ストレージ アカウントに既定のワークスペース カタログが含まれます。 ワークスペースのすべてのユーザーは、このカタログ内の既定のスキーマで資産を作成できます。 「Unity Catalog の設定と管理」をご参照ください。
ワークスペース ストレージ アカウントへのアクセスを、承認されたリソースとネットワークからのみに制限するには、「ワークスペース ストレージ アカウントのファイアウォール サポートを有効にする」を参照してください。