高次アーキテクチャ

この記事では、Azure と組み合わせたエンタープライズアーキテクチャなど、Azure Databricks アーキテクチャの概要について説明します。

Databricks オブジェクト

Azure Databricks アカウント は、組織全体で Azure Databricks を管理するために使用する最上位レベルのコンストラクトです。アカウントレベルでは、次の管理を行います。

ID とアクセス: ユーザー、グループ、サービスプリンシパル、およびユーザープロビジョニング。

ワークスペースの管理: 複数のリージョンにまたがるワークスペースを作成、更新、削除します。
Unity カタログメタストア管理: メタストアを作成してワークスペースにアタッチします。
使用状況管理: 課金、コンプライアンス、ポリシー。

アカウントには、複数のワークスペースと Unity カタログメタストアを含めることができます。

ワークスペース は、ユーザーがインジェスト、対話型探索、スケジュールされたジョブ、ML トレーニングなどのコンピューティングワークロードを実行するコラボレーション環境です。
Unity カタログメタストア は、テーブルや ML モデルなどのデータ資産の中央ガバナンスシステムです。メタストア内のデータは、次の 3 レベルの名前空間の下に整理します。

<catalog-name>.<schema-name>.<object-name>

メタストアはワークスペースにアタッチされます。 1 つのメタストアを同じリージョン内の複数の Azure Databricks ワークスペースにリンクし、各ワークスペースに同じデータビューを提供できます。データアクセス制御は、リンクされているすべてのワークスペースで管理できます。

図: Databricks オブジェクト階層

ワークスペースのアーキテクチャ

Azure Databricks は、"コントロールプレーン" と "コンピューティングプレーン" により動作します。

コントロールプレーンには、Azure Databricks によって Azure Databricks アカウントで管理されるバックエンドサービスが含まれています。コントロールプレーンは、クラウドアカウントではなく Azure Databricks アカウントにあります。 Web アプリケーションは、コントロールプレーン内にあります。
コンピューティングプレーンは、データが処理される場所です。コンピューティングプレーンには、使用するコンピューティングに応じて次の 2 つの種類があります。
- サーバーレスコンピューティングの場合、サーバーレスコンピューティングリソースは、Azure Databricks アカウント内の "サーバーレスコンピューティングプレーン" 内で実行されます。
- 従来の Azure Databricks コンピューティングの場合、コンピューティングリソースは、Azure サブスクリプション内にあり、"クラシックコンピューティングプレーン" と呼ばれます。これは、Azure サブスクリプション内のネットワークとそのリソースを指します。
クラシックコンピューティングとサーバーレスコンピューティングの詳細については、「コンピューティング」を参照してください。

クラシックワークスペースのアーキテクチャ

注

クラシックワークスペースは、Azure portal では ハイブリッドワークスペース と呼ばれます。

クラシック Azure Databricks ワークスペースには、ワークスペースストレージアカウントと呼ばれるストレージ アカウントが関連付けられています。ワークスペースストレージアカウントは、Azure サブスクリプション内にあります。

次の図では、クラシックワークスペースの一般的な Azure Databricks アーキテクチャについて説明します。

図: Azure の Databricks アーキテクチャ

サーバーレスワークスペースのアーキテクチャ

サーバーレスワークスペース内のワークスペースストレージは、ワークスペースの既定のストレージに格納されます。クラウドストレージアカウントに接続してデータにアクセスすることもできます。次の図では、サーバーレスワークスペースの一般的なアーキテクチャについて説明します。

図: Databricks サーバーレスワークスペースのアーキテクチャ

サーバーレスコンピューティングプレーン

サーバーレスコンピューティングプレーンでは、Azure Databricks コンピューティングリソースは、Azure Databricks アカウント内のコンピューティングレイヤーで実行されます。 Azure Databricks は、ワークスペースのクラシックコンピューティングプレーンと同じ Azure リージョンにサーバーレスコンピューティングプレーンを作成します。ワークスペースを作成する場合は、このリージョンを選択します。

サーバーレスコンピューティングプレーン内の顧客データを保護するために、サーバーレスコンピューティングはワークスペースのネットワーク境界内で実行され、Azure Databricks の異なる顧客のワークスペースを隔離するさまざまなセキュリティレイヤーと、同じ顧客のクラスター間の追加のネットワーク制御を備えています。

サーバーレスコンピューティングプレーン内のネットワークの詳細については、「サーバーレスコンピューティングプレーンネットワーク」を参照してください。

クラシックコンピューティングプレーン

クラシックコンピューティングプレーンでは、Azure Databricks コンピューティングリソースは Azure サブスクリプションで実行されます。新しいコンピューティングリソースは、顧客の Azure サブスクリプション内の各ワークスペースの仮想ネットワーク内に作成されます。

クラシックコンピューティングプレーンは、顧客独自の Azure サブスクリプションで実行されるため、自然な分離を備えます。クラシックコンピューティングプレーン内のネットワークの詳細については、「クラシックコンピューティングプレーンネットワーク」を参照してください。

リージョンのサポートについては、「Azure Databricks のリージョン」を参照してください。

ワークスペースストレージ

ワークスペースストレージの処理方法は、ワークスペースの種類によって異なります。ワークスペースの種類の詳細については、「ワークスペースの作成」を参照してください。

ワークスペースストレージには、ワークスペースファイルシステムデータとワークスペースシステムデータという 2 つのカテゴリのデータが含まれています。どちらも、独自のデータオブジェクト (Unity カタログテーブルやボリュームなど) とは別です。

ワークスペースのファイルシステムデータ

ワークスペースファイルシステムには、ユーザーが Azure Databricks UI を使用して作成および管理する資産が格納されます。これらには次のものが含まれます。

Notebooks
SQL クエリとダッシュボード
アラート
リポジトリ (Git リポジトリにアタッチされているフォルダー)
ライブラリ (.whl、 .jar)
Python ファイル、YAML 構成ファイル、およびその他の小さなファイル

ワークスペースファイルの詳細については、「ワークスペースファイルとは」を参照してください。ワークスペース資産の完全な一覧については、「ワークスペースオブジェクトの概要」を参照してください。

ワークスペースシステムデータ

すべての Azure Databricks ワークスペースには、Azure Databricks 機能によって内部的に生成されたシステムデータも格納されます。このデータは大きすぎてメモリやデータベースに格納できません。または、単一のコンピューティングリソースの有効期間を超えて保持する必要があります。ワークスペースシステムデータの例を次に示します。

SQL クエリの結果とキャッシュされたクエリ結果
ジョブ実行結果
ノートブックの改訂
監視に使用される SQL クエリプラン
クラスターログ

ワークスペースの種類ごとにワークスペースストレージを構成する方法の詳細については、以下のセクションを参照してください。

サーバーレスワークスペース

サーバーレスワークスペースでは、既定のストレージが使用されます。これは、内部ワークスペースシステムデータと Unity Catalog データ資産の完全に管理されたストレージの場所です。サーバーレスワークスペースでは、独自のカタログ、テーブル、およびその他のデータ資産のクラウドストレージの場所に接続する機能もサポートされています。 Databricks の既定のストレージを参照してください。

クラシックワークスペース

Important

クラウドアカウント内のワークスペースストレージを削除または変更しないでください。 Azure Databricks ワークスペースは、正しい操作のためにコントロールプレーンデータベースとそのワークスペースストレージの両方に依存します。ワークスペースストレージが削除された場合、ワークスペースを復旧できません。

クラシックワークスペースでは、ワークスペースシステムデータは DBFS とは異なります。どちらもクラシックワークスペース内の同じクラウドストレージアカウントに存在する場合がありますが、異なる目的で機能します。 DBFS ルートはユーザーがアクセスできるファイルシステムですが、ワークスペースシステムデータは Azure Databricks の機能によって内部的に使用されます。

ワークスペースストレージアカウントには、次のものが含まれています。

ワークスペースシステムデータ: Azure Databricks 機能によって生成された内部データ
Unity カタログワークスペースカタログ: ワークスペースが Unity カタログに対して自動的に有効になっている場合、ワークスペースストレージアカウントには既定のワークスペースカタログが含まれます。ワークスペースのすべてのユーザーは、このカタログ内の既定のスキーマで資産を作成できます。 Unity カタログについて始めに知っておくべきことを参照してください
DBFS (レガシ): DBFS ルートマウントと DBFS マウントはレガシであり、ワークスペースで無効になる可能性があります。 DBFS (Databricks ファイルシステム) は、 dbfs:/ 名前空間でアクセスできる Azure Databricks 環境の分散ファイルシステムです。 DBFS ルートと DBFS マウントは、両方とも dbfs:/ 名前空間にあります。 DBFS ルートまたは DBFS マウントを使用したデータの保存とアクセスは非推奨のパターンであり、Databricks では推奨されません。詳細については、「DBFS とは」を参照してください。

ワークスペースストレージアカウントへのアクセスを、承認されたリソースとネットワークからのみに制限するには、「ワークスペースストレージアカウントのファイアウォールサポートを有効にする」を参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-03-16

高次アーキテクチャ

Databricks オブジェクト

ワークスペースのアーキテクチャ

クラシック ワークスペースのアーキテクチャ

サーバーレス ワークスペースのアーキテクチャ

サーバーレス コンピューティング プレーン

クラシック コンピューティング プレーン

ワークスペース ストレージ

ワークスペース のファイル システム データ

ワークスペース システム データ

サーバーレス ワークスペース

クラシック ワークスペース