Azure Databricks アーキテクチャの概要

この記事では、Azure と組み合わせたエンタープライズ アーキテクチャなど、Azure Databricks アーキテクチャの概要について説明します。

コントロール プレーンとコンピューティング プレーン

Azure Databricks は、Azure Databricks によって管理される大量のバックエンド サービスを維持しながら、職能上の枠を超えたチームのセキュリティで保護されたコラボレーションを行えるように構成されているため、データ サイエンス、Data Analytics、および Data Engineering のタスクに専念し続けることができます。

Azure Databricks は、"コントロール プレーン" と "コンピューティング プレーン" により動作します。

  • コントロール プレーンには、Azure Databricks によって Azure Databricks アカウントで管理されるバックエンド サービスが含まれています。 ノートブック コマンドとその他多数のワークスペースの構成は、コントロール プレーンに格納され、保存時に暗号化されます。

  • コンピューティング プレーンは、データが処理される場所です。

    • ほとんどの Azure Databricks 評価では、コンピューティング リソースは、"クラシック コンピューティング プレーン" と呼ばれる Azure サブスクリプション内にあります。 これは、Azure サブスクリプション内のネットワークとそのリソースを指します。 クラシック コンピューティング プレーンは、Azure Databricks でノートブック、ジョブ、Pro およびクラシックの Databricks SQL ウェアハウス用に使用されます。
    • サーバーレス SQL ウェアハウスまたはモデル サービスの場合、サーバーレス コンピューティング リソースは、Azure Databricks アカウントのサーバーレス コンピューティング プレーンで実行されます。 アーキテクチャの詳細については、「サーバーレス コンピューティング」を参照してください。

    Note

    以前は、Azure Databricks では、コンピューティング プレーンをデータ プレーンと呼んでいました。

Azure Databricks コネクタを使用して、Azure サブスクリプションの外部にある外部データ ソースにクラスターを接続して、データを取り込むか、ストレージに使用します。 また、イベント データ、ストリーミング データ、IoT データなど、外部のストリーミング データ ソースからデータを取り込むこともできます。 「データ ソースに接続する」を参照してください。

クラシック コンピューティング プレーンのネットワークを構成するには、「クラシック コンピューティング プレーン ネットワーク」をご参照ください。

データ レイクは、Azure サブスクリプション内と独自のデータ ソース内に保存されるため、データの制御と所有権を維持できます。

ジョブの結果は、Azure サブスクリプションのストレージ内に存在します。 対話型ノートブックの結果は、コントロール プレーン (UI で表示するための部分的な結果) と Azure ストレージを組み合わせて保存されます。 対話型ノートブックの結果を Azure サブスクリプションのみに保存する場合、対話型ノートブックの結果の保存場所を構成できます。 「対話型ノートブックの結果の保存場所を構成する」を参照してください。 グラフの列名など、結果に関する一部のメタデータは、引き続きコントロール プレーンに格納されることに注意してください。

大まかなアーキテクチャ

アーキテクチャはカスタム構成によって異なる場合がありますが (たとえば、Azure Databricks ワークスペースを独自の仮想ネットワークにデプロイした場合 (VNet インジェクションとも呼ばれます) など)、次のアーキテクチャ図は、Azure Databricks の最も一般的な構造とデータのフローを示しています。

次の図は、全体的なアーキテクチャを説明しています。 サーバーレス SQL ウェアハウスに使用されるサーバーレス コンピューティング プレーンの詳細については、「サーバーレス コンピューティング」を参照してください。

Diagram: Databricks architecture on Azure