Azure Databricks アーキテクチャの概要

この記事では、Azure と組み合わせたエンタープライズ アーキテクチャなど、Azure Databricks アーキテクチャの概要について説明します。

大まかなアーキテクチャ

Azure Databricks は、Azure Databricks によって管理される大量のバックエンド サービスを維持しながら、職能上の枠を超えたチームのセキュリティで保護されたコラボレーションを行えるように構成されているため、データ サイエンス、Data Analytics、および Data Engineering のタスクに専念し続けることができます。

Azure Databricks は、"コントロール プレーン" と "データ プレーン" により動作します。

アーキテクチャはカスタム構成によって異なる場合がありますが (たとえば、Azure Databricks ワークスペースを独自の仮想ネットワークにデプロイした場合 (VNet インジェクションとも呼ばれます) など)、次のアーキテクチャ図は、Azure Databricks の最も一般的な構造とデータのフローを示しています。

図: Azure 上の Databricks アーキテクチャ

コントロール プレーンとデータ プレーン

  • コントロール プレーンには、Azure Databricks によってその独自の Azure アカウントで管理されるバックエンド サービスが含まれています。 ノートブック コマンドとその他多数のワークスペースの構成は、コントロール プレーンに格納され、保存時に暗号化されます。
  • データ プレーンは Azure アカウントによって管理され、そこにデータが存在します。 これは、データが処理される場所でもあります。 Azure Databricks コネクタを使用して、Azure アカウントの外部にある外部データ ソースにクラスターを接続して、データを取り込むか、ストレージに使用します。 また、イベント データ、ストリーミング データ、IoT データなど、外部のストリーミング データ ソースからデータを取り込むこともできます。

アーキテクチャの詳細については、「仮想ネットワークの管理」を参照してください。

データは、コントロール プレーンではなく、データ プレーンの Azure アカウント内と、独自のデータ ソース内に格納されるので、データの制御と所有権を維持できます。

ジョブの結果は、アカウントのストレージ内にあります。

対話型ノートブックの結果は、コントロール プレーン (UI で表示するための部分的な結果) と Azure ストレージの組み合わせで格納されます。 対話型ノートブックの結果をクラウド アカウント ストレージにのみ格納する必要がある場合は、ワークスペースに対して "顧客アカウント内の対話型ノートブックの結果" を有効にするように Databricks の担当者に依頼することができます。 グラフの列名など、結果に関する一部のメタデータは、引き続きコントロール プレーンに格納されることに注意してください。 この機能はパブリック プレビュー段階にあります。