Azure Databricks 構成の概要

2025-07-01

Azure Databricks は、データエンジニアリングとデータサイエンスの最高の機能を組み合わせたクラウドベースのプラットフォームです。 Apache Spark を使用することで、ビッグデータ処理のための高速でスケーラブルなオープンソースのフレームワークを使用して、データパイプラインを構築、管理、分析できます。 Azure Databricks は、データサイエンティストとエンジニアが機械学習と人工知能プロジェクトで共同作業を行うためのコラボレーションワークスペースも提供しています。

政府機関や公共部門で働いている場合、このリファレンスアーキテクチャのドキュメントは、主権ベースラインポリシーイニシアチブが適用された Sovereign Landing Zone または Azure Landing Zone 展開で Azure Databricks を使用するための、意見に基づくガイダンスを提供します。

Azure Databricks 製品ドキュメントでは、さまざまな記事で詳細な情報をご覧いただけます。このドキュメントは、Azure Databricks 環境を構成するための重要な概念とオプションに関する厳選された推奨事項を提供することで、ドキュメントを補完するものです。

Azure Databricks の主な機能

Azure Databricks には豊富な機能がありますが、このリファレンスアーキテクチャでは、そのインフラストラクチャ要素に焦点を当てます。 Azure Databricks の機能:

対話型ノートブック: ノートブックを使用して Python、Scala、SQL、または R でコードを記述し、結果をチャートやグラフで視覚化します。チームメンバーとノートブックを共有してコメントし、GitHub や Azure DevOpsなどの一般的なツールと統合します。
コンピューティングオプション: Azure Databricks は、データエンジニアリング、データサイエンス、データ分析のワークロードをサポートするさまざまなコンピューティングオプションを提供しています。これらのオプションには、ノートブックとジョブ用のオンデマンドでスケーラブルなサーバーレスコンピューティング、汎用分析および自動ジョブ用のプロビジョニング済みコンピューティング、SQL コマンドを実行するための SQL ウェアハウスなどが含まれます。インスタンスプールは、アイドル状態で即座に使用可能なインスタンスを提供し、起動時間とオートスケーリング時間を短縮し、さまざまなデータ処理シナリオにおける効率を向上させます。
データ統合: Azure Blob、ストレージ、Azure Data Lake Storage、Azure SQL Database、 Azure Synapse Analytics、Azure Cosmos DB など、さまざまなデータソースと宛先に簡単に接続できます。 ACID のトランザクションとスキーマ強制をサポートする、信頼性が高く高性能なデータレイクソリューションである Delta Lake を使用します。
コンピューター学習: TensorFlow、PyTorch、Scikit-learn、XGBoost などの一般的なフレームワークを使用して、機械学習モデルを構築、トレーニング、展開します。機械学習のライフサイクルを管理するオープンソースプラットフォームである MLflow を使用して、実験の追跡、メトリクスの記録、モデルの展開を行います。
エンタープライズセキュリティ: ロールベースのアクセス制御、暗号化、監査、コンプライアンスなどの機能により、データに安全にアクセスして処理します。 Azure Databricks を Microsoft Entra ID、Azure Key Vault、Azure Private Link と統合して、ID とデータの保護を実現します。
データガバナンスと共有: Unity Catalog は、外部共有用の管理型 Delta Sharing とデータレイクハウス用の統合データガバナンスモデルを提供することで、組織内でのデータ共有とクラウドでの安全な分析を簡素化します。

高レベルの Databricks アーキテクチャ

Azure Databricks は コントロールプレーン と コンピューティングプレーンで動作します。参照アーキテクチャでは、これらの各制御プレーンにおける構成オプションを推奨しています。次の図は、Azure Databricks アーキテクチャ全体を示しています。

コントロールプレーン

コントロールプレーンは、クラスタとジョブのライフサイクル、ユーザーとデータアクセス認証と承認を管理する Azure Databricks のレイヤーです。コントロールプレーンには、Azure Databricks アカウントで Azure Databricks が管理するバックエンドサービスが含まれます。 Web アプリケーションはコントロールプレーンにあります。

コントロールプレーンは、Azure Databricks が所有する Azure サブスクリプションで実行され、セキュアな API を通じてクラシックとサーバーレスのコンピューティングプレーンと通信します。コントロールプレーンは、ユーザーが Azure Databricks と対話するための Web インターフェイスと REST API も提供します。

コンピューティングプレーン

コンピューティングプレーンは、データが処理される場所です。コンピューティングプレーンには、サーバーレスとクラシックの 2 種類があります。サーバーレスコンピューティングプレーンは、即座に弾力性のあるリソースを提供しますが、従来のコンピューティングプレーンは、事前にプロビジョニングされたインフラストラクチャに依存しています。

サーバーレスコンピューティングプレーン

サーバーレスコンピューティングは、アドホックなクエリ、ノートブック、短期間のワークロードに最適です。たとえば、サーバーレスコンピューティングを使用して、ノートブックで SQL コマンドを実行したり、軽量なジョブを実行したりすることができます。サーバーレスコンピューティングプレーンでは、リソースは Azure Databricks アカウント内のコンピューティングレイヤーで実行されます。

Azure Databricks は、ワークスペースのクラシックコンピューティングプレーンと同じ Azure リージョンにサーバーレスのコンピューティングプレーンを作成します。 Databricks のアカウントにあるサーバーのプールを運用しており、Kubernetes コンテナを実行して、数秒でユーザーに割り当てることができます。詳細については、Databricks Serverless SQL の発表: SQL ワークロード向けのインスタント、マネージド、セキュア、運用対応プラットフォーム - Databricks ブログを参照してください。

コンピューティングプラットフォームは、ユーザーが同時にレポートやクエリを実行して同時負荷を処理する場合、より多くのサーバーでクラスタを迅速に拡張します。 Databricks は、サーバーの構成全体を管理し、必要に応じて修正プログラムの適用とアップグレードを自動的に実行します。サーバーレスコンピューティングは、使用量に応じて課金されます (例: クエリの実行やジョブの実行ごとの課金)。

各サーバーは安全な構成で実行され、すべての処理は 3 層の分離 (ランタイムをホストする Kubernetes コンテナ、コンテナをホストする VM、ワークスペース用の仮想ネットワーク) によって保護されています。各レイヤーは、 1 つのワークスペースに分離され、共有やネットワーク間のトラフィックが許可されません。

コンテナは強化された構成を使用し、VM はシャットダウンされ再利用されません。また、ネットワークトラフィックは同じクラスタ内のノードに制限されます。すべてのコンピューティングは一時的なもので、そのワークロード専用であり、ワークロードが完了すると安全に消去されます。

ユーザー、コントロールプレーン、コンピューティングプレーン、クラウドサービス間のすべてのトラフィックは、パブリックインターネットではなく、Azure のグローバルネットワークを経由してルーティングされます。サーバーレス SQL ウェアハウス用のサーバーレスコンピューティングプレーンは、顧客が構成可能なバックエンド Azure Private Link 接続を使用しません。 Azure Databricks コントロールプレーンは、コントロールプレーン IP アドレスのみに IP アクセスを許可する mTLS を使用して、サーバーレスコンピューティングプレーンに接続します。

接続されたすべてのストレージは、業界標準の AES-256 暗号化によって保護されており、ユーザー、コントロールプレーン、コンピューティングプレーン、クラウドサービス間のすべてのトラフィックは、少なくとも TLS 1.2 で暗号化されています。サーバーレス SQL ウェアハウスでは、マネージドディスクに顧客が管理するキーは使用されません。

ワークロードは、そのワークロードの範囲外のシステムに対する特権や認証情報を持っていません。データへのアクセスは、有効期間の短い (1 時間) のトークンを介して行われます。これらのトークンは、特定の各ワークロードに安全に渡されます。

2024 年 6 月現在、Azure 機密コンピューティングはサーバーレスコンピューティングではサポートされていませんが、Azure サーバーレスコンピューティングの分離の図に示されているように、ワークロードは複数の分離レイヤーによって保護されています。

詳細については、サーバーレスコンピューティングにワークロードを安全に展開するを参照してください。

クラシックコンピューティングプレーン

従来型のクラシックコンピューティングプレーンは、長時間実行されるジョブ、生産ワークロード、一貫したリソースニーズに適しています。たとえば、ETL パイプライン、機械学習のトレーニング、データエンジニアリングタスクにプロビジョニングされたコンピューティングを使用できます。

クラシックコンピューティングプレーンは、ユーザー独自の Azure サブスクリプションで実行されるため、自然に分離されています。新しいコンピューティングリソースは、Azure サブスクリプション内の各ワークスペースの仮想ネットワーク内に作成および構成されます。コンピューティングリソースは、明示的に変更されるまで一定に保たれ、インスタンスタイプと使用時間に基づいて課金されます。クラスタでは、マネージドディスクに顧客管理キーを使用でき、スポットインスタンスもサポートされています。

Azure Databricks 管理者は、クラスターポリシーを使用して、利用可能なインスタンスタイプ、Databricks バージョン、インスタンスのサイズなど、クラスターのさまざまな側面を制御できます。

Databricks 仮想ネットワークのインジェクションは、Azure Databricks クラシックコンピューティングプレーンリソースを独自の仮想ネットワークに展開できる機能です。この機能を使用すると、サービスエンドポイントまたはプライベートエンドポイントを使用して、Azure Databricks を他の Azure サービスにより安全に接続することができます。 Azure Databricks ワークスペースが実行されている仮想ネットワークを、別の Azure 仮想ネットワークとピアリングするには、仮想ネットワークとのピアリングを使用することもできます。

次の方法で共有

Azure Databricks 構成の概要

Azure Databricks の主な機能

高レベルの Databricks アーキテクチャ

コントロール プレーン

コンピューティング プレーン

サーバーレス コンピューティング プレーン

クラシック コンピューティング プレーン

その他のリソース

コントロールプレーン

コンピューティングプレーン

サーバーレスコンピューティングプレーン

クラシックコンピューティングプレーン