Lakehouse リファレンスアーキテクチャ (ダウンロード)

2025-06-09

この記事では、データソース、インジェスト、変換、クエリとプロセス、提供、分析、ストレージという観点からレイクハウスのアーキテクチャガイダンスについて説明します。

各リファレンスアーキテクチャには、11 x 17 (A3) 形式のダウンロード可能な PDF があります。

Databricks 上の lakehouse はパートナーツールからなる大規模なエコシステムと統合されたオープンプラットフォームですが、リファレンスアーキテクチャは Azure サービスと Databricks lakehouse のみに焦点を当てています。画像内のクラウドプロバイダーサービスは、概念を示すために選択されており、すべてを網羅しているわけではありません。

Azure Databricks レイクハウスのリファレンスアーキテクチャ。

ダウンロード: Azure Databricks レイクハウスのリファレンスアーキテクチャ

Azure リファレンスアーキテクチャには、インジェスト、ストレージ、提供、分析のための次の Azure 固有のサービスが示されています。

Lakehouse Federation のソースシステムとしての Azure Synapse と SQL Server
ストリーミング取り込み用の Azure IoT Hub と Azure Event Hubs
バッチ取り込み用の Azure Data Factory
データと AI 資産のオブジェクトストレージとしての Azure Data Lake Storage Gen 2 (ADLS)
オペレーションデータベースとしての Azure SQL DB と Azure Cosmos DB
UC がスキーマと系列情報をエクスポートするエンタープライズカタログとしての Azure Purview
BI ツールとしての Power BI
Azure OpenAI は、外部 LLM として機能するモデルで使用できます

リファレンスアーキテクチャの編成

参照アーキテクチャは、スイムレーン ソース、インジェスト、トランスフォーム、クエリ/プロセス、提供、分析、そして ストレージに沿って構成されています。

ソース

外部データをデータインテリジェンスプラットフォームに統合するには、次の 3 つの方法があります。
- ETL: このプラットフォームは、半構造化データと非構造化データ (センサー、IoT デバイス、メディア、ファイル、ログなど) と、リレーショナルデータベースまたはビジネスアプリケーションからの構造化データを提供するシステムとの統合を可能にします。
- Lakehouse フェデレーション: リレーショナルデータベースなどの SQL ソースは、ETL なしで Lakehouse と Unity カタログに統合できます。この場合、ソースシステムデータは Unity カタログによって管理され、クエリはソースシステムにプッシュダウンされます。
- カタログフェデレーション: Hive Metastore カタログは、カタログフェデレーションを使用して Unity カタログに統合することもできます。これにより、Unity カタログは Hive Metastore に格納されているテーブルを制御できます。
取り込み

バッチまたはストリーミングを使用して Lakehouse にデータを取り込みます。
- Databricks Lakeflow Connect には、エンタープライズアプリケーションとデータベースからのインジェスト用の組み込みコネクタが用意されています。結果として得られるインジェストパイプラインは Unity カタログによって管理され、サーバーレスコンピューティングと Lakeflow 宣言型パイプラインを利用します。
- クラウドストレージに配信されたファイルは、Databricks Auto Loader を使って直接読み込むことができます。
- エンタープライズアプリケーションから Delta Lake へのデータのバッチインジェストの場合、Databricks レイクハウスは、このような記録システムに対応する特定のアダプターを備えたパートナーのインジェストツールを利用しています。
- ストリーミングイベントは、Databricks の構造化ストリーミングを使って、Kafka などのイベントストリーミングシステムから直接取り込むことができます。ストリーミングソースは、センサー、IoT、または変更データキャプチャプロセスの場合があります。
ストレージ
- 通常、データはクラウドストレージシステムに格納されます。ETL パイプラインは medallion アーキテクチャを使用して、 Delta ファイル/テーブルまたは Apache Iceberg テーブルとしてキュレーションされた方法でデータを格納します。
変換とクエリ/プロセス
- Databricks レイクハウスは、すべての変換とクエリにエンジン Apache Spark と Photon を使っています。
- Lakeflow 宣言型パイプラインは、信頼性の高い保守可能でテスト可能なデータ処理パイプラインを簡素化および最適化するための宣言型フレームワークです。
- Apache Spark と Photon を活用した Databricks Data Intelligence Platform は、2 種類のワークロードをサポートしています。SQL ウェアハウスを介した SQL クエリと、ワークスペースクラスターを介した SQL、Python、Scala のワークロードです。
- データサイエンス (ML モデリングと Gen AI) の場合、Databricks の AI および機械学習プラットフォームには、AutoML と ML ジョブのコーディングに特化した ML ランタイムが用意されています。すべてのデータサイエンスと MLOps ワークフローは MLflow によって最適にサポートされます。
サービング

データウェアハウス (DWH) と BI のユースケースにおいて、Databricks レイクハウスは、Databricks SQL、SQL ウェアハウスによって提供されるデータウェアハウス、およびサーバーレス SQL ウェアハウスを提供します。
- 機械学習の場合、 Mosaic AI Model Serving は、Databricks コントロールプレーンでホストされるスケーラブルでリアルタイムのエンタープライズレベルのモデルサービス機能です。 Mosaic AI Gateway は、サポートされている生成 AI モデルとそれに関連する Model Serving エンドポイントへのアクセスを管理および監視するための Databricks ソリューションです。
- オペレーションデータベース: オペレーションデータベースなどの外部システムを使って、最終的なデータ製品を保存し、ユーザーアプリケーションに提供することができます。
- コラボレーション: ビジネスパートナーは、Delta Sharing を介して、セキュリティで保護された方法で必要なデータにアクセスできます。 Delta Sharing に基づいた Databricks Marketplace は、データ製品を交換するためのオープンフォーラムです。
- Clean Rooms は、複数のユーザーが互いのデータに直接アクセスすることなく機密性の高いエンタープライズデータに対して共同作業を行うことができる、セキュリティで保護されたプライバシー保護環境です。
分析
- 最終的なビジネスアプリケーションはこのスイムレーンにあります。たとえば、リアルタイム推論のために Mosaic AI Model Serving に接続された AI アプリケーションや、レイクハウスからオペレーションデータベースにプッシュされたデータにアクセスするアプリケーションなどのカスタムクライアントなどがあります。
- BI のユースケースでは、通常、アナリストは BI ツールを使ってデータウェアハウスにアクセスします。 SQL 開発者は、クエリとダッシュボードのためにさらに Databricks SQL Editor (図には示されていません) を使用できます。
- Data Intelligence Platform には、データの視覚化を構築して分析情報を共有できるダッシュボードも用意されています。
統合
- Databricks プラットフォームは、ユーザー管理とシングルサインオン (SSO) のために標準 ID プロバイダーと統合されます。
- OpenAI、LangChain、HuggingFace などの外部 AI サービスは、Databricks Intelligence Platform 内から直接使用できます。
- 外部オーケストレーターでは、包括的な REST API を使用することも、Apache Airflow など、外部オーケストレーションツール専用コネクタを使用することもできます。
- Unity Catalog は、Databricks Intelligence Platform 内のすべてのデータおよび AI ガバナンスに使用され、Lakehouse Federation を介して他のデータベースをそのガバナンスに統合できます。
  
  さらに、Unity カタログは、他のエンタープライズカタログ、例えば Purviewなどと統合できます。詳細については、エンタープライズカタログベンダーにお問い合わせください。

すべてのワークロードに共通する機能

さらに、Databricks レイクハウスには、すべてのワークロードをサポートする管理機能が付属しています。

データと AI ガバナンス

Databricks Data Intelligence Platform の中心となるデータと AI のガバナンスシステムは Unity Catalog です。 Unity Catalog は、1 つの場所ですべてのワークスペースに適用されるデータアクセスポリシーを管理できます。また、テーブル、ボリューム、特徴量 (特徴量ストア)、モデル (モデルレジストリ) など、レイクハウスで作成または使用されるすべての資産をサポートします。 Unity Catalog を使って、Databricks 上で実行されたクエリ全体のランタイムデータ系列を取り込むこともできます。

Databricks レイクハウスモニタリングを使用することで、アカウント内のすべてのテーブルのデータ品質を監視できます。また、機械学習モデルとモデル提供エンドポイントのパフォーマンスを追跡することもできます。

監視のために、システムテーブルは、アカウントの運用データの Databricks でホストされる分析ストアです。システムテーブルは、アカウント全体の履歴監視に使用できます。
データインテリジェンスエンジン

Databricks データインテリジェンスプラットフォームを使用すると、組織全体でデータと AI を使用し、生成型 AI と Lakehouse の統一の利点を組み合わせて、データの独自のセマンティクスを理解できます。 Databricks AI を利用した機能を参照してください。

Databricks Assistant は、Databricks ノートブック、SQL エディター、ファイルエディターなどで、ユーザーのコンテキスト対応 AI アシスタントとして使用できます。
オートメーション & オーケストレーション

Lakeflow ジョブは、Databricks データインテリジェンスプラットフォーム上のデータ処理、機械学習、および分析パイプラインを調整します。 Lakeflow 宣言型パイプラインを使用すると、宣言構文を使用して信頼性と保守性に優れた ETL パイプラインを構築できます。このプラットフォームでは、CI/CD と MLOps もサポートされています

Azure 上の Data Intelligence Platform のハイレベルなユースケース

Lakeflow Connect を使用した SaaS アプリとデータベースからの組み込みインジェスト

Azure Databricks 上の LFC を使用したインジェスト。

ダウンロード: Azure Databricks の Lakeflow Connect リファレンスアーキテクチャ。

Databricks Lakeflow Connect には、エンタープライズアプリケーションとデータベースからのインジェスト用の組み込みコネクタが用意されています。結果として得られるインジェストパイプラインは Unity カタログによって管理され、サーバーレスコンピューティングと Lakeflow 宣言型パイプラインを利用します。

Lakeflow Connect は、効率的な増分読み書きを活用して、データインジェストを高速化し、スケーラブルでコスト効率を高めます。また、データをダウンストリームで使用するために常に最新の状態に保ちます。

バッチインジェストと ETL

Azure Databricks でのバッチ ETL のリファレンスアーキテクチャ。

ダウンロード: Azure Databricks 用のバッチ ETL リファレンスアーキテクチャ

インジェストツールでは、ソース固有のアダプターを使用してソースからデータを読み取り、自動ローダーが読み取ることができるクラウドストレージに格納するか、Databricks を直接呼び出します (たとえば、パートナーのインジェストツールが Databricks Lakehouse に統合されている場合)。データを読み込むには、Databricks ETL と処理エンジンによって、Lakeflow 宣言パイプラインを介してクエリが実行されます。 Lakeflow ジョブを使用して単一またはマルチタスクジョブを調整し、Unity カタログ (アクセス制御、監査、系列など) を使用してそれらを管理します。待機時間の短い運用システムで特定のゴールデンテーブルにアクセスできるようにするには、ETL パイプラインの最後にある RDBMS やキー値ストアなどのオペレーションデータベースにテーブルをエクスポートします。

ストリーミングと変更データキャプチャ (CDC)

Azure Databricks での Spark 構造化ストリーミングアーキテクチャ。

ダウンロード: Azure Databricks 用の Spark 構造化ストリーミングアーキテクチャ

Databricks ETL エンジンは、Spark 構造化ストリーミングを使用して、Apache Kafka や Azure Event Hub などのイベントキューから読み取ります。ダウンストリームの手順は、上記の Batch ユースケースのアプローチに従います。

リアルタイム変更データキャプチャ (CDC) は、通常、イベントキューを使用して抽出されたイベントを格納します。以降、ユースケースはストリーミングのユースケースに従います。

CDC がバッチで実行され、抽出されたレコードが最初にクラウドストレージに保存される場合、Databricks Autoloader はそれらを読み取ることができます。また、ユースケースは Batch ETL に従います。

機械学習と AI (従来)

Azure Databricks 用の機械学習と AI リファレンスアーキテクチャ。

ダウンロード: Azure Databricks 用の機械学習と AI リファレンスアーキテクチャ

機械学習の場合、Databricks Data Intelligence Platform には、最先端の機械学習ライブラリとディープラーニングライブラリが付属するモザイク AI が用意されています。機能ストアやモデルレジストリ (Unity カタログに統合)、AutoML を使用したローコード機能、データサイエンスライフサイクルへの MLflow 統合などの機能が提供されます。

データサイエンス関連のすべての資産 (テーブル、機能、モデル) は Unity カタログによって管理され、データサイエンティストは Lakeflow ジョブを使用してジョブを調整できます。

スケーラブルでエンタープライズレベルの方法でモデルをデプロイするには、 MLOps 機能を使用してモデルサービスでモデルを公開します。

AI エージェントアプリケーション (Gen AI)

Azure Databricks の Gen AI アプリケーション参照アーキテクチャ。

ダウンロード: Azure Databricks の Gen AI アプリケーションリファレンスアーキテクチャ

スケーラブルなエンタープライズレベルの方法でモデルをデプロイするには、MLOps 機能を使ってモデル提供でモデルを公開します。

BI と SQL の分析

azure Databricks の Azure Databricks 用の BI および SQL 分析リファレンスアーキテクチャ。

ダウンロード: Azure Databricks 用の BI および SQL 分析リファレンスアーキテクチャ

BI のユースケースでは、ビジネスアナリストはダッシュボード、 Databricks SQL エディター、または Tableau や Power BI などの BI ツールを使用できます。いずれの場合も、エンジンは Databricks SQL (サーバーレスまたは非サーバーレス) であり、Unity Catalog はデータの検出、探索、およびアクセス制御を提供します。

Lakehouse フェデレーション

Azure Databricks 用の Lakehouse フェデレーションリファレンスアーキテクチャ。

ダウンロード: Azure Databricks 用の Lakehouse フェデレーションリファレンスアーキテクチャ

Lakehouse Federation を使用すると、外部データ SQL データベース (MySQL、Postgres、SQL Server、Azure Synapse など) を Databricks と統合できます。

最初にデータをオブジェクトストレージに ETL することなく、すべてのワークロード (AI、DWH、BI) がこの恩恵を受けられます。外部ソースカタログは Unity カタログにマップされ、Databricks プラットフォーム経由のアクセスにきめ細かいアクセス制御を適用できます。

カタログ連携

Azure Databricks のカタログフェデレーション参照アーキテクチャ。

ダウンロード: Azure Databricks のカタログフェデレーション参照アーキテクチャ

カタログフェデレーションを使用すると、外部の Hive メタストア (MySQL、Postgres、SQL Server、Azure Synapse など) を Databricks と統合できます。

最初にデータをオブジェクトストレージに ETL することなく、すべてのワークロード (AI、DWH、BI) がこの恩恵を受けられます。外部ソースカタログが Unity カタログに追加され、Databricks プラットフォームを介してきめ細かいアクセス制御が適用されます。

Azure Databricks 用のエンタープライズデータ共有リファレンスアーキテクチャ。

ダウンロード: Azure Databricks のサードパーティ製ツールの参照アーキテクチャでデータを共有する

サードパーティとのエンタープライズレベルのデータ共有は、 Delta Sharing によって提供されます。これにより、Unity カタログによって保護されたオブジェクトストア内のデータに直接アクセスできます。この機能は、データ製品を交換するためのオープンフォーラムである Databricks Marketplace でも使用されます。

Databricks から共有データを使用する

Azure Databricks の Databricks から共有データを使用します。

ダウンロード: Azure Databricks 用の Databricks 参照アーキテクチャから共有データを消費する

Delta Sharing Databricks-to-Databricks プロトコルを使用すると、アカウントやクラウドホストに関係なく、Databricks ユーザーが Unity Catalog で有効になっているワークスペースにアクセスできる限り、Databricks ユーザーと安全にデータを共有できます。

次の方法で共有

Lakehouse リファレンスアーキテクチャ (ダウンロード)

リファレンス アーキテクチャの編成

すべてのワークロードに共通する機能

Azure 上の Data Intelligence Platform のハイレベルなユース ケース

Lakeflow Connect を使用した SaaS アプリとデータベースからの組み込みインジェスト

バッチ インジェストと ETL

ストリーミングと変更データ キャプチャ (CDC)

機械学習と AI (従来)

AI エージェント アプリケーション (Gen AI)

BI と SQL の分析

Lakehouse フェデレーション

カタログ連携

サード パーティ製ツールとデータを共有する

Databricks から共有データを使用する

フィードバック

その他のリソース

リファレンスアーキテクチャの編成

Azure 上の Data Intelligence Platform のハイレベルなユースケース

バッチインジェストと ETL

ストリーミングと変更データキャプチャ (CDC)

AI エージェントアプリケーション (Gen AI)

サードパーティ製ツールとデータを共有する