レイクハウスのリファレンス アーキテクチャをダウンロードする

この記事では、データ ソース、インジェスト、変換、クエリとプロセス、提供、分析と出力、ストレージという観点からレイクハウスのアーキテクチャ ガイダンスについて説明します。

各リファレンス アーキテクチャには、11 x 17 (A3) 形式のダウンロード可能な PDF があります。

汎用リファレンス アーキテクチャ

レイクハウスの汎用リファレンス アーキテクチャ

ダウンロード: Databricks 用の汎用レイクハウス リファレンス アーキテクチャ (PDF)

リファレンス アーキテクチャの編成

リファレンス アーキテクチャは、"ソース"、"インジェスト"、"変換"、"クエリとプロセス"、"提供"、"分析"、"ストレージ" というスイム レーンに沿って構成されています。

  • ソース

    このアーキテクチャでは、半構造化および非構造化データ (センサーと IoT、メディア、ファイルとログ) と構造化データ (RDBMS、ビジネス アプリケーション) が区別されています。 SQL ソース (RDBMS) は、レイクハウス フェデレーションを介して、ETL なしでレイクハウスと Unity Catalog に統合することもできます。 さらに、他のクラウド プロバイダーからデータを読み込むこともできます。

  • 取り込み

    データはバッチまたはストリーミングを使ってレイクハウスに取り込むことができます。

    • クラウド ストレージに配信されたファイルは、Databricks Auto Loader を使って直接読み込むことができます。
    • エンタープライズ アプリケーションから Delta Lake へのデータのバッチ インジェストの場合、Databricks レイクハウスは、このような記録システムに対応する特定のアダプターを備えたパートナーのインジェスト ツールを利用しています。
    • ストリーミング イベントは、Databricks の構造化ストリーミングを使って、Kafka などのイベント ストリーミング システムから直接取り込むことができます。 ストリーミング ソースは、センサー、IoT、または変更データ キャプチャ プロセスの場合があります。
  • Storage

    通常、データはクラウド ストレージ システムに保存され、ETL パイプラインはそこでメダリオン アーキテクチャを使い、整理された方法で差分ファイルまたはテーブルとしてデータを保存しています。

  • 変換クエリとプロセス

    Databricks レイクハウスは、すべての変換とクエリにエンジン Apache SparkPhoton を使っています。

    宣言型フレームワーク DLT (Delta Live Tables) は、そのシンプルさから、信頼性、保守性、テスト可能性の高いデータ処理パイプラインを構築するために適しています。

    Apache Spark と Photon を活用した Databricks Data Intelligence Platform は、2 種類のワークロードをサポートしています。SQL ウェアハウスを介した SQL クエリと、ワークスペース クラスターを介した SQL、Python、Scala のワークロードです。

    データ サイエンス (ML モデリングと Gen AI) の場合、Databricks の AI および機械学習プラットフォームには、AutoML と ML ジョブのコーディングに特化した ML ランタイムが用意されています。 すべてのデータ サイエンスと MLOps ワークフローMLflow によって最適にサポートされます。

  • 提供

    DWH と BI のユース ケースの場合、Databricks レイクハウスには Databricks SQL が用意されています。これは、SQL ウェアハウスサーバーレス SQL ウェアハウスを活用したデータ ウェアハウスです。

    機械学習の場合、モデル提供は、Databricks コントロール プレーンでホストされる、スケーラブルでリアルタイムのエンタープライズレベルのモデル提供機能です。

    オペレーション データベース: オペレーション データベースなどの外部システムを使って、最終的なデータ製品を保存し、ユーザー アプリケーションに提供することができます。

    コラボレーション: ビジネス パートナーは、Delta Sharing を介して、セキュリティで保護された方法で必要なデータにアクセスできます。 Delta Sharing に基づいた Databricks Marketplace は、データ製品を交換するためのオープン フォーラムです。

  • 分析

    最終的なビジネス アプリケーションはこのスイム レーンにあります。 たとえば、リアルタイム推論のために Databricks Model Serving に接続された AI アプリケーションや、レイクハウスからオペレーション データベースにプッシュされたデータにアクセスするアプリケーションなどのカスタム クライアントなどがあります。

    BI のユース ケースでは、通常、アナリストは BI ツールを使ってデータ ウェアハウスにアクセスします。 SQL 開発者は、クエリとダッシュボードのためにさらに Databricks SQL Editor (図には示されていません) を使用できます。

    Data Intelligence Platform には、データの視覚化を構築して分析情報を共有できるダッシュボードも用意されています。

ワークロードの機能

さらに、Databricks レイクハウスには、すべてのワークロードをサポートする管理機能が付属しています。

  • データと AI ガバナンス

    Databricks Data Intelligence Platform の中心となるデータと AI のガバナンス システムは Unity Catalog です。 Unity Catalog は、1 つの場所ですべてのワークスペースに適用されるデータ アクセス ポリシーを管理できます。また、テーブル、ボリューム、特徴量 (特徴量ストア)、モデル (モデル レジストリ) など、レイクハウスで作成または使用されるすべての資産をサポートします。 Unity Catalog を使って、Databricks 上で実行されたクエリ全体のランタイム データ系列を取り込むこともできます。

    Databricks のレイクハウス監視を使うと、アカウント内のすべてのテーブルのデータの品質を監視できます。 また、機械学習モデルとモデル提供エンドポイントのパフォーマンスを追跡することもできます。

    監視の場合、システム テーブルは、Databricks がホストするアカウントのオペレーショナル データの分析ストアです。 システム テーブルは、アカウント全体の履歴監視に使用できます。

  • データ インテリジェンス エンジン

    Databricks Data Intelligence Platform を使うと、組織全体でデータと AI を使用できるようになります。 また、DatabricksIQ を活用し、生成 AI とレイクハウスの統一の利点を組み合わせて、データの固有のセマンティクスを理解することができます。

    Databricks アシスタントは、開発者向けのコンテキスト対応 AI アシスタントとして、Databricks ノートブック、SQL エディター、ファイル エディターで使用できます。

  • オーケストレーション

    Databricks ワークフローでは、Databricks Data Intelligence Platform でデータ処理、機械学習、分析のパイプラインが調整されます。 ワークフローには、Databricks ワークスペースで非対話型コードを実行する Databricks ジョブと、信頼性が高く、保守が容易な ETL パイプラインを構築するための Delta Live Tables などの Databricks プラットフォームに統合されたフル マネージド オーケストレーション サービスがあります。

Azure 上の Data Intelligence Platform のリファレンス アーキテクチャ

Azure Databricks リファレンス アーキテクチャは汎用リファレンス アーキテクチャから派生したもので、ソース、インジェスト、提供、分析と出力、ストレージの各要素に Azure 固有のサービスを追加しています。

Azure Databricks レイクハウス用のリファレンス アーキテクチャ

ダウンロード: Azure 上の Databricks レイクハウス用のリファレンス アーキテクチャ

Azure リファレンス アーキテクチャには、インジェスト、ストレージ、提供、分析と出力のための次の Azure 固有のサービスが示されています。

  • Lakehouse Federation のソース システムとしての Azure Synapse と SQL Server
  • ストリーミング インジェスト用の Azure IoT Hub と Azure Event Hub
  • バッチ インジェスト用の Azure Data Factory
  • オブジェクト ストレージとしての Azure Data Lake Storage Gen 2 (ADLS)
  • オペレーション データベースとしての Azure SQL DB と Azure Cosmos DB
  • UC がスキーマと系列情報をエクスポートするエンタープライズ カタログとしての Azure Purview
  • BI ツールとしての Power BI

Note

  • このリファレンス アーキテクチャのビューは、Azure サービスと Databricks レイクハウスのみに焦点を当てています。 Databricks 上のレイクハウスは、パートナー ツールの大規模なエコシステムと統合されたオープン プラットフォームです。
  • 示されているクラウド プロバイダー サービスはすべてを網羅しているわけではありません。 これらは概念を説明するために選んだものです。

ユース ケース: Batch ETL

Azure Databricks 上のバッチ ETL 用の参照アーキテクチャ

ダウンロード: Azure Databricks 用のバッチ ETL リファレンス アーキテクチャ

インジェスト ツールは、ソース固有のアダプターを使ってソースからデータを読み取り、次に Auto Loader で読み取ることができるクラウド ストレージに保存するか、Databricks を直接呼び出します (たとえば、Databricks レイクハウスに統合されたパートナー インジェスト ツールを使います)。 データを読み込むには、Databricks ETL と処理エンジンから (DLT 経由で) クエリを実行します。 単一またはマルチタスクのジョブは、Databricks ワークフローを使って調整し、Unity Catalog (アクセス制御、監査、系列など) を使って管理することができます。 低待機時間の運用システムから特定のゴールデン テーブルにアクセスする必要がある場合、ETL パイプラインの最後にある RDBMS やキー値ストアなどのオペレーション データベースにエクスポートできます。

ユース ケース: ストリーミングと変更データ キャプチャ (CDC)

Azure Databricks 用の Spark 構造化ストリーミング アーキテクチャ

ダウンロード: Azure Databricks 用の Spark 構造化ストリーミング アーキテクチャ

Databricks ETL エンジンは、Spark Structured Streaming を使って、Apache Kafka や Azure Event Hub などのイベント キューから読み取ります。 ダウンストリームの手順は、上記の Batch ユース ケースのアプローチに従います。

通常、リアルタイム変更データ キャプチャ (CDC) は、抽出されたイベントを保存するためにイベント キューを使います。 以降、ユース ケースはストリーミングのユース ケースに従います。

CDC がバッチで実行され、抽出されたレコードが最初にクラウド ストレージに保存される場合、Databricks Autoloader はそれらを読み取ることができます。また、ユース ケースは Batch ETL に従います。

ユース ケース: 機械学習と AI

Azure Databricks 用の機械学習と AI リファレンス アーキテクチャ

ダウンロード: Azure Databricks 用の機械学習と AI リファレンス アーキテクチャ

機械学習の場合、Databricks Data Intelligence Platform には、最先端の機械学習ライブラリとディープ ラーニングライブラリを備えた Mosaic AI が用意されています。 また、特徴量ストアやモデル レジストリ (両方とも Unity Catalog に統合されます)、AutoML によるローコード機能、データ サイエンス ライフサイクルへの MLflow 統合などの機能を備えています。

すべてのデータ サイエンス関連の資産 (テーブル、特徴量、モデル) は Unity Catalog によって管理され、データ科学者は Databricks Workflows を使ってジョブを調整できます。

スケーラブルなエンタープライズレベルの方法でモデルをデプロイするには、MLOps 機能を使ってモデル提供でモデルを公開します。

ユース ケース: 取得拡張生成 (Gen AI)

Azure Databricks 用の Gen AI RAG リファレンス アーキテクチャ

ダウンロード: Azure Databricks 用の Gen AI RAG リファレンス アーキテクチャ

生成 AI のユース ケースの場合、Mosaic AI には、最先端のライブラリと、プロンプト エンジニアリングから既存モデルの微調整、ゼロからの事前トレーニングまでの特定の Gen AI 機能が付属しています。 上記のアーキテクチャは、ベクトル検索を統合して RAG (取得拡張生成) AI アプリケーションを作成する方法の例を示しています。

スケーラブルなエンタープライズレベルの方法でモデルをデプロイするには、MLOps 機能を使ってモデル提供でモデルを公開します。

ユース ケース: BI と SQL 分析

Azure Databricks 用の BI および SQL 分析リファレンス アーキテクチャ

ダウンロード: Azure Databricks 用の BI および SQL 分析リファレンス アーキテクチャ

BI のユース ケースの場合、ビジネス アナリストはダッシュボード、Databricks SQL エディター、または特定の BI ツール (Tableau や Power BI など) を使用できます。 いずれの場合も、エンジンは Databricks SQL (サーバーレスまたは非サーバーレス) であり、データの検出、探索、アクセス制御は Unity Catalog によって提供されます。

ユース ケース: Lakehouse フェデレーション

Azure Databricks 用の Lakehouse フェデレーション リファレンス アーキテクチャ

ダウンロード: Azure Databricks 用の Lakehouse フェデレーション リファレンス アーキテクチャ

Lakehouse フェデレーションにより、外部データ SQL データベース (MySQL、Postgres、SQL Server、Azure Synapse など) を Databricks と統合できます。

最初にデータをオブジェクト ストレージに ETL することなく、すべてのワークロード (AI、DWH、BI) がこの恩恵を受けられます。 外部ソース カタログは Unity カタログにマップされ、Databricks プラットフォーム経由のアクセスにきめ細かいアクセス制御を適用できます。

ユース ケース: エンタープライズ データ共有

Azure Databricks 用のエンタープライズ データ共有リファレンス アーキテクチャ

ダウンロード: Azure Databricks 用のエンタープライズ データ共有リファレンス アーキテクチャ

エンタープライズレベルのデータ共有は Delta Sharing によって提供されます。 これにより、Unity Catalog で保護されたオブジェクト ストア内のデータに対して直接アクセスできます。また、Databricks Marketplace は、データ製品を交換するためのオープン フォーラムです。