Azure Databricks のデータ ウェアハウスとは

データ ウェアハウスとは、複数のソースからデータを収集して格納し、すばやくアクセスしてビジネス上の分析情報やレポートを利用できるようにすることを指します。 この記事では、データ レイクハウスにデータ ウェアハウスを構築するための主要な概念について説明します。

レイクハウスでのデータ ウェアハウス

レイクハウス アーキテクチャと Databricks SQL を使うと、データ レイクにクラウド データ ウェアハウス機能をもたらすことができます。 使い慣れたデータ構造、リレーションシップ、管理ツールを使って、データ レイク上で直接実行される、高パフォーマンスでコスト効率の高いデータ ウェアハウスをモデル化できます。 詳しくは、「データ レイクハウスとは」を参照してください。

Lakehouse architecture with a top layer that includes data warehousing, data engineering, data streaming, and data science and ML

従来のデータ ウェアハウスと同様に、ビジネス要件に従ってデータをモデル化し、エンド ユーザーが分析とレポートを利用できるようにします。 従来のデータ ウェアハウスとは異なり、ビジネス分析データのサイロ化や、すぐに古くなる冗長コピーの作成を回避できます。

レイクハウス内にデータ ウェアハウスを構築すると、すべてのデータを 1 つのシステムに取り込み、Unity Catalog や Delta Lake などの機能を利用することができます。

Unity Catalog では、統合ガバナンス モデルを利用できます。データ アクセスをセキュリティで保護して監査し、ダウンストリーム テーブルに関する系列情報を提供することができます。 Delta Lake では、データの信頼性、スケーラビリティ、高品質を維持するための強力なツールの中でも、特に ACID トランザクションとスキーマが向上します。

Databricks SQL とは

注意

Databricks SQL Serverless は、Azure China リージョンでは利用できません。 Databricks SQL は、Azure Government リージョンでは使用できません。

Databricks SQL は、既存のデータ レイクにデータ ウェアハウス機能とパフォーマンス向上をもたらすサービスのコレクションです。 Databricks SQL では、オープン形式と標準の ANSI SQL がサポートされています。 プラットフォーム内 SQL エディターとダッシュボード ツールを使って、チーム メンバーが他の Databricks ユーザーとワークスペース内で直接共同作業を行うことができます。 また、Databricks SQL はさまざまなツールと統合されているため、アナリストが自分のお気に入りの環境で、新しいプラットフォームに合わせることなくクエリやダッシュボードを作成できます。

Databricks SQL には、レイクハウス内のテーブルに対して実行される一般的なコンピューティング リソースが用意されています。 Databricks SQL は SQL ウェアハウスを利用して、ストレージから切り離されたスケーラブルな SQL コンピューティング リソースを提供します。

SQL ウェアハウスの既定値とオプションについて詳しくは、「SQL ウェアハウスとは」を参照してください。

Databricks SQL は Unity Catalog と統合されているため、データ資産を 1 か所で検出、監査、管理できます。 詳しくは、「Unity Catalog とは」を参照してください。

Azure Databricks でのデータ モデリング

レイクハウスでは、さまざまなモデリング スタイルがサポートされています。 次の図は、データがレイクハウスのさまざまなレイヤーを移動する際にどのようにキュレーションされ、モデル化されるかを示しています。

A diagram showing various data models at each level of the medallion lakehouse archtecture.

メダリオン アーキテクチャ

メダリオン アーキテクチャとは、レイクハウスの基本的な構造を提供する、増分的に調整された一連のデータ レイヤーを記述するデータ設計パターンです。 ブロンズ、シルバー、ゴールドの各レイヤーが各レベルで向上するデータの品質を表し、ゴールドが最高の品質を表します。 詳細については、「メダリオン レイクハウス アーキテクチャとは」を参照してください。

レイクハウス内では、各レイヤーに 1 つ以上のテーブルを含めることができます。 データ ウェアハウスは、シルバー レイヤーでモデル化され、ゴールド レイヤーで特殊なデータ マートをフィードします。

ブロンズ レイヤー

データは任意の形式で、バッチ トランザクションやストリーミング トランザクションを任意に組み合わせてレイクハウスに取り込むことができます。 ブロンズ レイヤーは、すべての生データを元の形式で取り込むランディング空間を提供します。 そのデータは Delta テーブルに変換されます。

シルバー レイヤー

シルバー レイヤーでは、さまざまなソースからのデータを一緒に取り込みます。 データ サイエンスと機械学習のアプリケーションに重点を置くビジネスの部分では、ここで意味のあるデータ資産のキュレーションを開始します。 多くの場合、このプロセスでは速度と機敏性が重視されます。

シルバー レイヤーは、異なるソースからのデータを慎重に統合し、既存のビジネス プロセスに合わせてデータ ウェアハウスを構築する場所でもあります。 多くの場合、このデータは第 3 正規形 (3NF) またはデータ ボルト モデルに従います。 主キー制約と外部キー制約を指定することで、エンド ユーザーは Unity Catalog を使用するときにテーブルのリレーションシップを理解できます。 データ ウェアハウスは、データ マートの信頼できる唯一の情報源として機能する必要があります。

データ ウェアハウス自体はスキーマ オン ライトであり、アトミックです。 変更用に最適化されているため、ビジネス プロセスを変更したり改善したりする際に、現在のニーズに合わせてデータ ウェアハウスをすばやく変更できます。

ゴールド レイヤー

ゴールド レイヤーはプレゼンテーション レイヤーであり、1 つ以上のデータ マートを含めることができます。 多くの場合、データ マートは、特定のビジネスの観点をキャプチャする一連の関連テーブルという形式のディメンション モデルです。

また、ゴールド レイヤーには部署ごとおよびデータ サイエンスのサンドボックスも含まれており、エンタープライズ全体でのセルフサービス分析とデータ サイエンスを実現します。 これらのサンドボックスと、それらの独自のコンピューティング クラスターを個別に提供することで、ビジネス チームはレイクハウスの外部でデータのコピーを作成できなくなります。

次のステップ

Databricks を使ってレイクハウスを実装および運用するための原則とベスト プラクティスの詳細については、「Well-Architected データ レイクハウスの概要」を参照してください。