データ ウェアハウスとは、複数のソースからデータを収集して格納し、すばやくアクセスしてビジネス上の分析情報やレポートを利用できるようにすることを指します。 この記事では、Data Lakehouse でデータ ウェアハウスを構築するための主要な概念について説明します。
レイクハウスにおけるデータウェアハウジング
レイクハウス アーキテクチャと Databricks SQL を使うと、データ レイクにクラウド データ ウェアハウス機能をもたらすことができます。 使い慣れたデータ構造、リレーションシップ、および管理ツールを使用して、データ レイク上で直接実行される、高パフォーマンスでコスト効率の高いデータ ウェアハウスをモデル化できます。 詳細については、「レイクハウスとは」を参照してください。
従来のデータ ウェアハウスと同様に、ビジネス要件に従ってデータをモデル化し、分析とレポートのためにエンド ユーザーに提供します。 従来のデータ ウェアハウスとは異なり、ビジネス分析データのサイロ化や、すぐに古くなる冗長コピーの作成を回避できます。
Lakehouse 内にデータ ウェアハウスを構築すると、すべてのデータを 1 つのシステムに取り込み、Unity カタログや Delta Lake などの機能を利用できます。
Unity Catalog では、データ アクセスをセキュリティで保護および監査し、ダウンストリーム テーブルに関する系列情報を提供できるように、統合ガバナンス モデルが追加されています。 Delta Lake では、データの信頼性、拡張性、高品質を維持するための他の強力なツールの中でも、ACID トランザクションとスキーマの進化が追加されています。
Databricks SQL とは
注
Databricks SQL Serverless は、Azure China リージョンでは利用できません。 Databricks SQL は、Azure Government リージョンでは使用できません。
Databricks SQL は、既存のデータ レイクにデータ ウェアハウス機能とパフォーマンス向上をもたらすサービスのコレクションです。 Databricks SQL では、オープン形式と標準の ANSI SQL がサポートされています。 インプラットフォーム SQL エディターとダッシュボード ツールを使用すると、チーム メンバーはワークスペース内で他の Azure Databricks ユーザーと直接共同作業を行うことができます。 また、Databricks SQL はさまざまなツールと統合されているため、アナリストは新しいプラットフォームに調整することなく、お気に入りの環境でクエリやダッシュボードを作成できます。
Databricks SQL は、レイクハウス内のテーブルに対して実行される一般的なコンピューティング リソースを提供します。 Databricks SQL は、以前は SQL エンドポイントと呼ばられていた SQL ウェアハウスを利用し、ストレージから切り離されたスケーラブルな SQL コンピューティング リソースを提供します。
SQL Warehouse の既定値とオプションの詳細については、SQL ウェアハウスを参照してください。
Databricks SQL は Unity カタログと統合されているため、データ資産を 1 か所から検出、監査、管理できます。 詳細については、「Unity カタログとは」を参照してください。
Azure Databricks でのデータ モデリング
Lakehouse では、さまざまなモデリング スタイルがサポートされています。 次の図は、レイクハウスのさまざまなレイヤーを移動するデータがどのようにキュレーションされ、モデル化されるかを示しています。
メダリオン アーキテクチャ
メダリオン アーキテクチャは、レイクハウスの基本構造となるデータ レイヤーを表すデータ設計パターンです。レイヤーの段階ごとに、徐々に使用に適したデータ品質になります。 ブロンズ、シルバー、ゴールドのレイヤーは、データ品質のレベルが上がり、ゴールドが最高品質を表しています。 詳細については、「メダリオン レイクハウス アーキテクチャとは」を参照してください。
レイクハウス内では、各レイヤーに 1 つ以上のテーブルを含めることができます。 データ ウェアハウスはシルバー レイヤーでモデル化され、ゴールド レイヤー内の特殊なデータ マートにフィードされます。
ブロンズ レイヤー
データは、さまざまな形式で、バッチトランザクションやストリーミングトランザクションの組み合わせを通じて、任意の方法でlakehouseに入力できます。 ブロンズ レイヤーは、生データを元の形式で格納するための空間を提供します。 そのデータは Delta テーブルに変換されます。
シルバー レイヤー
シルバー レイヤーは、さまざまなソースのデータを一緒に取り込みます。 データ サイエンスと機械学習アプリケーションに重点を置くビジネスの一環として、ここでは意味のあるデータ資産のキュレーションを開始します。 このプロセスは、多くの場合、速度と機敏性に焦点を当てることでマークされます。
シルバー レイヤーでは、さまざまなソースのデータを慎重に統合して、既存のビジネス プロセスに合わせてデータ ウェアハウスを構築することもできます。 多くの場合、このデータは第 3 標準形式 (3NF) または Data Vault モデルに従います。 主キー制約と外部キー制約を指定すると、エンド ユーザーは Unity カタログを使用するときにテーブルのリレーションシップを理解できます。 データ ウェアハウスは、データ マートの単一の信頼のソースとして機能する必要があります。
データ ウェアハウス自体は書き込み時スキーマであり、アトミックです。 これは変更用に最適化されているため、ビジネス プロセスが変化または進化したときに、現在のニーズに合わせてデータ ウェアハウスをすばやく変更できます。
ゴールド レイヤー
ゴールド レイヤーはプレゼンテーション レイヤーであり、1 つ以上のデータ マートを含めることができます。 多くの場合、データ マートは、特定のビジネスパースペクティブをキャプチャする一連の関連テーブルの形式のディメンション モデルです。
また、ゴールド レイヤーには、部門とデータ サイエンスのサンドボックスも含まれており、企業全体でセルフサービス分析とデータ サイエンスを有効にします。 これらのサンドボックスと独自の個別のコンピューティング クラスターを提供すると、ビジネス チームはレイクハウスの外部でデータのコピーを作成できなくなります。
次のステップ
Azure Databricks を使用して Lakehouse を実装および運用するための原則とベスト プラクティスの詳細については、Lakehouse のアーキテクチャに関するページを参照してください。