Microsoft Fabricのレイクハウスとは

Microsoft Fabricの lakehouse は、データ レイクのスケーラビリティとデータ ウェアハウスのクエリ機能を組み合わせたものになっています。 構造化データと非構造化データを 1 つの場所に格納し、Delta Lake で管理し、Apache Spark と SQL の両方で分析します。システム間でデータを移動する必要はありません。 OneLake のショートカットテナント間のデータ共有を使用すると、外部ソースや他の組織の管理データに重複せずにアクセスすることもできます。

湖の小屋があなたに与えます:

  • データ エンジニアリングワークロードと分析ワークロードの両方のデータの 1 つのコピー
  • Delta Lake 形式 は、ACID トランザクション、スキーマの適用、およびタイム トラベルに対応しています。
  • Spark と SQL のアクセス により、データ エンジニアはノートブックを使用し、アナリストは T-SQL を使用します
  • Power BI、パイプライン、データフロー、およびその他のFabric項目との組み込み統合

Lakehouse とデータ ウェアハウス

Microsoft Fabricの lakehouse と data warehouse の主な違いは、好みの開発ツール、データ型、ワークロード パターンにかかっています。 どちらも同じ SQL エンジンを共有し、OneLake に Delta 形式でデータを格納しますが、さまざまなシナリオ向けに設計されています。

Lakehouse データ ウェアハウス
主な開発ツール Apache Spark (Python、Scala、SQL、R) T-SQL
データ型 構造化および非構造化 構造化
マルチテーブル トランザクション いいえ イエス
データ インジェスト ノートブック、パイプライン、データフロー、 OneLake ショートカット (コピーなしのライブ アクセス) T-SQL (COPY INTOINSERTCTAS)、パイプライン
最適な用途 データ エンジニアリング、データ サイエンス、メダリオン アーキテクチャ BI レポート、ディメンション モデリング、SQL 優先チーム

両方を同じワークスペースで使用できます。たとえば、Spark を使用してレイクハウスにデータを取り込んで変換し、SQL ベースのレポート用にキュレーションされたデータセットをウェアハウスに提供できます。 詳細なガイダンスについては、「 倉庫と Lakehouse の選択」を参照してください。

lakehouseデータの取り扱いを行う

複数のFabric ツールを使用して、lakehouse 内のデータの読み込み、変換、クエリを実行できます。

  • OneLake ショートカット - 外部ソース ( テナント間のデータ共有を通じて他のテナントを含む) からデータにアクセスします。レイクハウスにコピーする必要はありません。 ショートカットは、OneLake 全体の運用データと分析データへの読み取り専用のライブ参照を提供します。 OneLake のショートカットを参照してください。

  • Lakehouse エクスプローラー - テーブルとファイルの参照、データの読み込み、メタデータの管理をブラウザーで直接行います。 テーブル ビューとファイル ビューを切り替えて、複数の Lakehouse をエクスプローラーに追加できます。 Fabric Lakehouse エクスプローラーを参照してください。

    テーブル ビュー、ファイル ビュー、および Lakehouse の追加を示す Lakehouse エクスプローラーのスクリーンキャスト。

  • Notebooks — Spark コード (Python、Scala、SQL、R) を記述して、Lakehouse のテーブルとフォルダーに対するデータの読み取り、変換、書き込みを行います。 「ノートブックを使用してデータを探索する」と「ノートブックを使用してデータを読み込む」を参照してください。

  • パイプライン - コピー アクティビティやその他のデータ統合ツールを使用して、外部ソースから Lakehouse にデータをプルします。 コピー アクティビティを使用したデータのコピーを参照してください。

  • Spark ジョブ定義 — 実稼働レベルの ETL 用に、Java、Scala、またはPythonでコンパイル済みの Spark アプリケーションを実行します。 「Apache Spark ジョブ定義とは」を参照してください。

  • データフロー Gen 2 — 低コードのビジュアル インターフェイスを使用してデータを取り込んで準備します。 最初のデータフローの作成を参照してください。

インジェスト オプションの完全な比較については、「Options」を参照して、Fabric Lakehouseにデータを取得します。

Lakehouse SQL 分析エンドポイント

lakehouse を作成すると、Fabricによって SQL 分析エンドポイントが自動的に生成されます。 このエンドポイントを使用すると、次のことができます。

  • T-SQL を使用してデルタ テーブルにクエリを実行 する - 別のウェアハウスを設定せずに、使い慣れた SQL 構文を使用します。
  • Power BI に直接接続Power BI セマンティック モデルを作成して、レイクハウスデータに関するレポートを作成します。
  • 読み取り専用アクセスを共有 する — アナリストとレポート ビルダーは、Spark ワークロードに影響を与えずにデータに対してクエリを実行できます。

手記

2025 年 9 月 5 日以降、レイクハウスの作成時に既定のセマンティック モデルが自動的に作成されなくなります。 既存の既定のセマンティック モデルは、2025 年 11 月 30 日までに親項目から切り離され、独立したセマンティック モデルになりました。 詳細については、Microsoft Fabric のPower BIセマンティック モデルを参照してください。

SQL 分析エンドポイントは読み取り専用であり、 データ ウェアハウスの完全な T-SQL サーフェスをサポートしていません。 探索、レポート、およびアドホック クエリに使用します。

手記

SQL 分析エンドポイントにはデルタ テーブルのみが表示されます。 これには、ローカルに格納されたテーブルと共に表示およびクエリ可能な OneLake ショートカットを介して到達した Delta テーブルが含まれます。 Parquet、CSV、およびその他の形式は、このエンドポイントを介してクエリを実行できません。 テーブルが表示されない場合は、 Delta 形式に変換します。

テーブルの自動検出と登録

Lakehouse は、データを 2 つの最上位フォルダー (マネージド Delta テーブルのテーブル と、非構造化データまたは非デルタ データ用 のファイル ) に整理します。 Tables フォルダーにファイルを配置すると、Fabricは自動的に以下を行います。

  • サポートされている形式 (現在は Delta テーブルのみ) に対してファイルを検証します。
  • メタデータ (列名、データ型、圧縮、パーティション分割) を抽出します。
  • Spark SQL または T-SQL を使用してすぐにクエリを実行できるように、メタストアにテーブルを登録します。

このマネージド ファイルからテーブルへのエクスペリエンスは、管理領域に格納するデータに対して CREATE TABLE ステートメントを手動で記述する必要がないことです。

lakehouse を使用したマルチタスク

Lakehouseはブラウザタブのデザインを使用しており、場所を失うことなく複数のアイテムを開いて切り替えることができます。

  • 実行中の操作を保持する: 別のタブに切り替えると、データの読み込みとアップロードが引き続き実行されます。

  • コンテキストを保持する: 選択したテーブル、ファイル、およびオブジェクトは、タブ間を移動しても開いたままです。

  • 非ブロッキング リストの再読み込み: ファイルとテーブルの一覧は、作業をブロックすることなくバックグラウンドで更新されます。

  • スコープ付き通知: トースト通知は、その通知がどのレイクハウスから来たかを明確にするため、タブ間での更新を追跡することができます。

アクセシビリティの高いレイクハウスのデザイン

Lakehouse では、支援技術とアクセシビリティ対応の対話パターンがサポートされています。

  • スクリーン リーダーの互換性: ナビゲーションと操作のために人気のあるスクリーン リーダーと連携します。
  • 画像の代替テキスト: すべての画像には、説明的な代替テキストが含まれています。
  • ラベル付きフォーム フィールド: すべてのフォーム フィールドには、スクリーン リーダーとキーボード ユーザーのラベルが関連付けられています。
  • テキストのリフロー: さまざまな画面サイズと向きに適応する応答性の高いレイアウト。
  • キーボード ナビゲーション: マウスなしでレイクハウスをナビゲートするための完全なキーボードサポート。