Microsoft Fabric レイクハウスを使用する

6 分

Microsoft Fabric レイクハウスのコア機能を理解したので、その機能を使用する方法を調べてみましょう。

レイクハウスを作成して探索する

新しいレイクハウスを作成すると、ワークスペースに 3 つの異なるデータ項目が自動的に作成されます。

Lakehouse には、ショートカット、フォルダー、ファイル、テーブルが含まれています。
セマンティックモデル (既定) は、Power BI レポート開発者向けに簡単なデータソースを提供します。
SQL 分析エンドポイントでは、SQL を使用してデータのクエリを実行するための読み取り専用アクセスが許可されます。

説明されている 3 つの Lakehouse 項目のスクリーンショット。

レイクハウスのデータは、次の 2 つのモードで操作できます。

lakehouse を使用すると、lakehouse 内のテーブル、ファイル、フォルダーを追加して操作できます。
SQL 分析エンドポイント を使用すると、SQL を使用して lakehouse 内のテーブルに対してクエリを実行し、そのリレーショナルセマンティックモデルを管理できます。

2 つの Lakehouse Explorer モードのスクリーンショット。

レイクハウスにデータを取り込む

レイクハウスへのデータの取り込みは、ETL プロセスの最初の手順です。次のいずれかの方法を使用して、レイクハウスにデータを取り込みます。

アップロード: ローカルファイルをアップロードします。
データフロー Gen2: Power Query を使用してデータをインポートおよび変換します。
ノートブック: Apache Spark を使用して、データの取り込み、変換、読み込みを行います。
Data Factory パイプライン: データのコピーアクティビティを使用します。

これにより、このデータをファイルまたはテーブルに直接読み込むことができるようになります。ステージングテーブルを処理または使用する前に、データを取り込むときにデータ読み込みパターンを検討し、すべての生データをファイルとして読み込む必要があるかどうかを判断してください。

Spark ジョブ定義を 使用して、バッチ/ストリーミングジョブを Spark クラスターに送信することもできます。異なる言語のコンパイル出力 (Java の .jar など) からバイナリファイルをアップロードすることで、レイクハウスでホストされているデータに異なる変換ロジックを適用できます。バイナリファイルに加えて、追加のライブラリとコマンドライン引数をアップロードすることで、ジョブの動作をさらにカスタマイズできます。

注

詳細については、 Apache Spark ジョブ定義の作成に関するドキュメントを参照してください。

ショートカットを使ってデータにアクセスする

Fabric でデータにアクセスして使うには、"ショートカット" を使う方法もあります。ショートカットを使うと、データを外部のストレージに保存したまま、レイクハウスに統合することができます。

ショートカットは、別のストレージアカウントだけでなく、別のクラウドプロバイダーにあるデータを取得する必要がある場合に便利です。自分のレイクハウス内には、異なるストレージアカウントや他の Fabric 項目 (データウェアハウス、KQL データベース、他のレイクハウスなど) を指すショートカットを作成できます。

ソースデータのアクセス許可と資格情報は、すべて OneLake によって管理されます。別の OneLake の場所へのショートカットを介してデータにアクセスする場合、ショートカットのターゲットパス内にあるデータへのアクセスを認可するために、呼び出し元ユーザーの ID が使われます。このユーザーがデータを読み取るには、ターゲットの場所のアクセス許可を持っている必要があります。

ショートカットは、レイクハウスと KQL データベースの両方に作成できます。また、レイク内のフォルダーとして表示されます。これにより、Spark、SQL、リアルタイムインテリジェンス、Analysis Services はすべて、データのクエリ時にショートカットを利用できます。

注

ショートカットの使用方法の詳細については、Microsoft Fabric ドキュメントの OneLake ショートカットドキュメントを参照してください。

Microsoft Fabric レイクハウスを使用する

レイクハウスを作成して探索する

レイクハウスにデータを取り込む

ショートカットを使ってデータにアクセスする

フィードバック