Microsoft Fabric レイクハウスを使用する
Microsoft Fabric レイクハウスのコア機能を理解したので、その機能を使用する方法を調べてみましょう。
レイクハウスを作成して探索する
新しいレイクハウスを作成すると、ワークスペースに 3 つの異なるデータ項目が自動的に作成されます。
- Lakehouse には、ショートカット、フォルダー、ファイル、テーブルが含まれています。
- セマンティック モデル (既定) は、Power BI レポート開発者向けに簡単なデータ ソースを提供します。
- SQL 分析エンドポイントでは、SQL を使用してデータのクエリを実行するための読み取り専用アクセスが許可されます。
レイクハウスのデータは、次の 2 つのモードで操作できます。
- lakehouse を使用すると、lakehouse 内のテーブル、ファイル、フォルダーを追加して操作できます。
- SQL 分析エンドポイント を使用すると、SQL を使用して lakehouse 内のテーブルに対してクエリを実行し、そのリレーショナル セマンティック モデルを管理できます。
レイクハウスにデータを取り込む
レイクハウスへのデータの取り込みは、ETL プロセスの最初の手順です。 次のいずれかの方法を使用して、レイクハウスにデータを取り込みます。
- アップロード: ローカル ファイルをアップロードします。
- データフロー Gen2: Power Query を使用してデータをインポートおよび変換します。
- ノートブック: Apache Spark を使用して、データの取り込み、変換、読み込みを行います。
- Data Factory パイプライン: データのコピー アクティビティを使用します。
これにより、このデータをファイルまたはテーブルに直接読み込むことができるようになります。 ステージング テーブルを処理または使用する前に、データを取り込むときにデータ読み込みパターンを検討し、すべての生データをファイルとして読み込む必要があるかどうかを判断してください。
Spark ジョブ定義を 使用して、バッチ/ストリーミング ジョブを Spark クラスターに送信することもできます。 異なる言語のコンパイル出力 (Java の .jar など) からバイナリ ファイルをアップロードすることで、レイクハウスでホストされているデータに異なる変換ロジックを適用できます。 バイナリ ファイルに加えて、追加のライブラリとコマンド ライン引数をアップロードすることで、ジョブの動作をさらにカスタマイズできます。
注
詳細については、 Apache Spark ジョブ定義の作成に関するドキュメントを 参照してください。
ショートカットを使ってデータにアクセスする
Fabric でデータにアクセスして使うには、"ショートカット" を使う方法もあります。 ショートカットを使うと、データを外部のストレージに保存したまま、レイクハウスに統合することができます。
ショートカットは、別のストレージ アカウントだけでなく、別のクラウド プロバイダーにあるデータを取得する必要がある場合に便利です。 自分のレイクハウス内には、異なるストレージ アカウントや他の Fabric 項目 (データ ウェアハウス、KQL データベース、他のレイクハウスなど) を指すショートカットを作成できます。
ソース データのアクセス許可と資格情報は、すべて OneLake によって管理されます。 別の OneLake の場所へのショートカットを介してデータにアクセスする場合、ショートカットのターゲット パス内にあるデータへのアクセスを認可するために、呼び出し元ユーザーの ID が使われます。 このユーザーがデータを読み取るには、ターゲットの場所のアクセス許可を持っている必要があります。
ショートカットは、レイクハウスと KQL データベースの両方に作成できます。また、レイク内のフォルダーとして表示されます。 これにより、Spark、SQL、リアルタイム インテリジェンス、Analysis Services はすべて、データのクエリ時にショートカットを利用できます。
注
ショートカットの使用方法の詳細については、Microsoft Fabric ドキュメントの OneLake ショートカット ドキュメント を参照してください。