このチュートリアルは、マテリアライズドなレイクビューを使用してメダリオンアーキテクチャを実装するための手順および考慮事項について説明します。 このチュートリアルの終わりまでに、具体化された湖のビューの主な機能を学習し、自動化されたデータ変換ワークフローを作成できます。 このチュートリアルは、参照アーキテクチャ、機能の完全な一覧、または特定のベスト プラクティスの推奨事項を意図したものではありません。
[前提条件]
このチュートリアルの前提条件として、次の手順を実行します:
- Power BI アカウントにサインイン するか、アカウントをまだ持っていない場合は、無料試用版にサインアップします。
- テナントで Microsoft Fabric を有効にします。 画面の左下にある既定の Power BI アイコンを選択し、[ファブリック] を選択します。
- Microsoft Fabric 対応ワークスペースを作成します。
- [ワークスペース] タブからワークスペースを選択し、[ + 新しい 項目] を選択して、[パイプライン] を選択 します。 パイプラインの名前を指定し、[ 作成] を選択します。
- スキーマを有効にして Lakehouse を作成します 。 SalesLakehouse という名前を付け、サンプル データ ファイルを Lakehouse に読み込みます。 詳細については、 Lakehouse チュートリアルを参照してください。
シナリオの概要
このチュートリアルでは、データ分析に medallion アーキテクチャを使用して小売販売業務に関する実用的な分析情報を得る架空の小売組織 Contoso の例を取り上げます。 これは、データをブロンズ (生データ)、シルバー (クリーニングおよびエンリッチメントされたデータ)、ゴールド (集計および分析されたデータ) の 3 つのレイヤーに整理することで、分析プロセスを合理化し、ビジネス パフォーマンスに関するより深い洞察を生成することを目的としています。
次の図は、SalesLakehouse の medallion アーキテクチャの各レイヤーのさまざまなエンティティを表しています。
エンティティ
Orders: このエンティティには、注文日、出荷の詳細、製品カテゴリ、サブカテゴリなど、各顧客注文に関する詳細が含まれます。 分析情報を引き出して、出荷戦略を最適化し、人気のある製品カテゴリを特定し、注文管理を改善することができます。
売上: 売上データを分析することで、Contoso は総収益、利益率、注文の優先順位、割引などの主要なメトリックを評価できます。 これらの要因間の相関関係により、顧客の購入行動と割引戦略の効率をより明確に理解できます。
場所: これは、都市、州、地域、顧客セグメントを含む、販売注文と注文の地理的ディメンションをキャプチャします。 これは、Contoso が高パフォーマンスのリージョンを特定し、パフォーマンスの低い領域に対処し、特定の顧客セグメントの戦略をカスタマイズするのに役立ちます。
エージェントのパフォーマンス: トランザクション、手数料、および販売データを管理するエージェントの詳細を使用して、Contoso は個々のエージェントのパフォーマンスを評価し、トップ パフォーマーにインセンティブを提供し、効果的な手数料構造を設計できます。
エージェント手数料: 手数料データを組み込むことで透明性が確保され、コスト管理が向上します。 手数料率とエージェントのパフォーマンスの相関関係を理解することは、インセンティブ システムを改善するのに役立ちます。
サンプル データセット
Contoso は、ADLS Gen2 内の CSV 形式で小売業務の生データを保持しています。 このデータを利用してブロンズレイヤーを作成し、ブロンズレイヤーを使用してメダリオン建築の銀と金の層を形成する具体化された湖のビューを作成します。 まず、 Fabric サンプル リポジトリからサンプル CSV ファイルをダウンロードします。
パイプラインを作成する
大まかな手順は次のとおりです。
- ブロンズレイヤー:CSVファイル形式の生データをレイクハウスに取り込みます。
- シルバー レイヤー: 具体化された湖のビューを使用してデータをクレンジングします。
- ゴールド レイヤー: 具体化された湖のビューを使用して、分析とレポートのためにデータをキュレーションします。
セールスアナリティクスのメダリオンアーキテクチャのブロンズレイヤーを作成する
ダウンロードしたデータからさまざまなエンティティに対応する CSV ファイルを Lakehouse に読み込みます。 これを行うには、lakehouse に移動し、ダウンロードしたデータを lakehouse の [ファイル ] セクションにアップロードします。 チュートリアルという名前のフォルダーが作成されます。
次に、 Tables セクションからショートカットを作成します。 [テーブル] セクションの横にある [... ] を選択し、[新しいスキーマ ショートカット] を選択し、[Microsoft OneLake] を選択します。 データ ソースの種類から SalesLakehouse を選択します。 [ ファイル ] セクションを展開し、 チュートリアル フォルダーを選択し、[ 作成] を選択します。 他の代替 オプションを使用して、Lakehouse にデータを取得することもできます。
[ テーブル ] セクションから、 チュートリアル フォルダーの名前を ブロンズに変更します。
メダリオン アーキテクチャの銀と金のレイヤーを作成する
ダウンロードしたノートブック ファイルをワークスペースにアップロードします。
Lakehouse からノートブックを開きます。 詳細については、「 ノートブックを使用して Lakehouse データを探索する」を参照してください。
Spark SQL を使用してノートブックのすべてのセルを実行し、データ品質制約を持つ具体化されたレイク ビューを作成します。 すべてのセルが正常に実行されたら、SalesLakehouse ソースを 最新の情報に更新 して、 シルバー スキーマと ゴールド スキーマ用に新しく作成された具体化されたレイク ビューを表示します。
パイプラインのスケジュールを設定する
シルバー レイヤーとゴールド レイヤーの具体化された湖のビューが作成されたら、レイクハウスに移動し、[ 管理された具体化された湖のビュー ] を選択して系列ビューを表示します。 依存関係に基づいて自動生成され、依存する各具体化されたレイク ビューが系列のノードを形成します。
ナビゲーション リボンから [スケジュール ] を選択します。 更新を オン にしてスケジュールを構成します。
監視とトラブルシューティング
ドロップダウン メニューには、現在の実行と履歴の実行が一覧表示されます。
いずれかの実行を選択すると、具体化された湖のビューの詳細を右側のパネルで確認できます。 下部のアクティビティ パネルには、ノードの実行状態の概要が表示されます。
系列内の任意のノードを選択すると、ノード実行の詳細が表示され、詳細ログにリンクされます。 ノードの状態が [失敗] の場合は、エラー メッセージも表示されます。
[詳細なログ] リンクを選択すると、監視ハブにリダイレクトされ、そこから Spark エラー ログにアクセスしてトラブルシューティングを行うことができます。
具体化された湖のビュー ページのリボンにある [ データ品質レポート ] ボタンを選択して、自動生成されたデータ品質レポートを作成または表示します。