はじめに
Microsoft Fabric データ ウェアハウスは、データ、分析、AI (人工知能) のための完全なプラットフォームです。 これは、大量の構造化データと半構造化データを保存、整理、管理するプロセスを指します。
Microsoft Fabric のデータ ウェアハウスは、データの管理と分析を容易にする豊富な機能セットを提供する Synapse Analytics によって強化されています。 高度なクエリ処理機能が含まれており、エンタープライズ データ ウェアハウスなどの完全なトランザクション T-SQL 機能をサポートします。
Synapse Analytics の専用 SQL プールとは異なり、Microsoft Fabric のウェアハウスは 1 つのデータ レイクを中心に構成されています。 Microsoft Fabric ウェアハウス内のデータは、Parquet ファイル形式で保存されます。 このセットアップにより、ユーザーはデータの準備、分析、レポートなどのタスクに集中できます。 SQL エンジンの広範な機能を利用し、データの一意のコピーが Microsoft OneLake に保存されます。
ETL (抽出、変換、読み込み) プロセスを理解する
ETL は、Data Analytics とデータ ウェアハウスのワークストリームの基盤を提供します。 ETL プロセスにおけるデータ操作のいくつかの側面を確認してみましょう。
説明 | |
---|---|
データの抽出 | これには、ソースシステムに接続し、分析処理に必要なデータを収集することが含まれます。 |
データ変換 | これには、抽出されたデータを標準形式に変換するために実行される一連の手順が含まれます。 異なるテーブルからのデータの結合、データのクリーニング、データの重複排除、データ検証の実行。 |
データ読み込み | 抽出および変換されたデータは、ファクトとディメンションの各テーブルに読み込まれます。 増分読み込みの場合、これには、要件に従って継続的な変更を定期的に適用することが含まれます。 このプロセスには、多くの場合、データの品質とデータ ウェアハウス スキーマとの互換性を確保するためのデータの再フォーマットが含まれます。 |
読み込み後の最適化 | データが読み込まれたら、特定の最適化を実行してデータ ウェアハウスのパフォーマンスを向上させることができます。 |
ETL プロセスのこれらのステップはすべて、シナリオに応じて並列で実行できます。 一部のデータの準備ができたら、前のステップが完了するのを待たずにすぐにデータが読み込まれます。
次のユニットでは、ウェアハウスにデータを読み込むさまざまな方法と、それらを使用するとデータ ウェアハウスのワークロードを構築するタスクがどのように容易になるかを説明します。