データフローとは何か?

ヒント

企業向けのオールインワン分析ソリューションである Microsoft Fabric の Data Factory で Dataflow Gen2 をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。

データフローは、セルフサービスによるクラウドベースのデータ準備テクノロジです。 データフローを使用すると、Microsoft Dataverse 環境、Power BI ワークスペース、または組織の Azure Data Lake Storage アカウントへのデータの取り込み、変換、読み込みを行うことができます。 データフローは Power Query を使用して作成されます。Power Query は、Excel や Power BI などの多くの Microsoft 製品に既に搭載されている統合されたデータ接続および準備エクスペリエンスです。 データフローは、オンデマンドで、またはスケジュールに基づいて自動的に実行するようにトリガーできます。データは常に最新の状態に保たれます。

データフローは複数の Microsoft 製品で作成が可能

データフローは複数の Microsoft 製品で利用されており、データフロー固有のライセンスを作成または実行する必要はありません。 データフローは、Power Apps、Power BI、および Dynamics 365 Customer Insights で使用できます。 データフローを作成して実行する機能は、これらの製品のライセンスにバンドルされています。 データフロー機能は対応するすべての製品でほぼ共通ですが、特定の製品で作成されたデータフローに製品固有の機能が含まれていることもあります。

データフローの機能

Image of how dataflows function, from the source data, to the transformation process, and then to storage.

上の図は、データフローの定義の全体像を示しています。 データフローは、さまざまなデータ ソースからデータを取得します (80 を超えるデータ ソースが既にサポートされています)。 次に、Power Query 作成エクスペリエンスで構成された変換を基に、データフロー エンジンを使用してデータが変換されます。 最後に、データが出力先に読み込まれます。出力先には、Microsoft Power Platform 環境、Power BI ワークスペース、または組織の Azure Data Lake Storage アカウントを指定できます。

クラウドでのデータフローの実行

データフローはクラウドベースです。 データフローを作成して保存すると、その定義がクラウドに格納されます。 データフローはクラウドでも実行されます。 ただし、データ ソースがオンプレミスの場合は、オンプレミス データ ゲートウェイを使用してクラウドにデータを抽出できます。 データフローの実行がトリガーされると、データの変換と評価はクラウドで行われます。出力先は常にクラウド内です。

Image of how dataflows run in the cloud, from the data source, to the dataflow running in the cloud, and then to storage.

データフローでは強力な変換エンジンを使用する

Power Query は、データフローで使用されるデータ変換エンジンです。 このエンジンは、多くの高度な変換をサポートするための十分な機能を備えています。 また、シンプルかつ強力なグラフィカル ユーザー インターフェイスである Power Query エディターも使用されます。 このエディターでデータフローを使用すると、より迅速かつ簡単にデータ統合ソリューションを開発できます。

Screenshot showing an example of Power Query transformations.

Microsoft Power Platform と Dynamics 365 によるデータフローの統合

データフローは結果のテーブルをクラウドベースのストレージに保存するため、他のサービスはデータフローによって生成されたデータと対話できます。

Image of how a dataflow integrates with Microsoft Power Platform and Dynamics 365.

たとえば、Power BI、Power Apps、Power Automate、Power Virtual Agents、および Dynamics 365 アプリケーションでは、データフローの作成時に構成された出力先に応じて、Dataverse (Power Platform データフロー コネクタ) に接続するか、またはレイクを通じて直接、データフローによって生成されたデータを取得できます。

データフローの利点

次の一覧は、データフローを使用する利点の一部を示しています。

  • データフローは、Power BI ソリューションのモデリング レイヤーと視覚化レイヤーからデータ変換レイヤーを切り離します。

  • データ変換コードは、複数の成果物に分散させるのではなく、中央の場所 (データフロー) に配置できます。

  • データフロー作成者に必要なのは Power Query のスキルだけです。 1 つの環境で複数の作成者が作業している場合、データフロー作成者は BI ソリューション全体または運用するアプリケーションをまとめて構築するチームのメンバーになることができます。

  • データフローは製品に依存しません。 データフローは Power BI のコンポーネントというだけではないため、他のツールやサービスでそのデータを取得できます。

  • データフローでは、強力かつグラフィカルなセルフサービスによるデータ変換エクスペリエンスである Power Query を活用します。

  • データフローはすべてクラウドで実行されます。 インフラストラクチャを追加する必要はありません。

  • Power Apps、Power BI、および Customer Insights のライセンスを使用してデータフローの操作を開始するための複数のオプションが用意されています。

  • データフローは高度な変換に対応していますが、セルフサービスのシナリオ向けに設計されているため、IT や開発者の経歴は必要ありません。

データフローのユース ケース シナリオ

データフローはさまざまな目的で使用できます。 以下のシナリオでは、データフローの一般的なユース ケースの例をいくつか紹介します。

レガシ システムからのデータの移行

このシナリオでは、ある組織において、Power Apps を従来のオンプレミス システムではなく新しいユーザー インターフェイス エクスペリエンスに使用するという決定が行われています。 Power Apps、Power Automate、AI Builder ではすべて、プライマリ データ ストレージ システムとして Dataverse を使用します。 データフローを使用すると、既存のオンプレミス システム内の現在のデータを Dataverse に移行して、これらの製品でデータを使用できます。

データフローを使用してデータ ウェアハウスを構築する

他の抽出、変換、読み込み (ETL) ツールの代わりにデータフローを使用して、データ ウェアハウスを構築できます。 このシナリオでは、企業のデータ エンジニアは、データフローを使用して、Data Lake Storage 内のファクト テーブルやディメンション テーブルを含むスター スキーマ設計のデータ ウェアハウスを構築することを決定します。 次に、Power BI を使用してデータフローからデータを取得することによってレポートとダッシュボードを生成します。

Image of how to build a data warehouse using dataflows.

データフローを使用してディメンショナル モデルを構築する

他の ETL ツールの代わりにデータフローを使用して、ディメンショナル モデルを構築できます。 たとえば、企業のデータ エンジニアがデータフローを使用して、スター スキーマで設計されたディメンショナル モデル (ファクト テーブルとディメンション テーブルを含む) を Azure Data Lake Storage Gen2 に構築することを決定するとします。 次に、Power BI を使用してデータフローからデータを取得することによってレポートとダッシュボードを生成します。

Image of how to build a dimensional model using dataflows.

複数の Power BI ソリューションでセマンティック モデルのデータ準備と再利用を一元化する

複数の Power BI ソリューションで 1 つのテーブルの同じ変換済みのバージョンを使用している場合は、テーブルを作成するプロセスが複数回繰り返されます。 これにより、ソース システムの負荷が増加して多くのリソースが消費され、複数の障害点で重複するデータが作成されます。 代わりに、単一のデータフローを作成して、すべてのソリューションのデータを計算することができます。 その後、Power BI では変換の結果をすべてのソリューションで再利用できます。 このような方法で使用されるデータフローは、Power Query コードの重複を回避し、データ統合レイヤーのメンテナンス コストを削減する信頼性の高い Power BI 実装アーキテクチャに含めることができます。

Image of how tables can be reused across multiple solutions.

次のステップ

次の記事では、データフローの詳細な学習用教材を提供しています。