マッピング データ フローでのウィンドウ変換

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。

データ フローは、Azure Data Factory および Azure Synapse Pipelines の両方で使用できます。 この記事は、マッピング データ フローに適用されます。 変換を初めて使用する場合は、概要の記事「マッピング データ フローを使用してデータを変換する」を参照してください。

ウィンドウ変換では、データ ストリームに含まれる列のウィンドウ ベースの集計を定義します。 式ビルダーで、データまたは時間ウィンドウに基づくさまざまな種類の集計 (SQL OVER 句の LEAD、LAG、NTILE、CUMEDIST、RANK など) を定義できます。 これらの集計を含む新しいフィールドが出力に生成されます。 省略可能な group-by フィールドを含めることもできます。

Screenshot shows Windowing selected from the menu.

Over

ウィンドウ変換のために列データのパーティション分割を設定します。 SQL では Over 句の Partition By がこれに相当します。 パーティション分割に使用する計算または式を作成する場合は、列名にポインターを合わせて、[計算列] を選択します。

Screenshot shows Windowing Settings with the Over tab selected.

並べ替え

Over 句の別の部分では、Order By を設定します。 これにより、データの並べ替え順序が設定されます。 この列フィールドの計算値を並べ替えるための式を作成することもできます。

Screenshot shows Windowing Settings with the Sort tab selected.

Range By

次に、ウィンドウ枠を無制限または制限ありに設定します。 無制限のウィンドウ枠を設定するには、スライダーを両端の [Unbounded]\(無制限\) に設定します。 [Unbounded]\(無制限\) と [現在の行] の間の設定にする場合は、オフセットの開始値と終了値を設定する必要があります。 どちらの値も正の整数になります。 相対値か、自分のデータの値を使用できます。

ウィンドウのスライダーでは 2 つの値を設定します。現在の行よりも前の値と、現在の行より後の値です。 開始と終了のオフセットは、スライダーの 2 つのセレクターと一致します。

Screenshot shows Windowing Settings with the Range by tab selected.

ウィンドウの列

最後に、式ビルダーを使って、RANK、COUNT、MIN、MAX、DENSE RANK、LEAD、LAG など、データ ウィンドウで使用する集計を定義します。

Screenshot shows the result of the windowing action.

式ビルダーを通じて Data Flow 記述言語で使用できる集計関数と分析関数の全一覧については、「マッピング データ フローでのデータ変換式」をご覧ください。

単純なグループ別集計が必要な場合は、集計変換を使用してください。