Azure Data Factory のマッピングデータフロー

[アーティクル]
12/23/2023

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

マッピングデータフローとは

マッピングデータフローは、Azure Data Factory における視覚的に設計されたデータ変換です。データフローを使用すると、データエンジニアは、コードを記述することなくデータ変換ロジックを開発できます。生成されたデータフローは、スケールアウトされた Apache Spark クラスターを使用する Azure Data Factory パイプライン内のアクティビティとして実行されます。データフローアクティビティは、既存の Azure Data Factory のスケジュール設定、制御、フロー、および監視機能を使用して運用可能にすることができます。

マッピングデータフローは、コーディングを必要としない、完全に視覚的なエクスペリエンスを提供します。データフローは、スケールアウトされたデータ処理のために、ADF で管理される実行クラスターで実行されます。コードの翻訳、パスの最適化、データフロージョブの実行はすべて、Azure Data Factory によって処理されます。

作業の開始

データフローは、パイプラインやデータセットなどのファクトリリソースのペインから作成されます。データフローを作成するには、 [Factory Resources](Factory リソース) の横にあるプラス記号アイコンを選択して、 [データフロー] を選択します。

Screenshot showing a new data flow. このアクションにより、変換ロジックを作成できるデータフローキャンバスに移動します。 [ソースの追加] を選択すると、ソース変換の構成が開始します。詳細については、ソース変換に関するページを参照してください。

データフローの作成

マッピングデータフローには、変換ロジックを簡単に構築するために設計された独自の作成キャンバスがあります。データフローキャンバスは、上部バー、グラフ、および構成パネルの 3 つの部分に分かれています。

Screenshot shows the data flow canvas with top bar, graph, and configuration panel labeled.

グラフ

グラフには変換ストリームが表示されます。ここにはソースデータが 1 つ以上のシンクに流れるときのソースデータの系列が表示されます。新しいソースを追加するには、 [ソースの追加] を選択します。新しい変換を追加するには、既存の変換の右下にあるプラス記号を選択します。詳しくは、データフローグラフの管理方法に関するページを参照してください。

Screenshot shows the graph part of the canvas with a Search text box.

構成パネル

構成パネルには、現在選択されている変換に固有の設定が表示されます。変換が選択されていない場合は、データフローが表示されます。データフローの全体構成では、 [パラメーター] タブを使用してパラメーターを追加できます。詳しくは、「マッピングデータフローのパラメーター」を参照してください。

各変換には、少なくとも 4 つの構成タブが含まれます。

変換設定

各変換の構成ウィンドウの最初のタブには、その変換に固有の設定が含まれています。詳しくは、各変換のドキュメントページを参照してください。

Screenshot showing the source settings tab.

最適化

[最適化] タブには、パーティション分割を構成するためのオプション設定が含まれています。データフローを最適化する方法の詳細については、マッピングデータフローのパフォーマンスガイドに関する記事を参照してください。

Screenshot shows the Optimize tab, which includes Partition option, Partition type, and Number of partitions.

検査

[Inspect](検査) タブには、変換するデータストリームのメタデータのビューが表示されます。列数、変更された列、追加された列、データ型、列の順序、および列の参照を確認できます。 [Inspect](検査) は、メタデータの読み取り専用ビューです。 [Inspect](検査) ペインでメタデータを表示するためにデバッグモードを有効にする必要はありません。

Inspect

変換を使ってデータの形状を変更すると、メタデータの変更が [Inspect](検査) ペインに反映されます。ソースの変換に定義済みのスキーマがない場合、メタデータは [Inspect](検査) ペインに表示されません。スキーマの誤差シナリオでは、メタデータがないことは一般的です。

データのプレビュー

デバッグモードがオンの場合、 [データのプレビュー] タブには、各変換のデータの対話型スナップショットが表示されます。詳細については、デバッグモードでのデータのプレビューに関するセクションを参照してください。

上部バー

上部バーには、保存や検証など、データフロー全体に影響を与えるアクションが含まれています。基になる JSON コードと、変換ロジックのデータフロースクリプトも表示できます。詳細については、「データフロースクリプト」を参照してください。

使用可能な変換

使用可能な変換の一覧を取得するには、「マッピングデータフロー変換の概要」を表示してださい。

データフローのデータ型

array
binary
boolean
複雑
decimal (有効桁数を含む)
日付
float
整数 (integer)
long
map
short
string
timestamp

データフローアクティビティ

マッピングデータフローは、ADF パイプライン内でデータフローアクティビティを使用して運用可能にすることができます。ユーザーが行う必要があるのは、使用する統合ランタイムを指定し、パラメーター値を渡すことだけです。詳細については、「Azure 統合ランタイム」を参照してください。

デバッグモード

デバッグモードを使用すると、データフローを構築してデバッグしながら、各変換ステップの結果を対話形式で表示できます。デバッグセッションは、データフローロジックを構築するときと、データフローアクティビティでパイプラインデバッグを実行するときの両方で使用できます。詳細については、デバッグモードのドキュメントを参照してください。

データフローの監視

マッピングデータフローは、既存の Azure Data Factory 監視機能と統合されます。データフローの監視出力を理解する方法については、マッピングデータフローの監視に関するページを参照してください。

ビジネスロジックを構築した後のデータフローの実行時間を最適化するのに役立つ、パフォーマンスチューニングガイドが、Azure Data Factory チームによって作成されています。

ソース変換を作成する方法について学習します。
データフローをデバッグモードで構築する方法について学習します。

Azure Data Factory のマッピング データ フロー

マッピング データ フローとは

作業の開始

データ フローの作成

グラフ

構成パネル

変換設定

最適化

検査

データのプレビュー

上部バー

使用可能な変換

データ フローのデータ型

データ フロー アクティビティ

デバッグ モード

データ フローの監視

関連するコンテンツ

その他のリソース