Share via


Azure Synapse Analytics のデータ フロー

データ フローとは

データ フローは、Azure Synapse Analytics における視覚的に設計されたデータ変換です。 データ フローを使用すると、データ エンジニアは、コードを記述することなくデータ変換ロジックを開発できます。 生成されたデータ フローは、スケールアウトされた Apache Spark クラスターを使用する Azure Synapse Analytics パイプライン内のアクティビティとして実行されます。 データ フロー アクティビティは、既存の Azure Synapse Analytics のスケジュール設定、制御、フロー、監視機能を使用して運用可能にすることができます。

データ フローは、コーディングを必要としない、完全に視覚的なエクスペリエンスを提供します。 データ フローは、スケール アウトされたデータ処理のために、Synapse で管理される実行クラスターで実行されます。 コードの翻訳、パスの最適化、データ フロー ジョブの実行はすべて、Azure Synapse Analytics によって処理されます。

作業の開始

データ フローは、Synapse Studio の [開発] ペインから作成されます。 データ フローを作成するには、 [開発] の横にあるプラス記号アイコンを選択し、 [データ フロー] を選択します。

新しいデータ フロー

このアクションにより、変換ロジックを作成できるデータ フロー キャンバスに移動します。 [ソースの追加] を選択すると、ソース変換の構成が開始します。 詳細については、ソース変換に関するページを参照してください。

データ フローの作成

データ フローには、変換ロジックを簡単に構築するために設計された独自の作成キャンバスがあります。 データ フロー キャンバスは、上部バー、グラフ、および構成パネルの 3 つの部分に分かれています。

スクリーンショットには、上部バー、グラフ、および構成パネルにラベルが付いたデータ フロー キャンバスが示されています。

グラフ

グラフには変換ストリームが表示されます。 ここにはソース データが 1 つ以上のシンクに流れるときのソース データの系列が表示されます。 新しいソースを追加するには、 [ソースの追加] を選択します。 新しい変換を追加するには、既存の変換の右下にあるプラス記号を選択します。 詳しくは、データ フロー グラフの管理方法に関するページを参照してください。

スクリーンショットには、[検索] テキスト ボックスがあるキャンバスのグラフ部分が示されています。

構成パネル

構成パネルには、現在選択されている変換に固有の設定が表示されます。 変換が選択されていない場合は、データ フローが表示されます。 データフローの全体構成では、 [パラメーター] タブを使用してパラメーターを追加できます。詳しくは、データ フロー パラメーターに関するページを参照してください。

各変換には、少なくとも 4 つの構成タブが含まれます。

変換設定

各変換の構成ウィンドウの最初のタブには、その変換に固有の設定が含まれています。 詳しくは、各変換のドキュメント ページを参照してください。

[Source Settings] タブ

最適化

[最適化] タブには、パーティション分割を構成するためのオプション設定が含まれています。 データ フローを最適化する方法の詳細については、マッピング データ フローのパフォーマンス ガイドに関する記事を参照してください。

[最適化] タブを示すスクリーンショット

検査

[Inspect](検査) タブには、変換するデータ ストリームのメタデータのビューが表示されます。 列数、変更された列、追加された列、データ型、列の順序、および列の参照を確認できます。 [Inspect](検査) は、メタデータの読み取り専用ビューです。 [Inspect](検査) ペインでメタデータを表示するためにデバッグ モードを有効にする必要はありません。

[Inspect]\(検査\) タブ

変換を使ってデータの形状を変更すると、メタデータの変更が [Inspect](検査) ペインに反映されます。 ソースの変換に定義済みのスキーマがない場合、メタデータは [Inspect](検査) ペインに表示されません。 スキーマの誤差シナリオでは、メタデータがないことは一般的です。

データのプレビュー

デバッグ モードがオンの場合、 [データのプレビュー] タブには、各変換のデータの対話型スナップショットが表示されます。 詳細については、デバッグ モードでのデータのプレビューに関するセクションを参照してください。

上部バー

上部バーには、検証やデバッグ設定など、データ フロー全体に影響を与えるアクションが含まれています。 基になる JSON コードと、変換ロジックのデータ フロー スクリプトも表示できます。

使用可能な変換

使用可能な変換の一覧を取得するには、「マッピング データ フロー変換の概要」を表示してださい。

データ フロー アクティビティ

データ フローは、Azure Synapse Analytics パイプライン内でデータ フロー アクティビティを使用して運用可能にすることができます。 ユーザーが行う必要があるのは、使用する統合ランタイムを指定し、パラメーター値を渡すことだけです。 詳細については、「Azure 統合ランタイム」を参照してください。

デバッグ モード

デバッグ モードを使用すると、データ フローを構築してデバッグしながら、各変換ステップの結果を対話形式で表示できます。 デバッグ セッションは、データ フロー ロジックを構築するときと、データ フロー アクティビティでパイプライン デバッグを実行するときの両方で使用できます。 詳細については、デバッグ モードのドキュメントを参照してください。

データ フローの監視

データ フローは、既存の Azure Synapse Analytics 監視機能と統合されます。 データ フローの監視出力を理解する方法については、マッピング データ フローの監視に関するページを参照してください。

ビジネス ロジックを構築した後のデータ フローの実行時間を最適化するのに役立つ、パフォーマンス チューニング ガイドが、Azure Synapse Analytics チームによって作成されています。

次のステップ