パイプラインでのデータフローの使用

2023-10-20

複数のデータフローを持つ複雑なパイプラインを構築する場合、論理フローがタイミングとコストに大きな影響を与える可能性があります。このセクションでは、さまざまなアーキテクチャ戦略の影響について説明します。

データフローの並列実行

複数のデータフローを並列に実行すると、アクティビティごとに個別の Spark クラスターがサービスによってスピンアップされます。これにより、各ジョブを分離して並列に実行できますが、複数のクラスターが同時に実行されることになります。

データフローを並列実行する場合、使用されないウォームプールが複数発生してしまうため、Azure IR の time to live プロパティを有効にしないことをお勧めします。

ヒント

各アクティビティで同じデータフローを複数回実行するのではなく、データレイクにデータをステージして、ワイルドカードパスを使用してデータを 1 つのデータフローで処理します。

データフローの順次実行

データフローアクティビティを順番に実行する場合は、Azure IR 構成で TTL を設定することをお勧めします。サービスによってコンピューティングリソースが再利用され、クラスターの起動時間が短縮されます。各アクティビティは引き続き分離され、実行のたびに新しい Spark コンテキストを受け取ります。

単一データフローのオーバーロード

すべてのロジックを単一データフロー内に配置すると、サービスによって単一の Spark インスタンスでジョブ全体が実行されます。これはコストを削減する方法のように思えるかもしれませんが、さまざまな論理フローを組み合わせるため、監視やデバッグが困難になる可能性があります。 1 つのコンポーネントが失敗すると、ジョブの他のすべての部分も失敗します。ビジネスロジックの独立したフロー別にデータフローを整理することをお勧めします。データフローが大きくなりすぎた場合、コンポーネントを分割すると、監視とデバッグが容易になります。データフロー内の変換の数にはハード制限はありませんが、多すぎるとジョブが複雑になります。

シンクを並列実行する

データフローシンクの既定の動作では、各シンクが順番に実行され、シンクでエラーが発生した場合はデータフローが失敗します。さらに、データフロープロパティでシンクに異なる優先順位を設定しない限り、すべてのシンクは既定で同じグループに設定されます。

データフローでは、UI デザイナーのデータフロープロパティのタブで、シンクをグループにまとめることができます。シンクの実行順序を設定できるほか、同じグループ番号を使用してシンクをグループ化できます。グループの管理に役立つように、シンクを同じグループで並列実行するようにサービスに要求できます。

シンクのプロパティセクションにある、パイプラインのデータフロー実行アクティビティでも、シンクの並列読み込みを有効にできます。並列実行を有効にすると、接続されたシンクに (順次ではなく) 同時に書き込むように、データフローに指示したことになります。並列実行のオプションを利用するには、シンクがグループ化され、新しい分岐または条件分割を使用して同じストリームに接続されている必要があります。

パイプラインで Azure Synapse データベーステンプレートにアクセスする

パイプラインを作成しているときに Azure Synapse データベーステンプレートを使用できます。新しいデータフローを作成しているときに、ソースまたはシンクの設定で、[ワークスペース DB] を選択します。データベースのドロップダウンには、データベーステンプレートを使用して作成されたデータベースが一覧表示されます。 [ワークスペース DB] オプションを利用できるのは新しいデータフローの場合のみです。Synapse Studio ギャラリーから既存のパイプラインを使用するときは利用できません。

パフォーマンスに関する Data Flow のその他の記事を参照してください。

次の方法で共有

パイプラインでのデータ フローの使用

データ フローの並列実行

データ フローの順次実行

単一データ フローのオーバーロード

シンクを並列実行する

パイプラインで Azure Synapse データベース テンプレートにアクセスする

関連するコンテンツ

フィードバック

その他のリソース

パイプラインでのデータフローの使用

データフローの並列実行

データフローの順次実行

単一データフローのオーバーロード

パイプラインで Azure Synapse データベーステンプレートにアクセスする