Azure Synapse Analytics のパイプラインについて
Azure Synapse Analytics のパイプラインは、データ移動タスクと処理タスクを実行する一連の アクティビティ をカプセル化します。 パイプラインを使用してデータ転送と変換アクティビティを定義し、分岐、ループ、およびその他の一般的な処理ロジックを管理する制御フロー アクティビティを使用してこれらのアクティビティを調整できます。 Azure Synapse Studio のグラフィカル デザイン ツールを使用すると、コーディングを最小限にするか、まったく必要とせず、複雑なパイプラインを構築できます。
主要なパイプラインの概念
Azure Synapse Analytics でパイプラインを構築する前に、いくつかの主要な概念を理解しておく必要があります。
活動
アクティビティは、パイプライン内の実行可能タスクです。 アクティビティのフローは、シーケンスで接続することで定義できます。 特定のアクティビティ (成功、失敗、または完了) の結果を使用して、フローをシーケンス内の次のアクティビティに転送できます。
アクティビティは、ソースからデータを抽出してターゲット (または シンク) に読み込む単純なデータ コピー操作や、 抽出、転送、読み込 み (ETL) 操作の一部としてデータに変換を適用するより複雑なデータ フローなど、データ転送操作をカプセル化できます。 さらに、Spark ノートブックの実行や Azure 関数の呼び出しなど、特定のシステムの処理タスクをカプセル化するアクティビティもあります。 最後に、ループの実装、条件分岐、変数とパラメーター値の管理に使用できる 制御フロー アクティビティがあります。
統合ランタイム
パイプラインには、コンピューティング リソースと実行する実行コンテキストが必要です。 パイプラインの 統合ランタイム は、このコンテキストを提供し、パイプライン内のアクティビティを開始および調整するために使用されます。
リンクされたサービス
多くのアクティビティはパイプラインの統合ランタイムで直接実行されますが、一部のアクティビティは外部サービスに依存します。 たとえば、パイプラインには、Azure Databricks でノートブックを実行したり、Azure SQL Database でストアド プロシージャを呼び出したりするアクティビティが含まれている場合があります。 パイプラインで使用される外部サービスへのセキュリティで保護された接続を有効にするには、 それらのリンクされたサービス を定義する必要があります。
手記
リンクされたサービスは Azure Synapse Analytics ワークスペース レベルで定義され、複数のパイプライン間で共有できます。
データセット
ほとんどのパイプラインはデータを処理し、パイプライン内のアクティビティによって消費および生成される特定のデータは、データセットを使用して定義されます。 データセットは、パイプラインで使用される各データ オブジェクトのスキーマを定義し、そのソースに接続するためのリンクされたサービスが関連付けられています。 アクティビティは、入力または出力としてデータセットを持つことができます。
手記
リンクされたサービスと同様に、データセットは Azure Synapse Analytics ワークスペース レベルで定義され、複数のパイプライン間で共有できます。