Azure Synapse パイプラインを使用してデータ統合を調整する

7 分

Azure Synapse パイプラインは、データの移動と変換を大規模に制御するデータドリブンのワークフローを作成できる、クラウドベースの ETL およびデータ統合サービスです。 Azure Synapse パイプラインを使えば、各種のデータストアからデータを取り込むことができるデータ主導型ワークフロー (パイプラインと呼ばれる) を作成し、スケジューリングできます。データフローを使用するか、Azure HDInsight、Azure Databricks、Azure Synapse Analytics などのコンピューティングサービスを使って、視覚的にデータを変換する複雑な ETL または ELT プロセスを構築することができます。

Azure Synapse パイプラインの機能の多くは Azure Data Factory 機能に由来し、一般にパイプラインと呼ばれています。 Azure Synapse パイプラインを使用すると、SQL プール、Spark プール、SQL サーバーレスの間でデータパイプラインを統合できるため、すべての分析ニーズのためのワンストップショップを提供できます。

Azure Data Factory と同様、Azure Synapse パイプラインは 4 つのコアコンポーネントで構成されています。これらのコンポーネントの連携によって実現するプラットフォームを基盤として、データ移動とデータ変換のステップを含んだデータ主導型のワークフローを作成することができます。

Data Factory は、リンクされたサービスと呼ばれるオブジェクトを作成することによって接続できるさまざまなデータソースをサポートしています。これにより、データソースからデータを取り込み、変換や分析用のデータを作成する準備を整えることができます。また、リンクされたサービスは、必要に応じてコンピューティングサービスを起動できます。たとえば、Hive クエリを使用してデータを処理することだけを目的として、オンデマンドの HDInsight クラスターを開始する必要がある場合があります。そのため、リンクされたサービスを使用すると、データソース、またはデータの取り込みと準備に必要なコンピューティングリソースを定義できます。

リンクされたサービスを定義すると、 データセット オブジェクトの作成を通じて使用するデータセットが Azure Data Factory に認識されます。データセットは、リンクされたサービスオブジェクトによって参照されるデータストア内のデータ構造を表します。データセットは、アクティビティと呼ばれる ADF オブジェクトでも使用できます。

アクティビティ には通常、Azure Data Factory の作業の変換ロジックまたは分析コマンドが含まれています。アクティビティには、さまざまなデータソースからデータを取り込むために使用できるコピーアクティビティが含まれています。また、コードを使用しないデータ変換を実行するためのマッピングデータフローを含めることもできます。また、データを変換するためのストアドプロシージャ、Hive クエリ、または Pig スクリプトを実行することもできます。データを機械学習モデルにプッシュして、分析を実行することができます。 SQL ストアドプロシージャを使用してデータを変換した後、Databricks で分析を実行するなど、複数のアクティビティを実行することは珍しくありません。この場合、複数のアクティビティを、パイプラインと呼ばれるオブジェクトと共に論理的にグループ化し、実行するように "スケジュール" することも、パイプラインの実行をいつ開始するかを決定する "トリガー" を定義することもできます。さまざまな種類のイベントに合わせて、さまざまな種類のトリガーがあります。

Azure Synapse Pipeline components

"制御フロー" は、パイプラインアクティビティのオーケストレーションです。これには、シーケンスに従うアクティビティの連鎖、分岐、パイプラインレベルでのパラメーターの定義、オンデマンドかトリガーからパイプラインが呼び出される際の引数の受け渡しが含まれます。さらに、カスタム状態の受け渡しや、ループコンテナー、および For-each 反復子も含まれます。

"パラメーター" は、読み取り専用の構成のキーと値のペアです。  パラメーターはパイプラインで定義されます。定義済みパラメーターの引数は、実行時に、トリガーが作成した実行コンテキストか、手動で実行されるパイプラインから渡されます。パイプライン内のアクティビティは、パラメーターの値を使用します。

Azure Synapse Pipelines には、アクティビティとリンクされたサービスオブジェクト間をブリッジできる "統合ランタイム" があります。リンクされたサービスによって参照され、アクティビティが実行されたりディスパッチされたりするコンピューティング環境を提供します。そうすることで、可能な限り近いリージョンでアクティビティを実行できるようになります。 Azure Data Factory と Synapse パイプラインがデータ統合機能を提供するために使うコンピューティングインフラストラクチャである統合ランタイム (IR) には、Azure とセルフホステッドを含む 3 種類があります。 Azure Data Factory では同じ統合ランタイムがサポートされています。それに加え、Azure-SSIS 統合ランタイムもサポートされています。

すべての作業が完了したら、Data Factory を使用して、最終的なデータセットを、Power BI や Machine Learning などのテクノロジで使用できる別のリンクされたサービスに発行することができます。

続行

フィードバック