Azure Data Factory を理解する

完了

ほとんどの分析ソリューションでは、データのバッチ移動をトリガーしたり、定期的なスケジュールを設定したりする必要があります。 Azure Data Factory (ADF) は、このような要件を満たすために使用できるサービスです。 ADF には、さまざまなデータ ストアとコンピューティング リソース間のデータの移動と変換のオーケストレーションを行うクラウドベースのデータ統合サービスが用意されています。

Azure Data Factory は、大規模なデータ移動やデータ変換のオーケストレーションを行うためのデータドリブン ワークフローの作成を可能にするクラウドベースの ETL およびデータ統合サービスです。 Azure Data Factory を使えば、各種のデータ ストアからデータを取り込むことができるデータ主導型のワークフロー (パイプライン) を作成し、スケジューリングできます。 データ フローを使用するか、Azure HDInsight Hadoop、Azure Databricks、Azure Synapse Analytics などのコンピューティング サービスを使って、視覚的にデータを変換する複雑な ETL プロセスを構築することができます。

Azure Data Factory の機能の多くは、Azure Synapse Analytics ではパイプラインと呼ばれる機能として表示され、SQL プール、Spark プール、SQL Serverless の間でデータ パイプラインを統合することができます。そのため、あらゆる分析ニーズにワン ストップで対応することができます。

オーケストレーションとは

例えとして、交響楽団を思い浮かべてください。 楽団の中心的なメンバーは指揮者です。 指揮者は楽器を演奏しません。演奏する楽曲全体を通して交響楽団のメンバーを導くだけです。 演奏者は、交響曲のさまざまな段階で特定の音を出すために自分の技能を使用しているため、その楽曲の特定の部分しか学習しない可能性があります。 指揮者は楽曲全体のオーケストレーションを行うため、演奏されている楽譜全体を把握しています。 また、特定の腕の動きを使用して、楽曲をどのように演奏するかを演奏者に指示します。

ADF にも同様のアプローチを使用できます。データを取り込んで変換するネイティブ機能を備えていますが、変換クエリを実行する Databricks など、ADF に代わって必要な実際の作業を実行するように別のサービスに指示が出される場合があります。 つまり、この場合、作業を実行するのは ADF ではなく Databricks になります。 ADF 側では、クエリ実行のオーケストレーションが行われ、データを次の手順や目的地に移動させるパイプラインが提供されるだけです。

また、このサービスには視覚化機能が豊富に用意されています。このため、データ パイプライン間の系列と依存関係を表示できるほか、統一された 1 つのビューからすべてのデータ パイプラインを監視して、容易に問題を特定し、監視アラートを設定できます。

Data Factory platform