Azure Data Factory を使用してデータ統合ソリューションを設計する

完了

Azure Data Factory はクラウドベースのデータ統合サービスであり、以下を行うデータ ドリブンワークフローを作成およびスケジュールできます。 Azure Data Factory を使用して、データ移動を調整し、大規模にデータを変換できます。 データドリブン ワークフロー、または、パイプラインは、異種データ ストアからデータを取り込みます。 Azure Data Factory は ETL (抽出、変換、読み込み) データ統合プロセスです。 この統合プロセスでは、複数のデータ ソースのデータを 1 つのデータ ストアに結合します。

Azure Data Factory について知っておくべきこと

Azure Data Factory アーキテクチャでデータドリブン ワークフローを作成して実装するには、次の 4 つの主な手順があります。

  1. 接続と収集。 まず、データを取り込んで、さまざまなソースからすべてのデータを一元化された場所に収集します。
  2. 変換と強化。 次に、Azure Databricks や Azure HDInsight Hadoop などのコンピューティング サービスを使用してデータを変換します。
  3. 継続的インテグレーションおよびデリバリー (CI/CD) と公開。 GitHub とAzure DevOps を使って CI/CD をサポートし、ETL プロセスを徐々に提供してから、データを分析エンジンに発行します。
  4. モニター。 最後に、Azure portal を使用して、スケジュールされたアクティビティとすべてのエラーについてパイプラインを監視します。

次の図では、Azure Data Factory でさまざまなデータ ソースからのデータの取り込みを調整するしくみを示しています。 データは Storage BLOB に取り込まれ、Azure Synapse Analytics に格納されます。 分析および視覚化のコンポーネントも Azure Data Factory に接続されています。 Azure Data Factory には、すべてのデータ統合のニーズに対する共通の管理インターフェイスが用意されています。

Diagram that shows the Azure Data Factory architecture.

Azure Data Factory のコンポーネント

Azure Data Factory には、データ移動とデータ統合のプラットフォームを提供するために連携する次のコンポーネントがあります。

Diagram that shows a pipeline, activities, data sets, and linked services in Azure Data Factory.

  • パイプラインとアクティビティ - パイプラインにより、タスクを実行するアクティビティの論理的なグループが提供されます。 アクティビティはパイプライン内の単一の処理ステップです。 Azure Data Factory では、データ移動、データ変換、制御のアクティビティがサポートされています。
  • データセット - データセットはデータ ストア内のデータ構造です。
  • リンク サービス - リンク サービスにより、Azure Data Factory から外部リソースに接続するために必要な必須接続情報が定義されます。
  • データ フロー - データ フローを使用すると、データ エンジニアはコードを記述せずにデータ変換ロジックを開発できます。 データ フロー アクティビティは、既存の Azure Data Factory のスケジュール設定、制御、フロー、監視機能を使用して運用可能にすることができます。
  • 統合ランタイム - 統合ランタイムは、アクティビティとリンク サービス オブジェクトの間のブリッジです。 統合ランタイムには、Azure、セルフホスト、Azure SSIS の 3 種類があります。

ビジネス シナリオ

Tailwind Traders のように急速に成長しているホーム センターにとって大きな課題は、クラウドとオンプレミスの両方で、リレーショナル、非リレーショナル、その他のストレージ システムの格納データが大量に生成されるという点です。 経営陣は、できるだけリアル タイムで、このデータから実用的なビジネス上の分析情報を得たいと考えています。 さらに、販売チームは、アップセリングと相互販売のソリューションを設定しロールアウトしたいと考えています。 クラウドで大規模なデータ インジェスト ソリューションを作成するにはどうすればよいでしょう。 さまざまなデータ ストアとコンピューティング リソースの間でのデータの移動と変換を支援するために、どのような Azure サービスとソリューションを採用すべきでしょうか。

Tailwind Traders のデータの準備および移動のシナリオに、Azure Data Factory のコンポーネントがどのように関係しているかを確認してみましょう。 接続するデータ ソースは多数存在し、そのデータは、データに対して実行されるストアド プロシージャを使用して取り込み変換する必要があります。 最後に、分析のためにデータを分析プラットフォームにプッシュする必要があります。

  • このシナリオでは、リンク サービスにより、Tailwind Traders はさまざまなソースからデータを取り込み、接続文字列を保存して、必要に応じてコンピューティング サービスを起動することができます。
  • Tailwind Traders の統合ランタイム環境である Azure SSIS で、リンク サービスを介して行われるデータ変換のストアド プロシージャを実行できます。
  • データセット コンポーネントはアクティビティ オブジェクトによって使用され、アクティビティ オブジェクトには変換ロジックが含まれます。
  • まとめられたすべてのアクティビティであるパイプラインをトリガーすることができます。
  • 続いて Azure Data Factory を使用して、最終的なデータセットを、Power BI や Machine Learning などのテクノロジで使用される別のリンク サービスに発行することができます。

Azure Data Factory を使用する際の考慮事項

次の決定基準に対して Azure Data Factory を評価し、サービスが Tailwind Traders のデータ統合ソリューションにどのように役立つのかを検討します。

  • データ統合の要件を考慮する。 Azure Data Factory では、ビッグ データ コミュニティと、SQL Server Integration Services (SSIS) を使用するリレーショナル データ ウェアハウス コミュニティの 2 つのコミュニティが提供されます。 ご自分の組織のデータ ニーズに応じて、Azure Data Factory を使用してクラウドにパイプラインを設定できます。 クラウドとオンプレミスの両方のデータ サービスにアクセスできます。
  • リソースのコーディングを検討する。 グラフィカル インターフェイスを使用してパイプラインを設定する場合は、Azure Data Factory の作成および監視ツールがニーズに適しています。 Azure Data Factory には、データ ソースを処理するロー コードまたはノー コードのプロセスが用意されています
  • 複数のデータ ソースのサポートを検討する。 Azure Data Factory では、異種のデータ ソースと統合するために 90 以上のコネクタをサポートしています。
  • サーバーレス インフラストラクチャを検討する。 データ統合のためのフル マネージドのサーバーレス ソリューションを使用することには利点があります。 サーバーを保守、構成、またはデプロイする必要はなく、ワークロードの変動に合わせてスケーリングできます。