データ統合パターンを説明する

完了

Microsoft Azure には、さまざまな種類の分析を実行できるさまざまなデータ プラットフォーム サービスが用意されています。 データ ウェアハウスの記述的分析ソリューションから、HDInsight、Azure Databricks、または Machine Learning Services 内の予測分析までそろっています。 データ統合の重要な側面に対応するサービスが必要です。

データ統合には、最初に 1 つ以上のソースのデータ コレクションが含まれています。 オプションとして、通常、その後にデータをクレンジングして変換するプロセスや、追加のデータを使用して拡張し、準備するプロセスがあります。 最後に、統合されたデータは、実行する分析の種類を処理するデータ プラットフォーム サービスに格納されます。 このプロセスは、Azure Data Factory を使用して、抽出、変換、読み込み (ETL) と呼ばれるパターンで自動化することができます。

抽出

抽出プロセス中に、データ エンジニアはデータとそのソースを定義します。

  • データ ソースを定義する:リソース グループ、サブスクリプション、キーやシークレットなどの ID 情報など、ソースの詳細を明らかにします。

  • データを定義する:抽出するデータを特定します。 データベース クエリ、ファイルのセット、または BLOB ストレージの Azure Blob Storage 名を使用して、データを定義します。

変換

  • データ変換を定義する:データ変換操作には、分割、結合、派生、追加、削除、列のピボットなどが含まれる可能性があります。 データ ソースとデータ変換先の間でフィールドをマップします。 データを集計または結合する必要がある場合もあります。

読み込み

  • 読み込み先を定義する:読み込み時に、Azure の多くの読み込み先では、JavaScript Object Notation (JSON)、ファイル、または BLOB として書式設定されたデータを受け入れることができます。 アプリケーション API とやり取りするコードを記述する必要がある場合があります。

    Azure Data Factory では、Azure Functions の組み込みサポートが提供されます。 Node.js、.NET、Python、Java など、多くのプログラミング言語のサポートを見つけることもできます。 かつては拡張マークアップ言語 (XML) が一般的でしたが、ほとんどのシステムでは、半構造化データ型で柔軟性のある JSON に移行しています。

  • ジョブを開始する:開発環境またはテスト環境で ETL ジョブをテストします。 その後、ジョブを運用環境に移行し、運用システムを読み込みます。

  • ジョブを監視する:ETL 操作には、多くの複雑なプロセスが含まれる場合があります。 事前対応と事後対応の監視システムを設定し、問題が発生した場合に情報を提供するようにします。 ログは、それを使用するテクノロジに応じて設定します。

ETL ツール

データ エンジニアの場合、ETL に使用できるツールがいくつかあります。 Azure Data Factory には、コードを使用しないユーザーとコードベースのユーザーの両方に対してデータの移動と変換のニーズを満たすために、100 個近くのエンタープライズ コネクタと堅牢なリソースが用意されています。

ETL からの進化

Azure によって、無制限のスケールで非構造化データを処理できるテクノロジの道が開かれました。 この変更に伴い、データの読み取りと変換のパラダイムが ETL から、抽出、読み込み、変換 (ELT) にシフトされました。

ELT の利点は、元の形式 (JSON、XML、PDF、またはイメージ) でデータを格納できることです。 ELT では、変換フェーズ時にデータの構造を定義するため、複数のダウンストリーム システムでソース データを使用できます。

ELT プロセスでは、データが抽出され、そのネイティブ形式で読み込まれます。 この変更により、データを読み込み先のシステムに読み込むのに要する時間が短縮されます。 また、変更によって、データ ソースでのソース競合も制限されます。

ELT プロセスの手順は、ETL プロセスの場合と同じです。 単に従う順序が異なるだけです。

ELT のような別のプロセスは、抽出、読み込み、変換、読み込み (ELTL) と呼ばれます。 ELTL との違いは、読み込み先システムへの最終的な読み込みがあることです。

Azure Data Factory でサポートできるデータ統合パターンには 2 つの一般的な種類があります。

最新のデータ ウェアハウスのワークロード:

最新のデータ ウェアハウスは一元化されたデータ ストアです。構造化、非構造化、またはストリーミングのデータ ソースを使用して、エンタープライズ全体で記述的分析と意思決定支援のサービスが提供されています。 複数のトランザクション システム、リレーショナル データベース、およびその他のデータ ソースから定期的にデータがウェアハウスに送られます。 格納されたデータは、履歴と傾向の分析レポートの作成に使用されます。 データ ウェアハウスは多数のサブジェクト領域の中央リポジトリとして機能し、"単一の信頼できる情報源" が含まれています。

Azure Data Factory は、通常、構造化データソースと非構造化データソースに対してバッチ プロセスでデータを抽出、変換、読み込みを行うプロセスを自動化するために使用されます。

高度な分析のワークロード

さまざまな Azure データ プラットフォーム サービスを使用して、予測分析またはプリエンプティブ分析の形式で高度な分析を実行できます。 Azure Data Factory を使用すると、ソース システムから Data Lake ストアに統合できます。また、Azure Databricks や HDInsight などのコンピューティング リソースを開始し、そのデータを使用して高度な分析作業を実行できます。