抽出、変換、読み込み (ETL)

Azure Synapse Analytics

Azure Data Factory

組織が直面する一般的な問題は、複数のソースから複数の形式でデータを収集する方法です。その後で、1 つまたは複数のデータストアに移動する必要があります。コピー先のデータストアの種類が、ソースと同じではない可能性があります。多くの場合、形式が異なるか、最終的な保存先に読み込む前にデータを整形またはクリーニングする必要があります。

こうした課題に対処するために、長年にわたってさまざまなツール、サービス、プロセスが開発されてきました。使用するプロセスに関係なく、データパイプライン内で作業を調整し、一定レベルのデータ変換を適用するという共通のニーズがあります。以下のセクションでは、これらのタスクを実行するために使用する一般的な手法に注目します。

ETL (抽出、変換、読み込み) プロセス

ETL (抽出、変換、読み込み) は、さまざまなソースからデータを収集するために使用されるデータパイプラインです。その後で、ビジネスルールに従ってデータを変換し、データを宛先のデータストアに読み込みます。 ETL の変換作業は特殊なエンジンで行われ、多くの場合、変換されて最終的に宛先に読み込まれるデータの一時的な保持にステージングテーブルを使用します。

ETL (抽出、変換、読み込み) プロセスの図。

通常、実行されるデータ変換には、フィルター処理、並べ替え、集計、データの結合、データのクリーニング、重複除去、データの検証などのさまざまな操作が含まれます。

多くの場合、時間を節約するために 3 つの ETL フェーズが並列に実行されます。たとえば、データが抽出されている間、変換プロセスは既に受信したデータを操作して読み込みの準備を行うことができ、読み込みプロセスは抽出プロセス全体が完了するまで待たずに準備されたデータの処理を開始できます。

ELT (抽出、読み込み、変換)

ELT (抽出、読み込み、変換) が ETL と異なる点は、変換がどこで行われるかという点だけです。 ELT パイプラインでは、変換はターゲットデータストアで行われます。独立した変換エンジンを使用する代わりに、ターゲットデータストアの処理機能がデータ変換に使用されます。これにより、パイプラインから変換エンジンが除去されるためアーキテクチャがシンプルになります。このアプローチのもう 1 つの利点は、ターゲットデータストアをスケーリングすると ELT パイプラインのパフォーマンスもスケーリングされることです。ただし、ELT が効果的に機能するのは、ターゲットシステムが十分に強力でデータを効率的に変換できる場合だけです。

ELT (抽出、読み込み、変換) プロセスの図。

ELT の一般的なユースケースは、ビッグデータ領域に分類されます。たとえば、Hadoop 分散ファイルシステム、Azure BLOB ストア、Azure Data Lake Gen 2 (またはその組み合わせ) などの、スケーラブルなストレージのフラットファイルにすべてのソースデータを抽出することから始めることができます。 Spark、Hive、PolyBase などのテクノロジを使用して、ソースデータのクエリを実行できます。 ELT で重要な点は、変換を実行するために使用するデータストアと、データが最終的に使用されるデータストアが同じであることです。このデータストアは、専用ストレージにデータを読み込むのではなく、スケーラブルなストレージから直接読み取ります。このアプローチは、大規模なデータセットでは時間がかかる操作になることが多い ETL のデータコピーステップをスキップします。

実際には、ターゲットデータストアは、Hadoop クラスター (Hive または Spark を使用) または Azure Synapse Analytics 上の SQL 専用プールのいずれかを使用するデータウェアハウスです。一般に、スキーマはクエリ時にフラットファイルデータにオーバーレイされ、テーブルとして格納されるので、データストア内の他のテーブルと同じようにデータのクエリを実行できます。これらは、データがデータストア自体によって管理されるストレージに存在せず、Azure Data Lake Store または Azure BLOB ストレージなどの外部のスケーラブルなストレージに存在するため、外部テーブルと呼ばれます。

データストアでは、データのスキーマのみが管理され、読み取り時にスキーマが適用されます。たとえば、Hive を使用した Hadoop クラスターでは、データソースが実質的に HDFS のファイルセットへのパスである Hive テーブルが記述されます。 Synapse Analytics では、PolyBase で同じ結果を得ることができます。つまり、データベースの外部に格納されるデータに対してテーブルが作成されます。ソースデータが読み込まれると、データストアの機能を使用して外部テーブル内のデータを処理できます。このため、ビッグデータのシナリオでは、データストアが超並列処理 (MPP) に対応している必要があります。超並列処理では、データが小さなチャンクに分割され、複数のノード間でチャンクの処理が並列に分散されます。

通常、ELT パイプラインの最後のフェーズでは、サポートする必要があるクエリの種類に対してより効率的な最終形式にソースデータを変換します。たとえば、データがパーティション分割されることがあります。また ELT では、行指向型データを列形式で格納してインデックス作成を最適化する Parquet などの最適化されたストレージ形式を使用できます。

データフローと制御フロー

データパイプラインのコンテキストでは、制御フローは一連のタスクが適切な順序で処理されるようにします。これらのタスクの適切な処理順序を適用するために、優先順位制約が使用されます。次のイメージに示すように、これらの制約はワークフロー図のコネクタとして考えることができます。各タスクには、成功、失敗、完了などの結果があります。後続タスクは、先行タスクがこれらの結果のいずれかで完了するまで処理を開始しません。

制御フローは、データフローをタスクとして実行します。データフロータスクでは、データはソースから抽出、変換、またはデータストアに読み込まれます。 1 つのデータフロータスクの出力を次のデータフロータスクへの入力にすることができ、データフローを並列で実行できます。制御フローとは異なり、データフロー内のタスク間に制約を追加することはできません。ただし、データビューアーを追加して、各タスクによって処理されるデータを監視できます。

制御フロー内でタスクとして実行されるデータフローの図

上の図では、制御フロー内に複数のタスクがあり、その 1 つはデータフロータスクです。タスクの 1 つはコンテナー内で入れ子になっています。コンテナーを使用してタスクに構造体を提供し、作業ユニットを提供できます。このような例の 1 つは、フォルダー内のファイルやデータベースステートメントなど、コレクション内の要素を繰り返す場合です。

テクノロジの選択

次のステップ

次の参照アーキテクチャでは、Azure でのエンドツーエンド ELT のパイプラインを示します。

次の方法で共有

抽出、変換、読み込み (ETL)

ETL (抽出、変換、読み込み) プロセス

ELT (抽出、読み込み、変換)

データフローと制御フロー

テクノロジの選択

次のステップ

フィードバック

フィードバック

その他のリソース

次の方法で共有

抽出、変換、読み込み (ETL)

ETL (抽出、変換、読み込み) プロセス

ELT (抽出、読み込み、変換)

データ フローと制御フロー

テクノロジの選択

次のステップ

関連リソース

フィードバック

フィードバック

その他のリソース

データフローと制御フロー