ソース データ ストアからターゲット データ ストアにデータを増分読み込みする

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。

データ統合ソリューションでは、初回のフル データ読み込みの後、増分 (または差分) データを読み込む手法が広く利用されています。 このセクションの各チュートリアルでは、Azure Data Factory を使用して、データを増分読み込みするさまざまな方法を紹介しています。

基準値を使用してデータベースから差分データを読み込む

このケースでは、ソース データベースにおける基準値を定義します。 基準値とは、最終更新タイムスタンプやインクリメントされるキーを格納する列のことです。 差分読み込みソリューションでは、古い基準値から新しい基準値までの間に生じた変更済みのデータが読み込まれます。 このアプローチのワークフローを表したのが次の図です。

Workflow for using a watermark

具体的な手順については、次のチュートリアルを参照してください。

テンプレートについては、以下を参照してください。

Change Tracking テクノロジを使用して SQL DB から差分データを読み込む

Change Tracking テクノロジは、SQL Server と Azure SQL Database において、アプリケーションのための効率的な変更追跡メカニズムとなる軽量ソリューションです。 挿入、更新、削除されたデータをアプリケーションから簡単に特定することができます。

このアプローチのワークフローを表したのが次の図です。

Workflow for using Change Tracking

詳細な手順については、次のチュートリアルを参照してください。

LastModifiedDate を使用して新しいファイルと変更済みのファイルを読み込む

LastModifiedDate を使用して、新しいファイルと変更されたファイルのみをターゲット ストアにコピーすることができます。 ADF はソース ストアのすべてのファイルをスキャンし、LastModifiedDate に基づいてファイル フィルターを適用して、前回以降の新しいファイルと更新されたファイルのみをターゲット ストアにコピーします。 ADF で大量のファイルをスキャンするが、数個のファイルしかコピー先にコピーしない場合、ファイルのスキャン プロセスがあるため、やはり長い時間がかかることに注意してください。

詳細な手順については、次のチュートリアルを参照してください。

テンプレートについては、以下を参照してください。

時間でパーティション分割されたフォルダーまたはファイルの名前を使用して新しいファイルを読み込む

ファイルまたはフォルダーが時間 (ファイル名またはフォルダー名に含まれるタイムスライス情報) でパーティション分割されているときに (例: /yyyy/mm/dd/file.csv)、新しいファイルのみをコピーすることができます。 これは、新しいファイルを増分読み込みする場合に最も効率のよいアプローチです。

詳細な手順については、次のチュートリアルを参照してください。

次のチュートリアルに進みます。