データのコピー ツールを使用し LastModifiedDate に基づいて新しいファイルおよび変更されたファイルを増分コピーする

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。

このチュートリアルでは、Azure portal を使用してデータ ファクトリを作成します。 次に、データのコピー ツールを使用して、新しいファイルおよび変更されたファイルのみを Azure Blob Storage から Azure Blob Storage に増分的にコピーするパイプラインを作成します。 LastModifiedDate を使用して、どのファイルをコピーするかを決定します。

ここで説明した手順を完了すると Azure Data Factory によってソース ストア内のすべてのファイルがスキャンされ、LastModifiedDate によってファイル フィルターが適用されます。また、新しいファイルまたは前回以降に更新されたファイルのみがコピー先ストアにコピーされます。 Data Factory によって多数のファイルがスキャンされる場合は、継続時間が長くなると予想されることに注意してください。 コピーされるデータ量を減らしても、ファイルのスキャンには時間がかかります。

Note

Data Factory を初めて使用する場合は、「Azure Data Factory の概要」を参照してください。

このチュートリアルでは、以下のタスクを完了します。

  • データ ファクトリを作成します。
  • データのコピー ツールを使用してパイプラインを作成します。
  • パイプラインとアクティビティの実行を監視します。

前提条件

  • Azure サブスクリプション:Azure サブスクリプションをお持ちでない場合は、開始する前に 無料アカウント を作成してください。
  • Microsoft Azure Storage アカウント:Blob ストレージをソースおよびシンク データ ストアとして使用します。 Azure Storage アカウントがない場合は、ストレージ アカウントの作成に関するページの手順に従ってください。

Blob ストレージに 2 つのコンテナーを作成する

次の手順を実行して、チュートリアル用の Blob ストレージを準備します。

  1. source という名前のコンテナーを作成します。 この作業は、Azure Storage Explorer などのさまざまなツールを使用して実行できます。

  2. destination という名前のコンテナーを作成します。

Data Factory の作成

  1. 左側のウィンドウで、 [リソースの作成] を選びます。 [統合]>[Data Factory] を選択します。

    Select Data Factory

  2. [新しいデータ ファクトリ] ページで、 [名前] に「ADFTutorialDataFactory」と入力します。

    データ ファクトリの名前はグローバルに一意にする必要があります。 このエラー メッセージが表示されることもあります。

    New data factory error message for duplicate name.

    データ ファクトリの名前の値に関するエラー メッセージが表示された場合は、別の名前を入力してください。 たとえば、yournameADFTutorialDataFactory という名前を使用します。 Data Factory アーティファクトの名前付け規則については、Data Factory の名前付け規則に関する記事をご覧ください。

  3. [サブスクリプション] で、新しいデータ ファクトリの作成先となる Azure サブスクリプションを選択します。

  4. [リソース グループ] で、次の手順のいずれかを行います。

    • [既存のものを使用] を選択し、一覧から既存のリソース グループを選択します。

    • [新規作成] を選択し、リソース グループの名前を入力します。

    リソース グループの詳細については、リソース グループを使用した Azure のリソースの管理に関するページを参照してください。

  5. [バージョン] で、 [V2] を選択します。

  6. [場所] で、データ ファクトリの場所を選択します。 サポートされている場所のみがこの一覧に表示されます。 データ ファクトリで使用されるデータ ストア (Azure Storage、Azure SQL Database など) やコンピューティング (Azure HDInsight など) は、他の場所やリージョンに存在していてもかまいません。

  7. [作成] を選択します

  8. データ ファクトリが作成されるとデータ ファクトリのホーム ページが表示されます。

  9. 別のタブで Azure Data Factory のユーザー インターフェイス (UI) を開くには、 [Open Azure Data Factory Studio]\(Azure Data Factory Studio を開く\) タイルで [開く] を選択します。

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

データのコピー ツールを使用してパイプラインを作成する

  1. Azure Data Factory のホーム ページで [取り込む] タイルを選択して、データ コピー ツールを開きます。

    Screenshot that shows the ADF home page.

  2. [プロパティ] ページで、次の手順を行います。

    1. [タスクの種類][Built-in copy task]\(組み込みコピー タスク\) を選択します。

    2. [Task cadence or task schedule]\(タスクの周期またはタスクのスケジュール\) で、 [Tumbling window]\(タンブリング ウィンドウ\) を選択します。

    3. [Recurrence]\(繰り返し\) で、15 分と指定します。

    4. [次へ] を選択します。

    Copy data properties page

  3. [ソース データ ストア] ページで、次の手順を実行します。

    1. [+ 新しい接続] を選択して、接続を追加します。

    2. ギャラリーから [Azure Blob Storage] を選び、 [続行] を選択します。

      Select Azure Blog Storage

    3. [新しい接続 (Azure Blob Storage)] ページで、 [Azure サブスクリプション] の一覧から自分の Azure サブスクリプションを選択し、 [ストレージ アカウント名] の一覧から自分のストレージ アカウントを選択します。 接続をテストし、 [作成] を選択します。

    4. [接続] ブロックで新しく作成した接続を選択します。

    5. [ファイルまたはフォルダー] セクションで、 [参照] を選択して source フォルダーを選択し、 [OK] を選択します。

    6. [File loading behavior]\(ファイル読み込み動作\) で、 [Incremental load: LastModifiedDate]\(増分読み込み: LastModifiedDate\) を選択して、 [Binary copy]\(バイナリ コピー\) を選択します。

    7. [次へ] を選択します。

    Screenshot that shows the 'Source data store' page.

  4. [Destination data store]\(コピー先データ ストア\) ページで、次の手順のようにします。

    1. 作成した AzureBlobStorage 接続を選択します。 これは、コピー元データ ストアと同じストレージ アカウントです。

    2. [フォルダー パス] セクションで、destination フォルダーを見つけて選択し、 [OK] を選択します。

    3. [次へ] を選択します。

    Screenshot that shows the 'Destination data store' page.

  5. [設定] ページの [タスク名] に「DeltaCopyFromBlobPipeline」と入力し、 [次へ] を選択します。 指定したタスク名のパイプラインが Data Factory によって作成されます。

    Screenshot that shows the Settings page.

  6. [Summary]\(概要\) ページで設定を確認し、 [次へ] を選択します。

    Summary page

  7. [Deployment]\(デプロイ\) ページで [監視] を選択してパイプライン (タスク) を監視します。

    Deployment page

  8. 左側の [監視] タブが自動的に選択されたことがわかります。 アプリケーションの [監視] タブに切り替えます。パイプラインの状態が表示されます。 [最新の情報に更新] を選択して、一覧を更新します。 [パイプライン名] の下にあるリンクを選択して、アクティビティの実行の詳細を表示するか、パイプラインを再実行します。

    Refresh the list and view activity run details

  9. パイプラインにはアクティビティ (コピー アクティビティ) が 1 つしかないため、エントリが 1 つだけ表示されます。 コピー操作の詳細を確認するには、 [アクティビティの実行] ページで、 [アクティビティ名] 列の [詳細] リンク (眼鏡アイコン) を選択します。 プロパティの詳細については、コピー アクティビティの概要に関するページを参照してください。

    Copy activity in the pipeline

    BLOB ストレージ アカウントの source コンテナーにはファイルがないので、そのアカウントの destination コンテナーにコピーされたファイルは表示されません。

    No files in source container or destination container

  10. 空のテキスト ファイルを作成し、file1.txt という名前を付けます。 このテキスト ファイルを、ストレージ アカウントの source コンテナーにアップロードします。 この作業は、Azure Storage Explorer をはじめとするさまざまなツールを使用して実行できます。

    Create file1.txt and upload it to the source container

  11. [パイプラインの実行] ビューに戻るには、 [アクティビティの実行] ページの階層リンク メニューで [すべてのパイプラインの実行] を選択し、同じパイプラインが再び自動的にトリガーされるまで待ちます。

  12. 2 番目のパイプラインの実行が完了したら、前述と同じ手順に従って、アクティビティの実行の詳細を確認します。

    BLOB ストレージ アカウントの source コンテナーから destination コンテナーに 1 つのファイル (file1.txt) がコピーされたことが表示されます。

    file1.txt has been copied from the source container to the destination container

  13. 空のテキスト ファイルをもう 1 つ作成し、file2.txt という名前を付けます。 このテキスト ファイルを BLOB ストレージ アカウントの source コンテナーにアップロードします。

  14. 2 つ目のテキスト ファイルに対してステップ 11 と 12 を繰り返します。 このパイプライン実行中に、ストレージ アカウントの source コンテナーから destination コンテナーに新しいファイル (file2.txt) だけがコピーされたことがわかります。

    Azure Storage Explorer を使用してファイルをスキャンすることにより、1 つのファイルだけがコピーされたことを確認することもできます。

    Scan files by using Azure Storage Explorer

次のチュートリアルに進み、Azure 上の Apache Spark クラスターを使ってデータを変換する方法を学習します。