Azure Data Factory を使用して Azure Data Lake Storage Gen2 にデータを読み込む

2025-02-13

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

Azure Data Lake Storage Gen2 は、ビッグデータ分析専用の機能セットであり、Azure Blob Storageに組み込まれます。ファイルシステムとオブジェクトストレージの両方のパラダイムを使用して、データと連携させることができます。

Azure Data Factory (ADF) は、フルマネージドのクラウドベースデータ統合サービスです。このサービスを使用して、オンプレミスとクラウドベースのデータストアの豊富なセットからのデータをレイクに入力し、分析ソリューションをビルドする際の時間を節約できます。サポートされるコネクタの詳細な一覧については、サポートされるデータストアの表をご覧ください。

Azure Data Factory では、スケールアウトしたマネージドデータ移動ソリューションを提供しています。 ADF のスケールアウトアーキテクチャにより、高スループットでデータを取り込むことができます。詳しくは、コピーアクティビティのパフォーマンスに関する記事をご覧ください。

この記事では、Data Factory のデータのコピーツールを使用して "アマゾンウェブサービスの S3 サービス" から Azure Data Lake Storage Gen2 にデータを読み込む方法を示します。その他の種類のデータストアからデータをコピーする場合も、同様の手順で実行できます。

ヒント

Azure Data Lake Storage Gen1 から Gen2 へのデータのコピーについては、こちらのチュートリアルを参照してください。

前提条件

Azure サブスクリプション:Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。
Data Lake Storage Gen2 が有効な Azure Storage アカウント:ストレージアカウントがない場合、作成します。
データが含まれる S3 バケットを持つ AWS アカウント:この記事では、Amazon S3 からデータをコピーする方法を示します。同様の手順に従うことによって、その他のデータストアも使用できます。

Data Factory の作成

データファクトリをまだ作成していない場合は、「クイックスタート: Azure portal と Azure Data Factory Studio を使用してデータファクトリを作成する」の手順に従って作成してください。作成した後、Azure portal 内のデータファクトリに移動します。
[Open Azure Data Factory Studio](Azure Data Factory Studio を開く) タイルで [開く] を選択して、別のタブでデータ統合アプリケーションを起動します。

Azure Data Lake Storage Gen2 にデータを読み込む

Azure Data Factory のホームページで、 [取り込み] タイルを選択し、データのコピーツールを起動します。
[プロパティ] ページで、 [タスクの種類] の [Built-in copy task](組み込みコピータスク) を選択して、 [Task cadence or task schedule](タスクの周期またはタスクのスケジュール) の [Run once now](今すぐ 1 度だけ実行する) を選択し、 [次へ] を選択します。
[ソースデータストア] ページで、次の手順を実行します。
1. [+ 新しい接続] を選択します。コネクタギャラリーから [Amazon S3] を選択し、 [続行] を選択します。
2. [New connection (Amazon S3)](新しい接続 (Amazon S3)) ページで、次の手順のようにします。
  1. [アクセスキー ID] の値を指定します。
  2. [シークレットアクセスキー] の値を指定します。
  3. [テスト接続] を選択して設定を検証し、 [作成] を選択します。
3. [ソースデータストア] ページで、新しく作成した Amazon S3 接続が、 [接続] ブロックで選択されていることを確認します。
4. [ファイルまたはフォルダー] セクションで、コピーするフォルダーとファイルを参照します。フォルダーまたはファイルを選択して、 [OK] を選択します。
5. [再帰的] オプションと [バイナリコピー] オプションをオンにすることで、コピーの動作を指定します。 [次へ] を選択します。
[Destination data store](コピー先データストア) ページで、次の手順のようにします。
1. [+ 新しい接続] を選択し、 [Azure Data Lake Storage Gen2] を選択して、 [続行] を選択します。
  
  $[Destination data store]$コピー先データストア$ ページ$
2. [新しい接続 (Azure Data Lake Storage Gen2)] ページで、[ストレージアカウント名] ドロップダウンの一覧から Data Lake Storage Gen2 対応のアカウントを選択し、 [作成] を選択して接続を作成します。
3. [Destination data store](コピー先データストア) ページの [接続] ブロックで、新しく作成した接続を選択します。 [フォルダーパス] で、出力フォルダー名として「copyfroms3」と入力し、 [次へ] を選択します。対応する ADLS Gen2 ファイルシステムとサブフォルダーが存在しない場合は、コピー中に ADF によって作成されます。
  
  $[Destination data store]$コピー先データストア$ ページを示すスクリーンショット。$
[設定] ページで、 [タスク名] フィールドに「CopyFromAmazonS3ToADLS」と指定し、 [次へ] を選択して既定の設定を使用します。
[サマリー] ページで設定を確認し、 [次へ] を選択します。
[Deployment](デプロイ) ページで [監視] を選択してパイプライン (タスク) を監視します。
パイプラインの実行が正常に完了すると、手動トリガーによってトリガーされたパイプラインの実行が表示されます。 [パイプライン名] 列のリンクを使用して、アクティビティの詳細を表示したりパイプラインを再実行したりできます。
パイプラインの実行に関連付けられているアクティビティの実行を表示するには、 [パイプライン名] 列の CopyFromAmazonS3ToADLS リンクを選択します。コピー操作の詳細を確認するには、 [アクティビティ名] 列の [詳細] リンク (眼鏡アイコン) を選択します。ソースからシンクにコピーされるデータのボリューム、データのスループット、実行ステップと対応する期間、使用される構成などの詳細を監視できます。
表示を更新するには、 [最新の情報に更新] を選択します。 [パイプラインの実行] ビューに戻るには、一番上にある [すべてのパイプラインの実行] を選択します。
データが Data Lake Storage Gen2 アカウントにコピーされたことを確認します。