Azure Data Factory を使用した Azure Data Lake Storage Gen1 へのデータの読み込み

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。

Azure Data Lake Storage Gen1 (旧称 Azure Data Lake Store) は、ビッグ データの分析ワークロードに対応するエンタープライズ規模のハイパースケール リポジトリです。 Azure Data Lake Storage Gen1 では、任意のサイズ、型、および取り込み速度のデータをキャプチャできます。 データは、運用分析や調査分析のために 1 か所でキャプチャされます。

Azure Data Factory は、フル マネージドのクラウドベースのデータ統合サービスです。 このサービスを使用して、既存のシステムのデータで Azure Data Lake を設定し、分析ソリューションを構築する際の時間を節約できます。

Azure Data Factory には、Data Lake Storage Gen1 にデータを読み込む際に次の利点があります。

  • 簡単なセットアップ: 直感的なウィザードが示す 5 つの手順に従うだけです。スクリプトは必要ありません。
  • 豊富なデータ ストアのサポート:オンプレミスとクラウドベースのデータ ストアの豊富なセットに対するサポートが組み込まれています。 詳しい一覧については、サポートされるデータ ストアの表をご覧ください。
  • セキュリティとコンプライアンスへの準拠:データは HTTPS または ExpressRoute 経由で転送されます。 グローバル サービスの存在により、データが地理的な境界を越えることはありません。
  • ハイ パフォーマンス: 最大 1 GB/s の速度で Data Lake Storage Gen1 にデータを読み込みます。 詳しくは、コピー アクティビティのパフォーマンスに関する記事をご覧ください。

この記事では、Data Factory のデータのコピー ツールを使用して "Amazon S3 から Data Lake Storage Gen1 にデータを読み込む" 方法を示します。 その他の種類のデータ ストアからデータをコピーする場合も、同様の手順で実行できます。

注意

詳しくは、「Copy data to or from Data Lake Storage Gen1 by using Azure Data Factory」(Azure Data Factory を使用した Data Lake Storage Gen1 のデータのコピー) をご覧ください。

前提条件

  • Azure サブスクリプション:Azure サブスクリプションをお持ちでない場合は、開始する前に 無料アカウント を作成してください。
  • Data Lake Storage Gen1 アカウント: Data Lake Storage Gen1 アカウントがない場合は、「Data Lake Storage Gen1 アカウントを作成する」の手順を参照してください。
  • Amazon S3: この記事では、Amazon S3 からデータをコピーする方法を示します。 同様の手順に従うことによって、その他のデータ ストアも使用できます。

Data Factory の作成

  1. データ ファクトリをまだ作成していない場合は、「クイック スタート: Azure portal と Azure Data Factory Studio を使用してデータ ファクトリを作成する」の手順に従って作成してください。 作成した後、Azure portal 内のデータ ファクトリに移動します。

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. [Open Azure Data Factory Studio](Azure Data Factory Studio を開く) タイルで [開く] を選択して、別のタブでデータ統合アプリケーションを起動します。

Data Lake Storage Gen1 にデータを読み込む

  1. ホーム ページで、 [取り込み] タイルを選択し、データのコピー ツールを起動します。

    Screenshot that shows the ADF home page.

  2. [プロパティ] ページで、 [タスク名] フィールドに「CopyFromAmazonS3ToADLS」と指定し、 [次へ] を選択します。

    Properties page

  3. [ソース データ ストア] ページで、[+ 新しい接続の作成] を選択します。

    Source data store page

    [Amazon S3] を選択し、 [続行] を選択します。

    Source data store s3 page

  4. [Amazon S3 接続の指定] ページで、次の手順を実行します。

    1. [アクセス キー ID] の値を指定します。

    2. [シークレット アクセス キー] の値を指定します。

    3. [完了] を選択します。

      Screenshot shows the New Linked Service pane where you can enter values.

    4. 新しい接続が表示されます。 [次へ] を選択します。

    Screenshot shows your new connection.

  5. [Choose the input file or folder](入力ファイルまたはフォルダーの選択) ページで、コピーするフォルダーとファイルを参照します。 フォルダーまたはファイルを選択し、 [選択][次へ] の順に選択します。

    Choose input file or folder

  6. [Copy files recursively](ファイルを再帰的にコピー) オプションと [バイナリ コピー] (ファイルをそのままコピー) オプションをオンにして、コピーの動作を選択します。 [次へ] を選択します。

    Screenshot shows the Choose the input file or folder where you can select Copy file recursively and Binary Copy.

  7. [配布先データ ストア] ページで、[+ 新しい接続の作成] を選択し、[Azure Data Lake Storage Gen1] を選択して、[続行] を選択します。

    Destination data store page

  8. [New Linked Service (Azure Data Lake Storage Gen1)](新しいリンク サービス (Azure Data Lake Storage Gen1)) ページで、次の手順を実行します。

    1. [Data Lake Store アカウント名] で、Data Lake Storage Gen1 アカウントを選択します。
    2. [テナント] を指定し、[完了] を選択します。
    3. [次へ] を選択します。

    重要

    このチュートリアルでは、Azuure リソースのマネージド ID を使用して、Data Lake Storage Gen1 アカウントを認証します。 次の手順に従って、MSI に Data Lake Storage Gen1 のアクセス許可を適切に付与します。

    Specify Data Lake Storage Gen1 account

  9. [Choose the output file or folder](出力ファイルまたはフォルダーの選択) ページで、出力フォルダー名として「copyfroms3」と入力し、 [次へ] を選択します。

    Screenshot shows the folder path you enter.

  10. [設定] ページで [次へ] を選択します。

    Settings page

  11. [サマリー] ページで設定を確認し、 [次へ] を選択します。

    Summary page

  12. [Deployment](デプロイ) ページで [監視] を選択してパイプライン (タスク) を監視します。

    Deployment page

  13. 左側の [監視] タブが自動的に選択されたことがわかります。 [アクション] 列には、アクティビティの実行の詳細を表示するリンクとパイプラインを再実行するリンクが表示されます。

    Monitor pipeline runs

  14. パイプラインの実行に関連付けられているアクティビティの実行を表示するには、 [アクション] 列の [View Activity Runs](アクティビティの実行の表示) リンクを選択します。 パイプライン内のアクティビティ (コピー アクティビティ) は 1 つだけなので、エントリは 1 つのみです。 パイプラインの実行ビューに戻るには、上部の [パイプライン] リンクを選択します。 [最新の情報に更新] を選択して、一覧を更新します。

    Monitor activity runs

  15. 各コピー アクティビティの実行状況の詳細を監視するには、アクティビティ監視ビューの [アクション] の下の [詳細] リンクを選択します。 ソースからシンクにコピーされるデータの量、データのスループット、実行ステップと対応する期間、使用される構成などの詳細を監視することができます。

    Monitor activity run details

  16. データが Data Lake Storage Gen1 アカウントにコピーされたことを確認します。

    Verify Data Lake Storage Gen1 output

次の資料に進んで、Data Lake Storage Gen1 のサポートを確認します。