Azure Data Factory を使用した Azure Data Lake Storage Gen1 へのデータの読み込み

[アーティクル]
05/15/2024

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

Azure Data Lake Storage Gen1 (旧称 Azure Data Lake Store) は、ビッグデータの分析ワークロードに対応するエンタープライズ規模のハイパースケールリポジトリです。 Azure Data Lake Storage Gen1 では、任意のサイズ、型、および取り込み速度のデータをキャプチャできます。データは、運用分析や調査分析のために 1 か所でキャプチャされます。

Azure Data Factory は、フルマネージドのクラウドベースのデータ統合サービスです。このサービスを使用して、既存のシステムのデータで Azure Data Lake を設定し、分析ソリューションを構築する際の時間を節約できます。

Azure Data Factory には、Data Lake Storage Gen1 にデータを読み込む際に次の利点があります。

簡単なセットアップ: 直感的なウィザードが示す 5 つの手順に従うだけです。スクリプトは必要ありません。
豊富なデータストアのサポート:オンプレミスとクラウドベースのデータストアの豊富なセットに対するサポートが組み込まれています。詳しい一覧については、サポートされるデータストアの表をご覧ください。
セキュリティとコンプライアンスへの準拠:データは HTTPS または ExpressRoute 経由で転送されます。グローバルサービスの存在により、データが地理的な境界を越えることはありません。
ハイパフォーマンス: 最大 1 GB/s の速度で Data Lake Storage Gen1 にデータを読み込みます。詳しくは、コピーアクティビティのパフォーマンスに関する記事をご覧ください。

この記事では、Data Factory のデータのコピーツールを使用して "Amazon S3 から Data Lake Storage Gen1 にデータを読み込む" 方法を示します。その他の種類のデータストアからデータをコピーする場合も、同様の手順で実行できます。

注意

詳しくは、「Copy data to or from Data Lake Storage Gen1 by using Azure Data Factory」(Azure Data Factory を使用した Data Lake Storage Gen1 のデータのコピー) をご覧ください。

前提条件

Azure サブスクリプション:Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。
Data Lake Storage Gen1 アカウント: Data Lake Storage Gen1 アカウントがない場合は、「Data Lake Storage Gen1 アカウントを作成する」の手順を参照してください。
Amazon S3: この記事では、Amazon S3 からデータをコピーする方法を示します。同様の手順に従うことによって、その他のデータストアも使用できます。

Data Factory の作成

データファクトリをまだ作成していない場合は、「クイックスタート: Azure portal と Azure Data Factory Studio を使用してデータファクトリを作成する」の手順に従って作成してください。作成した後、Azure portal 内のデータファクトリに移動します。
[Open Azure Data Factory Studio](Azure Data Factory Studio を開く) タイルで [開く] を選択して、別のタブでデータ統合アプリケーションを起動します。

Data Lake Storage Gen1 にデータを読み込む

ホームページで、 [取り込み] タイルを選択し、データのコピーツールを起動します。
[プロパティ] ページで、 [タスク名] フィールドに「CopyFromAmazonS3ToADLS」と指定し、 [次へ] を選択します。
[ソースデータストア] ページで、[+ 新しい接続の作成] を選択します。

[Amazon S3] を選択し、 [続行] を選択します。
[Amazon S3 接続の指定] ページで、次の手順を実行します。
1. [アクセスキー ID] の値を指定します。
2. [シークレットアクセスキー] の値を指定します。
3. [完了] を選択します。
4. 新しい接続が表示されます。 [次へ] を選択します。
[Choose the input file or folder](入力ファイルまたはフォルダーの選択) ページで、コピーするフォルダーとファイルを参照します。フォルダーまたはファイルを選択し、 [選択] 、 [次へ] の順に選択します。
[Copy files recursively](ファイルを再帰的にコピー) オプションと [バイナリコピー] (ファイルをそのままコピー) オプションをオンにして、コピーの動作を選択します。 [次へ] を選択します。

$[入力ファイルまたはフォルダーの選択] を示すスクリーンショット。ここでは、[Copy file recursively]$ファイルを再帰的にコピー$ と [Binary Copy]$バイナリコピー$ を選択できます。$
[配布先データストア] ページで、[+ 新しい接続の作成] を選択し、[Azure Data Lake Storage Gen1] を選択して、[続行] を選択します。

$[Destination data store]$コピー先データストア$ ページ$
[New Linked Service (Azure Data Lake Storage Gen1)](新しいリンクサービス (Azure Data Lake Storage Gen1)) ページで、次の手順を実行します。
1. [Data Lake Store アカウント名] で、Data Lake Storage Gen1 アカウントを選択します。
2. [テナント] を指定し、[完了] を選択します。
3. [次へ] を選択します。
重要

このチュートリアルでは、Azuure リソースのマネージド ID を使用して、Data Lake Storage Gen1 アカウントを認証します。次の手順に従って、MSI に Data Lake Storage Gen1 のアクセス許可を適切に付与します。
[Choose the output file or folder](出力ファイルまたはフォルダーの選択) ページで、出力フォルダー名として「copyfroms3」と入力し、 [次へ] を選択します。
[設定] ページで [次へ] を選択します。
[サマリー] ページで設定を確認し、 [次へ] を選択します。
[Deployment](デプロイ) ページで [監視] を選択してパイプライン (タスク) を監視します。

$[Deployment]$デプロイ$ ページ$
左側の [監視] タブが自動的に選択されたことがわかります。 [アクション] 列には、アクティビティの実行の詳細を表示するリンクとパイプラインを再実行するリンクが表示されます。
パイプラインの実行に関連付けられているアクティビティの実行を表示するには、 [アクション] 列の [View Activity Runs](アクティビティの実行の表示) リンクを選択します。パイプライン内のアクティビティ (コピーアクティビティ) は 1 つだけなので、エントリは 1 つのみです。パイプラインの実行ビューに戻るには、上部の [パイプライン] リンクを選択します。 [最新の情報に更新] を選択して、一覧を更新します。
各コピーアクティビティの実行状況の詳細を監視するには、アクティビティ監視ビューの [アクション] の下の [詳細] リンクを選択します。ソースからシンクにコピーされるデータの量、データのスループット、実行ステップと対応する期間、使用される構成などの詳細を監視することができます。
データが Data Lake Storage Gen1 アカウントにコピーされたことを確認します。