Azure Data Lake Storage Gen2 にデータを取り込む
この記事では、Azure Synapse Analytics を使用して Azure Data Lake Gen 2 (Azure Data Lake Gen 2) ストレージ アカウント内のある場所から別の場所にデータを取り込む方法について説明します。
- Azure サブスクリプション:Azure サブスクリプションをお持ちでない場合は、開始する前に無料の Azure アカウントを作成してください。
- Microsoft Azure Storage アカウント:"ソース" データ ストアとして Azure Data Lake Gen 2 を使用します。 ストレージ アカウントがない場合の作成手順については、「Azure Storage アカウントの作成」を参照してください。
Azure Synapse Analytics で、リンクされたサービスとは、他のサービスへの接続情報を定義した場所です。 このセクションでは、リンクされたサービスとして Azure Synapse Analytics と Azure Data Lake Gen 2 を追加します。
- Azure Synapse Analytics UX を開き、 [管理] タブに移動します。
- [外部接続] で、 [リンクされたサービス] を選択します。
- リンクされたサービスを追加するには、 [新規] を選択します。
- リストから [Azure Data Lake Storage Gen2] タイルを選択し、 [続行] を選択します。
- ご利用の認証資格情報を入力します。 アカウント キー、サービス プリンシパル、およびマネージド ID が現在サポートされている認証の種類です。 [テスト接続] を選択して、ご利用の資格情報が正しいことを確認します。
- 入力し終えたら [作成] を選択します。
パイプラインには、一連のアクティビティを実行するための論理フローが含まれています。 このセクションでは、Azure Data Lake Gen 2 から専用 SQL プールにデータを取り込むコピー アクティビティを含んだパイプラインを作成します。
- [調整] タブに移動します。パイプライン ヘッダーの横にある正符号アイコンを選択し、 [パイプライン] を選択します。
- アクティビティ ウィンドウの [Move and Transform]\(移動と変換\) で、 [データ コピー] をパイプライン キャンバス上にドラッグします。
- [コピー アクティビティ] を選択し、 [ソース] タブに移動します。 [新規] を選択して、新しいソース データセットを作成します。
- 使用するデータ ストアとして、[Azure Data Lake Storage Gen2] を選択し、[続行] を選択します。
- 使用する形式として [DelimitedText] を選択し、[続行] を選択します。
- [プロパティの設定] ウィンドウで、作成した ADLS のリンクされたサービスを選択します。 使用するソース データのファイル パスを指定し、最初の行にヘッダーを含めるかどうかを指定します。 ファイル ストアまたはサンプル ファイルからスキーマをインポートできます。 終わったら [OK] を選択します。
- [シンク] タブに移動します。 [新規] を選択して、新しいシンク データセットを作成します。
- 使用するデータ ストアとして、[Azure Data Lake Storage Gen2] を選択し、[続行] を選択します。
- 使用する形式として [DelimitedText] を選択し、[続行] を選択します。
- [プロパティの設定] ウィンドウで、作成した ADLS のリンクされたサービスを選択します。 データを書き込むフォルダーのパスを指定します。 終わったら [OK] を選択します。
パイプラインの構成が完了したら、成果物を発行する前にデバッグを実行することで、すべてが正しいことを確認できます。
- パイプラインをデバッグするには、ツール バーで [デバッグ] を選択します。 ウィンドウ下部の [出力] タブにパイプラインの実行の状態が表示されます。
- パイプラインを適切に実行できたら、上部のツール バーで [すべて発行] を選択します。 この操作により、作成したエンティティ (データセットとパイプライン) が Synapse Analytics サービスに発行されます。
- [正常に発行されました] というメッセージが表示されるまで待機します。 通知メッセージを表示するには、右上にあるベル ボタンを選択します。
この手順では、前の手順で発行したパイプラインを手動でトリガーします。
- ツール バーの [トリガーの追加] を選択し、 [Trigger Now]\(今すぐトリガー\) を選択します。 [Pipeline Run]\(パイプラインの実行\) ページで [完了] を選択します。
- 左側のサイドバーにある [監視] タブに移動します。 手動トリガーによってトリガーされたパイプラインの実行が表示されます。 [アクション] 列のリンクを使用して、アクティビティの詳細を表示したりパイプラインを再実行したりできます。
- パイプラインの実行に関連付けられているアクティビティの実行を表示するには、 [アクション] 列の [View Activity Runs]\(アクティビティの実行の表示\) リンクを選択します。 この例では、アクティビティが 1 つだけなので、一覧に表示されるエントリは 1 つのみです。 コピー操作の詳細を確認するために、 [アクション] 列にある [詳細] リンク (眼鏡アイコン) を選択します。 再度パイプラインの実行ビューに移動するには、一番上にある [Pipeline Runs]\(パイプラインの実行\) を選択します。 表示を更新するには、 [最新の情報に更新] を選択します。
- データが専用 SQL プールに正しく書き込まれていることを確認します。
Azure Synapse Analytics のデータ統合の詳細については、専用 SQL プールへのデータの取り込みに関するページを参照してください。