クイック スタート: データフローとデータ パイプラインを使用したデータの移動と変換

このチュートリアルでは、データフローとデータ パイプラインのエクスペリエンスで強力かつ包括的な Data Factory ソリューションを作成する方法について学習します。

前提条件

開始するには、次の前提条件を満たす必要があります。

パイプラインと比較したデータフロー

データフロー Gen2 を使用すると、低コード インターフェイスと 300 以上のデータと AI ベースの変換を利用できるため、他のどのツールよりも簡単にデータをクリーンアップ、準備、および変換できます。 データ パイプラインを使用すると、すぐに使用できる豊富なデータ オーケストレーション機能により、企業のニーズを満たす柔軟なデータ ワークフローを作成できます。 パイプラインでは、タスクを実行するアクティビティの論理的なグループを作成できます。これには、データフローを呼び出してデータをクリーンアップおよび準備することが含まれる場合があります。 2 つの間にはいくつかの機能が重複していますが、特定のシナリオに使用する機能の選択は、パイプラインの完全なリッチ度を必要とするか、データフローのよりシンプルで制限された機能を使用できるかによって異なります。 詳細については、「Fabric の判断ガイドを」参照してください

データフローを使用したデータ変換

データフローを設定するには、次の手順に従います。

手順 1: データフローを作成する

  1. Fabric が有効になっているワークスペースを選択し、[新規] を選択します。 次に、[データフロー (Gen2)] を選択します。

    Screenshot showing where to start creating a dataflow gen2.

  2. データフロー エディターのウィンドウが表示されます。 [SQL Server からインポート] カードを選択します。

    Screenshot showing the dataflow editor window.

手順 2: データを取得する

  1. 次に表示される [データ ソースへの接続] ダイアログで、Azure SQL データベースに接続するための詳細を入力し、[次へ] を選択します。 この例では、前提条件で Azure SQL データベースを設定する際に構成されたサンプル データベースの [AdventureWorksLT] を使用します。

    Screenshot showing how to connect to an Azure SQL database.

  2. 変換するデータを選んでから、[作成] を選択します。 このクイックスタートでは、Azure SQL DB 用に提供されているサンプル データの [AdventureWorksLT] から [SalesLT.Customer] を選択した後、[関連テーブルの選択] ボタンを選択し、他の 2 つの関連テーブルを自動的に含めます。

    Screenshot showing where to choose from the available data.

手順 3: データを変換する

  1. 選択されていない場合は、ページの下部にあるステータス バーに沿って [ダイアグラム ビュー] ボタンを選択するか、Power Query エディターの上部にある [表示] メニューの下で [ダイアグラム ビュー] を選択します。 これらのオプションのいずれかを使用して、ダイアグラム ビューを切り替えることができます。

    Screenshot showing where to select diagram view.

  2. [SalesLT Customer] クエリを右クリックするか、クエリの右側にある縦方向の省略記号を選択してから、[クエリのマージ] を選択します。

    Screenshot showing where to find the Merge queries option.

  3. マージを構成するには、マージの右側のテーブルとして [SalesLTOrderHeader] テーブルを選択し、結合列として各テーブルから [CustomerID] 列を選択して、結合の種類として [左外部] を選択します。 その後、 [OK] を選択してマージ クエリを追加します。

    Screenshot of the Merge configuration screen.

  4. 作成したばかりの新しいマージ クエリから、上に矢印が付いたデータベース シンボルのような [データ同期先の追加] ボタンを選択します。 その後、同期先の型として [Azure SQL データベース] を選択します。

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. マージ クエリが公開される Azure SQL データベース接続に関する詳細を指定します。 この例では、同期先のデータ ソースとして使用した AdventureWorksLT データベースも使用できます。

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. データを格納するデータベースを選んで、テーブル名を指定してから、[次へ] を選択します。

    Screenshot showing the Choose destination target window.

  7. [宛先の設定を選択する] ダイアログで既定の設定をそのままにして、ここでは、変更を加えずにただ [設定の保存] を選択します。

    Screenshot showing the Choose destination settings dialog.

  8. データフロー エディターのページで [公開] を選択して、データフローを公開します。

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

データ パイプラインを使用したデータの移動

Dataflow Gen2 を作成したら、パイプラインで操作することができます。 この例では、データフローから生成されたデータを、Azure Blob Storage アカウント内のテキスト形式にコピーします。

手順 1: 新規のデータ パイプラインを作成する

  1. ワークスペースから [新規] を選択した後、[データ パイプライン] を選択します。

    Screenshot showing where to start a new data pipeline.

  2. パイプラインに名前を付けてから、[作成] を選択します。

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

手順 2: データフローを構成する

  1. [アクティビティ] タブで [データフロー] を選択して、新しいデータフロー アクティビティをデータ パイプラインに追加します。

    Screenshot showing where to select the Dataflow option.

  2. パイプライン キャンバスでデータフローを選択してから、[設定] タブを選択します。また、先ほど作成したデータフローをドロップダウン リストから選択します。

    Screenshot showing how to choose the dataflow you created.

  3. [保存] を選択してから、[実行] を選択してデータフローを実行し、前の手順で設計したマージされたクエリ テーブルを最初に設定します。

    Screenshot showing where to select Run.

手順 3: コピー アシスタントを使用してコピー アクティビティを追加する

  1. キャンバス上の [データのコピー] を選び、[コピー アシスタント] ツールを開いて作業を開始します。 または、リボンの [アクティビティ] タブの [データのコピー] ドロップ ダウン リストから [コピー アシスタントを使用する] を選びます。

    Screenshot showing the two ways to access the copy assistant.

  2. データ ソースの種類を選んで、データ ソースを選択します。 このチュートリアルでは、先ほどデータフローの作成時に使用した Azure SQL Database を使って、新規のマージ クエリを生成します。 サンプル データ オファリングの下部までスクロールして、[Azure] タブを選択してから、[Azure SQL Database] を選択します。 [Next](次へ) をクリックして続行します。

    Screenshot showing where to choose a data source.

  3. [新しい接続の作成] を選んで、データ ソースへの接続を作成します。 必要な接続情報をパネルに入力し、[データベース] に [AdventureWorksLT] を入力します。ここでは、データフローでマージ クエリを生成しました。 [次へ] を選択します。

    Screenshot showing where to create a new connection.

  4. 先ほどのデータフロー ステップで生成したテーブルを選択してから、[次へ] を選択します。

    Screenshot showing how to select from available tables.

  5. 同期先として Azure Blob Storage を選択してから、次へ を選択します。

    Screenshot showing the Azure Blob Storage data destination.

  6. [新しい接続の作成] を選んで、同期先への接続を作成します。 接続の詳細を入力してから、[次へ] を選択します。

    Screenshot showing how to create a connection.

  7. [フォルダー パス] を選択し、[ファイル名] を指定してから、[次へ] を選択します。

    Screenshot showing how to select folder path and file name.

  8. 再び [次へ] を選択して、既定のファイル形式、列区切り記号、行区切り記号、圧縮の種類 (必要に応じてヘッダーを含む) を承諾します。

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. 設定の最終処理を行います。 その後、確認して [保存 + 実行] を選択すると、プロセスが完了します。

    Screenshot showing how to review copy data settings.

手順 5: データ パイプラインを設計および保存し、データを実行して読み込む

  1. [データフロー] アクティビティの後に [コピー] アクティビティを実行するには、[データフロー] アクティビティの [成功] から [コピー] アクティビティにドラッグします。 Copy アクティビティは、Dataflow アクティビティが成功した後にのみ実行されます。

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. [保存] を選択して、データ パイプラインを保存します。 次に、[実行] を選択してデータ パイプラインを実行し、データを読み込みます。

    Screenshot showing where to select Save and Run.

パイプラインの実行をスケジュールする

パイプラインの作成とテストが完了したら、自動的に実行されるようにスケジュールできます。

  1. パイプライン エディター ウィンドウの [ホーム] タブで、[スケジュール] を選択します。

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. 必要に応じてスケジュールを設定します。 この例では、年の終わりまで毎日午後 8 時に実行されるようにパイプラインをスケジュールします。

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

このサンプルでは、Dataflow Gen2 を作成し、マージ クエリを作成して Azure SQL データベースに格納するように構成した後、データベースから Azure Blob Storage のテキスト ファイルにデータをコピーする方法を示しています。 以下の方法を学習しました。

  • データフローを作成する。
  • データフローを使用してデータを変換する。
  • データフローを使用してデータ パイプラインを作成する。
  • パイプラインでステップの実行を順序付ける。
  • コピー アシスタントを使用してデータをコピーする。
  • データ パイプラインを実行およびスケジュールする。

次は、パイプライン実行の監視について詳しく説明します。