クイックスタート: 初めてのデータフローを作成してデータの取得と変換を行う

データフローは、セルフサービスによるクラウドベースのデータ準備テクノロジです。 この記事では、初めてのデータフローを作成し、データフローのデータを取得してから、データを変換してデータフローを発行します。

前提条件

開始するには、次の前提条件が必要です。

データフローを作成する

このセクションでは、初めてのデータフローを作成します。

  1. Data Factory エクスペリエンスに切り替えます。

    Screenshot with the data factory experience emphasized.

  2. Microsoft Fabric ワークスペースに移動します。

    Screenshot of the workspaces window where you navigate to your workspace.

  3. [新規] を選択してから、[データフロー (Gen2)] を選択します。

    Screenshot with the Dataflow Gen2 selection emphasized.

データを取得する

データを取得してみましょう。 この例では、OData サービスからデータを取得します。 データフロー内のデータを取得するには、次の手順に従います。

  1. データフロー エディターで、[データの取得] を選択し、[その他] を選択します。

    Screenshot with the Get Data option selected and More emphasized in the drop-down box.

  2. [データ ソースの選択] で、[さらに表示] を選択します。

    Screenshot of Get data source with View more emphasized.

  3. [新しいソース] で、データ ソースとして [その他]>[OData] を選択します。

    Screenshot of Get data source with the Other category and the OData connector emphasized.

  4. URL https://services.odata.org/v4/northwind/northwind.svc/ を入力してから、[次へ] を選択します。

    Screenshot of the OData data source where you enter the data URL.

  5. Orders テーブルと Customers テーブルを選択し、[作成] を選択します。

    Screenshot of the Power Query navigator with the Customers and Orders tables emphasized.

データ取得エクスペリエンスと機能の詳細については、「データの取得の概要」を参照してください。

変換を適用して発行する

これで、初めてのデータフローにデータが読み込まれました。お疲れさまでした。 次に、このデータを必要な形にするために、いくつかの変換を適用します。

このタスクは、Power Query エディターから実行します。 Power Query エディターの詳細については、「Power Query ユーザー インターフェイス」を参照してください。

変換を適用して発行するには、次の手順に従います。

  1. [ホーム]>[オプション]>[グローバル オプション] の順に移動して、データ プロファイリング ツールが有効になっていることを確認します。

    Screenshot of Global options with the Column profile selections emphasized.

    また、Power Query エディター リボンの [ビュー] タブのオプションを使用するか、Power Query ウィンドウの右下にあるダイアグラム ビュー アイコンを選択して、ダイアグラム ビューが有効になっていることを確認します。

    Screenshot of the overall look of Power Query diagram view.

  2. Orders テーブル内で、顧客ごとの注文の合計数を計算します。 この目標を達成するには、データ プレビューで [CustomerID] 列を選択し、リボンの [変換] タブで [グループ化] を選択します。

    Screenshot showing the Orders table selected, and Group by emphasized in the Transform tab.

  3. [グループ化] 内で集計として行数のカウントを実行します。 グループ化機能の詳細については、「行のグループ化または集計」を参照してください。

    Screenshot of Group by, with the Count rows operation selected.

  4. Orders テーブルのデータをグループ化した後、CustomerIDCount が列として含まれる 2 列のテーブルを取得します。

    Screenshot of the two column table.

  5. 次に、Customers テーブルのデータと顧客ごとの注文数を結合します。 データを結合するには、ダイアグラム ビューで Customers クエリを選択し、"⋮" メニューを使用して、[新規としてクエリをマージ] 変換にアクセスします。

    Screenshot of the dataflow editor, with the vertical ellipsis of the Customers table and Merge queries as new emphasized.

  6. 両方のテーブルの一致する列として [CustomerID] を選択して、次のスクリーンショットに示すようにマージ操作を構成します。 そして Ok を選択します。

    Screenshot of the Merge window.

    [マージ] ウィンドウのスクリーンショット。[マージ用の左テーブル] が Customers テーブルに設定され、[マージ用の右テーブル] が Orders テーブルに設定されています。 CustomerID 列は、Customers テーブルと Orders テーブルの両方で選択されます。 また、[結合の種類] は [左外部] に設定されます。 その他の選択はすべて既定値に設定されます。

  7. [新規としてクエリをマージ] 操作を実行すると、Customers テーブルのすべての列と、Orders テーブルの入れ子になったデータが存在する 1 つの列を含む新しいクエリが生成されます。

    Screenshot of the dataflows editor with the new Merge query added to the right of the Customers and Orders tables.

  8. この例では、Customers テーブルの列のサブセットのみに関心があります。 スキーマ ビューを使用して、これらの列を選択します。 データフロー エディターの右下隅にあるトグル ボタン内でスキーマ ビューを有効にします。

    Screenshot of the dataflows editor with the schema view button emphasized in the bottom-right corner.

  9. スキーマ ビューは、列名やデータ型など、テーブルのスキーマ情報に焦点を当てたビューを提供します。 スキーマ ビューには、コンテキスト リボン タブから使用できる一連のスキーマ ツールがあります。このシナリオでは、[CustomerID][CompanyName][Orders (2)] 列を選択し、[列の削除] ボタンを選択してから、[スキーマ ツール] タブの [他の列の削除] を選択します。

    Screenshot of the schema view showing all of the available column names, with the CustomerID, CompanyName, and Orders (2) columns emphasized.

    Screenshot of the schema tools menu with Remove other columns emphasized.

  10. [Orders (2)] 列には、数ステップ前に実行したマージ操作の結果生成される、入れ子になった情報が含まれています。 次に、UI の右下隅の [スキーマ ビューの表示] ボタンの横にある [データ ビューの表示] ボタンを選択して、データ ビューに戻ります。 その後、[Orders (2)] 列ヘッダーの [列の展開] 変換を使用して、[Count] 列を選択します。

    Screenshot for using data view.

  11. 最後の操作として、注文数に基づいて顧客を順位付けする必要があります。 [Count] 列を選択し、リボンの [列の追加] タブにある [順位列] ボタンを選択します。

    Screenshot of the dataflows editor with the Count column selected.

  12. [順位列] の既定の設定のままにします。 次に、[OK] を選択してこの変換を適用します。

    Screenshot of the Rank window with all default settings displayed.

  13. 次に、画面の右側にある [クエリの設定] ペインを使用して、結果のクエリの名前を「Ranked Customers」に変更します。

    Screenshot of the dataflows editor with the Ranked Customers name emphasized under the query settings properties.

  14. これで、データの変換と結合が完了しました。 次に、出力先の設定を構成します。 [クエリの設定] ペインの下部にある [データ変換先の選択] を選択します。

    Screenshot of the dataflows editor with the location of the Data destination selection emphasized.

  15. この手順では、レイクハウスへの出力を構成できます (使用可能なデータベースが存在する場合)。存在しない場合は、この手順をスキップします。 このエクスペリエンスでは、更新メソッド (Append または Replace) に加えて、クエリ結果の出力先レイクハウスおよびテーブルを構成できます。

    Screenshot of the Connect to data destination window with lakehouse selected.

    Screenshot of the Choose destination settings window.

  16. これで、データフローを公開する準備が整いました。 ダイアグラム ビューでクエリを確認し、[発行] を選択します。

    Screenshot of the dataflows editor with the Publish button on the lower-right side emphasized.

    これで、ワークスペースに戻ります。 データフロー名の横にあるスピナー アイコンは、発行が進行中であることを示します。 発行が完了すると、データフローを更新する準備が整います。

    重要

    ワークスペースに最初の Dataflow Gen2 が作成されると、レイクハウス項目とウェアハウス項目が、関連する SQL 分析エンドポイントおよびセマンティック モデルと共にプロビジョニングされます。 これらの項目はワークスペース内のすべてのデータフローによって共有され、Dataflow Gen2 が動作するために必要であるため、削除しないでください。また、ユーザーが直接使用することを意図したものではありません。 これらの項目は、Dataflow Gen2 の実装の詳細です。 項目はワークスペースには表示されませんが、ノートブック、SQL 分析エンドポイント、レイクハウス、ウェアハウスなどの他のエクスペリエンスでアクセスできる場合があります。 名前のプレフィックスで項目を認識できます。 これらの項目のプレフィックスは "DataflowsStaging" です。

  17. ワークスペースで、[更新のスケジュール設定] アイコンを選択します。

    Screenshot of the workspace with the schedule refresh icon emphasized.

  18. スケジュール設定された更新をオンにし、[別の時刻を追加] を選択し、次のスクリーンショットに示すように更新を構成します。

    Screenshot showing how to select another time.

    スケジュール設定された更新オプションのスクリーンショット。スケジュール設定された更新がオンで、更新頻度が [毎日] に設定され、タイム ゾーンが協定世界時に設定され、時刻が午前 4 時に設定されています。 オン ボタン、[別の時刻を追加] の選択、データフローの所有者、適用ボタンがすべて強調表示されています。

リソースをクリーンアップする

このデータフローを引き続き使用しない場合は、次の手順を使用してデータフローを削除します。

  1. Microsoft Fabric ワークスペースに移動します。

    Screenshot of the workspaces window where you navigate to your workspace.

  2. データフローの名前の横にある縦 3 点リーダーを選択し、[削除] を選択します。

    Screenshot with the three vertical dots and the delete option in the drop-down menu emphasized.

  3. [削除] を選択して、データフローの削除を確認します。

    Screenshot of the Delete dataflow window, with the Delete button emphasized.

このサンプルのデータフローは、データフロー (Gen2) でデータを読み込んで変換する方法を示しています。 以下の方法を学習しました。

  • データフロー (Gen2) を作成します。
  • データを変換する。
  • 変換されたデータの変換先の設定を構成します。
  • データ パイプラインを実行およびスケジュールする。

次の記事に進み、初めてのデータ パイプラインを作成する方法を学習してください。