次の方法で共有


クイックスタート: 初めてのデータフローを作成してデータの取得と変換を行う

データフローは、セルフサービスによるクラウドベースのデータ準備テクノロジです。 この記事では、初めてのデータフローを作成し、データフローのデータを取得してから、データを変換してデータフローを発行します。

前提条件

開始するには、次の前提条件が必要です。

データフローを作成する

このセクションでは、初めてのデータフローを作成します。

  1. Data Factory エクスペリエンスに切り替えます。

  2. Microsoft Fabric ワークスペースに移動します。

    ワークスペースに移動するワークスペース ウィンドウのスクリーンショット。

  3. [新規] を選択してから、[データフロー (Gen2)] を選択します。

    [Dataflow Gen2] の選択が強調表示されているスクリーンショット。

データを取得する

データを取得してみましょう。 この例では、OData サービスからデータを取得します。 データフロー内のデータを取得するには、次の手順に従います。

  1. データフロー エディターで、[データの取得] を選択し、[その他] を選択します。

    [データの取得] オプションが選択され、ドロップダウン ボックスで [その他] が強調表示されているスクリーンショット。

  2. [データ ソースの選択] で、[さらに表示] を選択します。

    [データ ソースの取得] で [さらに表示] が強調表示されているスクリーンショット。

  3. [新しいソース] で、データ ソースとして [その他]>[OData] を選択します。

    [データ ソースの取得] で、[その他] カテゴリと [OData] コネクタが強調されているスクリーンショット。

  4. URL https://services.odata.org/v4/northwind/northwind.svc/ を入力してから、[次へ] を選択します。

    データの URL を入力する OData データ ソースのスクリーンショット。

  5. Orders テーブルと Customers テーブルを選択し、[作成] を選択します。

    Customers テーブルと Orders テーブルが強調表示されている Power Query ナビゲーターのスクリーンショット。

データ取得エクスペリエンスと機能の詳細については、「データの取得の概要」を参照してください。

変換を適用して発行する

これで、初めてのデータフローにデータが読み込まれました。お疲れさまでした。 次に、このデータを必要な形にするために、いくつかの変換を適用します。

このタスクは、Power Query エディターから実行します。 Power Query エディターの詳細については、「Power Query ユーザー インターフェイス」を参照してください。

変換を適用して発行するには、次の手順に従います。

  1. [ホーム]>[オプション]>[グローバル オプション] の順に移動して、データ プロファイリング ツールが有効になっていることを確認します。

    列のプロファイルの選択が強調表示されているグローバル オプションのスクリーンショット。

    また、Power Query エディター リボンの [ビュー] タブのオプションを使用するか、Power Query ウィンドウの右下にあるダイアグラム ビュー アイコンを選択して、ダイアグラム ビューが有効になっていることを確認します。

    Power Query ダイアグラム ビューの全体的な外観のスクリーンショット。

  2. Orders テーブル内で、顧客ごとの注文の合計数を計算します。 この目標を達成するには、データ プレビューで [CustomerID] 列を選択し、リボンの [変換] タブで [グループ化] を選択します。

    Orders テーブルが選択され、[変換] タブで [グループ化] が強調表示されていることを示すスクリーンショット。

  3. [グループ化] 内で集計として行数のカウントを実行します。 グループ化機能の詳細については、「行のグループ化または集計」を参照してください。

    行数のカウント操作が選択されている [グループ化] のスクリーンショット。

  4. Orders テーブルのデータをグループ化した後、CustomerIDCount が列として含まれる 2 列のテーブルを取得します。

    2 列のテーブルのスクリーンショット。

  5. 次に、Customers テーブルのデータと顧客ごとの注文数を結合します。 データを結合するには、ダイアグラム ビューで Customers クエリを選択し、"⋮" メニューを使用して、[新規としてクエリをマージ] 変換にアクセスします。

    Customers テーブルの縦 3 点リーダーと、[新規としてクエリをマージ] が強調表示されているデータフロー エディターのスクリーンショット。

  6. 両方のテーブルの一致する列として [CustomerID] を選択して、次のスクリーンショットに示すようにマージ操作を構成します。 そして Ok を選択します。

    [マージ] ウィンドウのスクリーンショット。

    [マージ] ウィンドウのスクリーンショット。[マージ用の左テーブル] が Customers テーブルに設定され、[マージ用の右テーブル] が Orders テーブルに設定されています。 CustomerID 列は、Customers テーブルと Orders テーブルの両方で選択されます。 また、[結合の種類] は [左外部] に設定されます。 その他の選択はすべて既定値に設定されます。

  7. [新規としてクエリをマージ] 操作を実行すると、Customers テーブルのすべての列と、Orders テーブルの入れ子になったデータが存在する 1 つの列を含む新しいクエリが生成されます。

    Customers テーブルと Orders テーブルの右側に新しいマージ クエリが追加されたデータフロー エディタのスクリーンショット。

  8. この例では、Customers テーブルの列のサブセットのみに関心があります。 スキーマ ビューを使用して、これらの列を選択します。 データフロー エディターの右下隅にあるトグル ボタン内でスキーマ ビューを有効にします。

    右下隅のスキーマ ビュー ボタンが強調表示されているデータフロー エディターのスクリーンショット。

  9. スキーマ ビューは、列名やデータ型など、テーブルのスキーマ情報に焦点を当てたビューを提供します。 スキーマ ビューには、コンテキスト リボン タブから使用できる一連のスキーマ ツールがあります。このシナリオでは、[CustomerID][CompanyName][Orders (2)] 列を選択し、[列の削除] ボタンを選択してから、[スキーマ ツール] タブの [他の列の削除] を選択します。

    使用できるすべての列名が表示され、[CustomerID]、[CompanyName]、[Orders (2)] 列が強調表示されているスキーマ ビューのスクリーンショット。

    [他の列の削除] が強調表示されているスキーマ ツール メニューのスクリーンショット。

  10. [Orders (2)] 列には、数ステップ前に実行したマージ操作の結果生成される、入れ子になった情報が含まれています。 次に、UI の右下隅の [スキーマ ビューの表示] ボタンの横にある [データ ビューの表示] ボタンを選択して、データ ビューに戻ります。 その後、[Orders (2)] 列ヘッダーの [列の展開] 変換を使用して、[Count] 列を選択します。

    データ ビューの使用のスクリーンショット。

  11. 最後の操作として、注文数に基づいて顧客を順位付けする必要があります。 [Count] 列を選択し、リボンの [列の追加] タブにある [順位列] ボタンを選択します。

    [Count] 列が選択されているデータフロー エディターのスクリーンショット。

  12. [順位列] の既定の設定のままにします。 次に、[OK] を選択してこの変換を適用します。

    すべての既定の設定が表示されている [順位] ウィンドウのスクリーンショット。

  13. 次に、画面の右側にある [クエリの設定] ペインを使用して、結果のクエリの名前を「Ranked Customers」に変更します。

    クエリの設定プロパティで「Ranked Customers」の名前が強調表示されているデータフロー エディタのスクリーンショット。

  14. これで、データの変換と結合が完了しました。 次に、出力先の設定を構成します。 [クエリの設定] ペインの下部にある [データ変換先の選択] を選択します。

    データ変換先の選択の位置が強調表示されているデータフロー エディターのスクリーンショット。

  15. この手順では、レイクハウスへの出力を構成できます (使用可能なデータベースが存在する場合)。存在しない場合は、この手順をスキップします。 このエクスペリエンスでは、更新メソッド (Append または Replace) に加えて、クエリ結果の出力先レイクハウスおよびテーブルを構成できます。

    レイクハウスが選択されている [データ変換先に接続] ウィンドウのスクリーンショット。

    [宛先の設定を選択する] ウィンドウのスクリーンショット。

  16. これで、データフローを公開する準備が整いました。 ダイアグラム ビューでクエリを確認し、[発行] を選択します。

    右下側の [発行] ボタンが強調表示されているデータフロー エディターのスクリーンショット。

    これで、ワークスペースに戻ります。 データフロー名の横にあるスピナー アイコンは、発行が進行中であることを示します。 発行が完了すると、データフローを更新する準備が整います。

    重要

    ワークスペースに最初の Dataflow Gen2 が作成されると、レイクハウス項目とウェアハウス項目が、関連する SQL 分析エンドポイントおよびセマンティック モデルと共にプロビジョニングされます。 これらの項目はワークスペース内のすべてのデータフローによって共有され、Dataflow Gen2 が動作するために必要であるため、削除しないでください。また、ユーザーが直接使用することを意図したものではありません。 これらの項目は、Dataflow Gen2 の実装の詳細です。 項目はワークスペースには表示されませんが、ノートブック、SQL 分析エンドポイント、レイクハウス、ウェアハウスなどの他のエクスペリエンスでアクセスできる場合があります。 名前のプレフィックスで項目を認識できます。 これらの項目のプレフィックスは "DataflowsStaging" です。

  17. ワークスペースで、[更新のスケジュール設定] アイコンを選択します。

    更新のスケジュール設定アイコンが強調表示されているワークスペースのスクリーンショット。

  18. スケジュール設定された更新をオンにし、[別の時刻を追加] を選択し、次のスクリーンショットに示すように更新を構成します。

    別の時刻の選択方法を示すスクリーンショット。

    スケジュール設定された更新オプションのスクリーンショット。スケジュール設定された更新がオンで、更新頻度が [毎日] に設定され、タイム ゾーンが協定世界時に設定され、時刻が午前 4 時に設定されています。 オン ボタン、[別の時刻を追加] の選択、データフローの所有者、適用ボタンがすべて強調表示されています。

リソースをクリーンアップする

このデータフローを引き続き使用しない場合は、次の手順を使用してデータフローを削除します。

  1. Microsoft Fabric ワークスペースに移動します。

    ワークスペースに移動するワークスペース ウィンドウのスクリーンショット。

  2. データフローの名前の横にある縦 3 点リーダーを選択し、[削除] を選択します。

    縦 3 点リーダーとドロップダウン メニュー内の削除オプションが強調表示されているスクリーンショット。

  3. [削除] を選択して、データフローの削除を確認します。

    [削除] ボタンが強調表示されている [削除] データフロー ウィンドウのスクリーンショット。

このサンプルのデータフローは、データフロー (Gen2) でデータを読み込んで変換する方法を示しています。 以下の方法を学習しました。

  • データフロー (Gen2) を作成します。
  • データを変換する。
  • 変換されたデータの変換先の設定を構成します。
  • データ パイプラインを実行およびスケジュールする。

次の記事に進み、初めてのデータ パイプラインを作成する方法を学習してください。