クイックスタート: 初めてのデータフローを作成してデータの取得と変換を行う
データフローは、セルフサービスによるクラウドベースのデータ準備テクノロジです。 この記事では、初めてのデータフローを作成し、データフローのデータを取得してから、データを変換してデータフローを発行します。
前提条件
開始するには、次の前提条件が必要です。
- アクティブなサブスクリプションを持つ Microsoft Fabric テナント アカウント。 無料アカウントの作成。
- Microsoft Fabric 対応ワークスペースがあることを確認します: ワークスペースの作成。
データフローを作成する
このセクションでは、初めてのデータフローを作成します。
データを取得する
データを取得してみましょう。 この例では、OData サービスからデータを取得します。 データフロー内のデータを取得するには、次の手順に従います。
データフロー エディターで、[データの取得] を選択し、[その他] を選択します。
[データ ソースの選択] で、[さらに表示] を選択します。
[新しいソース] で、データ ソースとして [その他]>[OData] を選択します。
URL
https://services.odata.org/v4/northwind/northwind.svc/
を入力してから、[次へ] を選択します。Orders テーブルと Customers テーブルを選択し、[作成] を選択します。
データ取得エクスペリエンスと機能の詳細については、「データの取得の概要」を参照してください。
変換を適用して発行する
これで、初めてのデータフローにデータが読み込まれました。お疲れさまでした。 次に、このデータを必要な形にするために、いくつかの変換を適用します。
このタスクは、Power Query エディターから実行します。 Power Query エディターの詳細については、「Power Query ユーザー インターフェイス」を参照してください。
変換を適用して発行するには、次の手順に従います。
[ホーム]>[オプション]>[グローバル オプション] の順に移動して、データ プロファイリング ツールが有効になっていることを確認します。
また、Power Query エディター リボンの [ビュー] タブのオプションを使用するか、Power Query ウィンドウの右下にあるダイアグラム ビュー アイコンを選択して、ダイアグラム ビューが有効になっていることを確認します。
Orders テーブル内で、顧客ごとの注文の合計数を計算します。 この目標を達成するには、データ プレビューで [CustomerID] 列を選択し、リボンの [変換] タブで [グループ化] を選択します。
[グループ化] 内で集計として行数のカウントを実行します。 グループ化機能の詳細については、「行のグループ化または集計」を参照してください。
Orders テーブルのデータをグループ化した後、CustomerID と Count が列として含まれる 2 列のテーブルを取得します。
次に、Customers テーブルのデータと顧客ごとの注文数を結合します。 データを結合するには、ダイアグラム ビューで Customers クエリを選択し、"⋮" メニューを使用して、[新規としてクエリをマージ] 変換にアクセスします。
両方のテーブルの一致する列として [CustomerID] を選択して、次のスクリーンショットに示すようにマージ操作を構成します。 そして Ok を選択します。
[マージ] ウィンドウのスクリーンショット。[マージ用の左テーブル] が Customers テーブルに設定され、[マージ用の右テーブル] が Orders テーブルに設定されています。 CustomerID 列は、Customers テーブルと Orders テーブルの両方で選択されます。 また、[結合の種類] は [左外部] に設定されます。 その他の選択はすべて既定値に設定されます。
[新規としてクエリをマージ] 操作を実行すると、Customers テーブルのすべての列と、Orders テーブルの入れ子になったデータが存在する 1 つの列を含む新しいクエリが生成されます。
この例では、Customers テーブルの列のサブセットのみに関心があります。 スキーマ ビューを使用して、これらの列を選択します。 データフロー エディターの右下隅にあるトグル ボタン内でスキーマ ビューを有効にします。
スキーマ ビューは、列名やデータ型など、テーブルのスキーマ情報に焦点を当てたビューを提供します。 スキーマ ビューには、コンテキスト リボン タブから使用できる一連のスキーマ ツールがあります。このシナリオでは、[CustomerID]、[CompanyName]、[Orders (2)] 列を選択し、[列の削除] ボタンを選択してから、[スキーマ ツール] タブの [他の列の削除] を選択します。
[Orders (2)] 列には、数ステップ前に実行したマージ操作の結果生成される、入れ子になった情報が含まれています。 次に、UI の右下隅の [スキーマ ビューの表示] ボタンの横にある [データ ビューの表示] ボタンを選択して、データ ビューに戻ります。 その後、[Orders (2)] 列ヘッダーの [列の展開] 変換を使用して、[Count] 列を選択します。
最後の操作として、注文数に基づいて顧客を順位付けする必要があります。 [Count] 列を選択し、リボンの [列の追加] タブにある [順位列] ボタンを選択します。
[順位列] の既定の設定のままにします。 次に、[OK] を選択してこの変換を適用します。
次に、画面の右側にある [クエリの設定] ペインを使用して、結果のクエリの名前を「Ranked Customers」に変更します。
これで、データの変換と結合が完了しました。 次に、出力先の設定を構成します。 [クエリの設定] ペインの下部にある [データ変換先の選択] を選択します。
この手順では、レイクハウスへの出力を構成できます (使用可能なデータベースが存在する場合)。存在しない場合は、この手順をスキップします。 このエクスペリエンスでは、更新メソッド (Append または Replace) に加えて、クエリ結果の出力先レイクハウスおよびテーブルを構成できます。
これで、データフローを公開する準備が整いました。 ダイアグラム ビューでクエリを確認し、[発行] を選択します。
これで、ワークスペースに戻ります。 データフロー名の横にあるスピナー アイコンは、発行が進行中であることを示します。 発行が完了すると、データフローを更新する準備が整います。
重要
ワークスペースに最初の Dataflow Gen2 が作成されると、レイクハウス項目とウェアハウス項目が、関連する SQL 分析エンドポイントおよびセマンティック モデルと共にプロビジョニングされます。 これらの項目はワークスペース内のすべてのデータフローによって共有され、Dataflow Gen2 が動作するために必要であるため、削除しないでください。また、ユーザーが直接使用することを意図したものではありません。 これらの項目は、Dataflow Gen2 の実装の詳細です。 項目はワークスペースには表示されませんが、ノートブック、SQL 分析エンドポイント、レイクハウス、ウェアハウスなどの他のエクスペリエンスでアクセスできる場合があります。 名前のプレフィックスで項目を認識できます。 これらの項目のプレフィックスは "DataflowsStaging" です。
ワークスペースで、[更新のスケジュール設定] アイコンを選択します。
スケジュール設定された更新をオンにし、[別の時刻を追加] を選択し、次のスクリーンショットに示すように更新を構成します。
スケジュール設定された更新オプションのスクリーンショット。スケジュール設定された更新がオンで、更新頻度が [毎日] に設定され、タイム ゾーンが協定世界時に設定され、時刻が午前 4 時に設定されています。 オン ボタン、[別の時刻を追加] の選択、データフローの所有者、適用ボタンがすべて強調表示されています。
リソースをクリーンアップする
このデータフローを引き続き使用しない場合は、次の手順を使用してデータフローを削除します。
Microsoft Fabric ワークスペースに移動します。
データフローの名前の横にある縦 3 点リーダーを選択し、[削除] を選択します。
[削除] を選択して、データフローの削除を確認します。
関連するコンテンツ
このサンプルのデータフローは、データフロー (Gen2) でデータを読み込んで変換する方法を示しています。 以下の方法を学習しました。
- データフロー (Gen2) を作成します。
- データを変換する。
- 変換されたデータの変換先の設定を構成します。
- データ パイプラインを実行およびスケジュールする。
次の記事に進み、初めてのデータ パイプラインを作成する方法を学習してください。