Schnellstart: Erstellen Ihres ersten Dataflow zum Abrufen und Transformieren von Daten

Dataflows sind eine cloudbasierte Self-Service-Technologie zur Datenaufbereitung. In diesem Artikel erstellen Sie Ihren ersten Dataflow, Sie rufen Daten für Ihren Dataflow ab, transformieren dann die Daten und veröffentlichen den Dataflow.

Voraussetzungen

Bevor Sie beginnen, müssen die folgenden Voraussetzungen erfüllt sein:

Erstellen eines Dataflows

In diesem Abschnitt erstellen Sie Ihren ersten Dataflow.

  1. Wechseln Sie zur Data Factory-Benutzeroberfläche.

    Screenshot with the data factory experience emphasized.

  2. Navigieren Sie zu Ihrem Microsoft Fabric-Arbeitsbereich.

    Screenshot of the workspaces window where you navigate to your workspace.

  3. Wählen Sie Neu und dann Dataflow Gen2 aus.

    Screenshot with the Dataflow Gen2 selection emphasized.

Datensammlung

Nun werden wir Daten abrufen! In diesem Beispiel rufen Sie Daten von einem OData-Dienst ab. Führen Sie die folgenden Schritte aus, um Daten in Ihren Dataflow abzurufen.

  1. Wählen Sie im Dataflow-Editor die Option Daten abrufen und dann Weitere aus.

    Screenshot with the Get Data option selected and More emphasized in the drop-down box.

  2. Wählen Sie in Datenquelle auswählen die Option Weitere anzeigen aus.

    Screenshot of Get data source with View more emphasized.

  3. Wählen Sie in Neue Quelle die Option Andere>OData als Datenquelle aus.

    Screenshot of Get data source with the Other category and the OData connector emphasized.

  4. Geben Sie die URL https://services.odata.org/v4/northwind/northwind.svc/ein, und wählen Sie anschließend Weiter aus.

    Screenshot of the OData data source where you enter the data URL.

  5. Wählen Sie die Tabellen Orders und Customers und dann Erstellen aus.

    Screenshot of the Power Query navigator with the Customers and Orders tables emphasized.

Weitere Informationen zur Dateneingabe und -funktionalität finden Sie unter Abrufen von Daten – Übersicht.

Anwenden von Transformationen und Veröffentlichen

Glückwunsch! Sie haben nun Ihre Daten in Ihren ersten Dataflow geladen. Nun ist es an der Zeit, eine Reihe von Transformationen vorzunehmen, um die Daten in die gewünschte Form zu bringen.

Sie führen diese Aufgabe im Power Query-Editor aus. Eine detaillierte Übersicht über den Power Query-Editor finden Sie unter Power Query-Benutzeroberfläche.

Führen Sie die folgenden Schritte aus, um Transformationen anzuwenden und zu veröffentlichen:

  1. Stellen Sie sicher, dass die Datenprofilerstellungstools aktiviert sind, indem Sie zu Start>Optionen>Globale Optionen navigieren.

    Screenshot of Global options with the Column profile selections emphasized.

    Stellen Sie außerdem sicher, dass Sie die Diagrammansicht mithilfe der Optionen unter der Registerkarte Ansicht im Power Query-Editor-Menüband aktiviert haben oder indem Sie das Diagrammansichtssymbol auf der unteren rechten Seite des Power Query-Fensters auswählen.

    Screenshot of the overall look of Power Query diagram view.

  2. In der Tabelle „Bestellungen“ berechnen Sie die Gesamtzahl Bestellungen pro Kunde. Um dieses Ziel zu erreichen, wählen Sie in der Datenvorschau die Spalte CustomerID und dann auf der Registerkarte Transformieren die Option Gruppieren nach aus.

    Screenshot showing the Orders table selected, and Group by emphasized in the Transform tab.

  3. Sie führen als Aggregation in Gruppieren nach eine Zeilenzählung aus. Weitere Informationen zu den Funktionen von Gruppieren nach finden Sie unter Gruppieren oder Zusammenfassen von Zeilen.

    Screenshot of Group by, with the Count rows operation selected.

  4. Nach dem Gruppieren von Daten in der Tabelle „Orders erhalten“ wir eine zweispaltige Tabelle mit den Spalten CustomerID und Count.

    Screenshot of the two column table.

  5. Als Nächstes möchten Sie Daten aus der Tabelle „Customers“ mit der Anzahl der Bestellungen pro Kunde kombinieren. Um Daten zu kombinieren, wählen Sie in der Diagrammansicht die Abfrage der Tabelle „Customers“ aus, und greifen Sie über das Menü „⋮" auf die Transformation Abfragen in neuer Abfrage zusammenführen zu.

    Screenshot of the dataflow editor, with the vertical ellipsis of the Customers table and Merge queries as new emphasized.

  6. Konfigurieren Sie den Zusammenführungsvorgang wie im folgenden Screenshot gezeigt, indem Sie in beiden Tabellen CustomerID als übereinstimmende Spalte auswählen. Wählen Sie Ok.

    Screenshot of the Merge window.

    Screenshot des Fenster „Zusammenführen“, in dem als linke Tabelle für das Merge Zusammenführen die Tabelle „Customers“ und als rechte Tabelle für das Zusammenführen die Tabelle „Orders" festgelegt ist. Die Spalte „CustomerID“ ist sowohl für die Tabelle „Customers“ als auch die Tabelle „Orders“ ausgewählt. Außerdem ist die Verknüpfungsart auf „Linke äußere“ festgelegt. Alle anderen Optionen sind auf ihre Standardwerte festgelegt.

  7. Nachdem der Vorgang Abfragen als neue Abfrage zusammenführen ausgeführt wurde, erhalten Sie eine neue Abfrage mit allen Spalten aus der Tabelle „Kunden“ und eine Spalte mit geschachtelten Daten aus der Tabelle „Bestellungen“.

    Screenshot of the dataflows editor with the new Merge query added to the right of the Customers and Orders tables.

  8. In diesem Beispiel sind Sie nur an einer Teilmenge der Spalten in der Tabelle „Customers“ interessiert. Sie wählen diese Spalten in der Schemaansicht aus. Aktivieren Sie die Schemaansicht mit der Umschaltfläche in der unteren rechten Ecke des Dataflow-Editors.

    Screenshot of the dataflows editor with the schema view button emphasized in the bottom-right corner.

  9. Die Schemaansicht bietet einen gezielten Einblick in die Schemainformationen einer Tabelle, einschließlich Spaltennamen und Datentypen. Die Schemaansicht verfügt über eine Reihe von Schematools, die über eine Registerkarte des Kontextmenübands verfügbar sind. In diesem Szenario wählen Sie die Spalten CustomerID, CompanyName und Bestellungen (2) aus. Dann wählen Sie die Schaltfläche Spalten entfernen und anschließend auf der Registerkarte Schematools die Option Andere Spalten entfernen aus.

    Screenshot of the schema view showing all of the available column names, with the CustomerID, CompanyName, and Orders (2) columns emphasized.

    Screenshot of the schema tools menu with Remove other columns emphasized.

  10. Die Spalte Orders (2) enthält geschachtelte Informationen, die sich aus dem Zusammenführungsvorgang ergeben, den Sie einige Schritte zuvor ausgeführt haben. Wechseln Sie nun zurück zur Datenansicht, indem Sie in der unteren rechten Ecke der Benutzeroberfläche die Schaltfläche Datenansicht anzeigen neben der Schaltfläche Schemaansicht anzeigen auswählen. Verwenden Sie dann die Transformation Spalte erweitern in der Spaltenüberschrift Orders (2), um die Spalte Count auszuwählen.

    Screenshot for using data view.

  11. Als letzter Vorgang möchten Sie Ihre Kunden basierend auf der Anzahl der Bestellungen priorisieren. Wählen Sie die Spalte Count und dann die Schaltfläche Spaltenrangfolge auf der Registerkarte Spalte hinzufügen im Menüband aus.

    Screenshot of the dataflows editor with the Count column selected.

  12. Behalten Sie die Standardeinstellungen in Spaltenrangfolge bei. Wählen Sie OK aus, um diese Transformation anzuwenden.

    Screenshot of the Rank window with all default settings displayed.

  13. Benennen Sie nun die resultierende Abfrage im Bereich Abfrageeinstellungen auf der rechten Seite des Bildschirms in Ranked Customers um.

    Screenshot of the dataflows editor with the Ranked Customers name emphasized under the query settings properties.

  14. Sie haben das Transformieren und Kombinieren Ihrer Daten abgeschlossen. Daher konfigurieren Sie nun die zugehörigen Einstellungen für das Ausgabeziel. Wählen Sie im Bereich Abfrageeinstellungen unten Datenziel auswählen aus.

    Screenshot of the dataflows editor with the location of the Data destination selection emphasized.

  15. In diesem Schritt können Sie eine Ausgabe für Ihr Lakehouse konfigurieren, sofern Sie über eines verfügen, oder andernfalls diesen Schritt überspringen. In dieser Umgebung können Sie zusätzlich zur Updatemethode („Append“ oder „Replace“) das Ziel-Lakehouse und die Tabelle für Ihre Abfrageergebnisse konfigurieren.

    Screenshot of the Connect to data destination window with lakehouse selected.

    Screenshot of the Choose destination settings window.

  16. Ihr Dataflow ist jetzt bereit für die Veröffentlichung. Überprüfen Sie die Abfragen in der Diagrammansicht, und wählen Sie dann Veröffentlichen aus.

    Screenshot of the dataflows editor with the Publish button on the lower-right side emphasized.

    Sie werden nun zum Arbeitsbereich zurück geleitet. Ein Wartekreiselsymbol neben dem Dataflownamen zeigt an, dass die Veröffentlichung in Bearbeitung ist. Sobald die Veröffentlichung abgeschlossen ist, kann der Dataflow aktualisiert werden.

    Wichtig

    Bei der ersten Dataflow Gen2-Erstellung in einem Arbeitsbereich werden Lakehouse- und Warehouse-Elemente zusammen mit den zugehörigen SQL-Analyseendpunkten und semantischen Modellen bereitgestellt. Diese Elemente werden von allen Dataflows im Arbeitsbereich gemeinsam verwendet und sind für Dataflow Gen2 erforderlich. Sie sollten nicht gelöscht und nicht direkt von Benutzern verwendet werden. Die Elemente sind ein Implementierungsdetail von Dataflow Gen2. Die Elemente sind im Arbeitsbereich nicht sichtbar, können aber in anderen Oberflächen wie Notebook, SQL-Analyseendpunkt, Lakehouse- und Warehouse-Erfahrungen zugänglich sein. Sie können die Elemente anhand ihres Präfixes im Namen erkennen. Das Präfix der Elemente lautet "DataflowsStaging".

  17. Wählen Sie in Ihrem Arbeitsbereich das Symbol Aktualisierung planen aus.

    Screenshot of the workspace with the schedule refresh icon emphasized.

  18. Aktivieren Sie die geplante Aktualisierung, wählen Sie Weiteren Zeitpunkt hinzufügen aus, und konfigurieren Sie die Aktualisierung wie im folgenden Screenshot dargestellt.

    Screenshot showing how to select another time.

    Screenshot der Optionen für geplante Aktualisierungen, bei denen die geplante Aktualisierung aktiviert ist, die Aktualisierungshäufigkeit auf „Täglich“, die Zeitzone auf „Koordinierte Weltzeit“ und die Uhrzeit auf 4:00 Uhr festgelegt ist. Hervorgehoben sind die Schaltfläche „Ein“, die Option „Weiteren Zeitpunkt hinzufügen“, der Dataflowbesitzer und die Schaltfläche „Anwenden“.

Bereinigen von Ressourcen

Wenn Sie diesen Dataflow nicht weiterhin verwenden möchten, löschen Sie ihn mit folgenden Schritten:

  1. Navigieren Sie zu Ihrem Microsoft Fabric-Arbeitsbereich.

    Screenshot of the workspaces window where you navigate to your workspace.

  2. Wählen Sie die vertikalen Auslassungspunkte neben dem Namen Ihres Dataflows und dann Löschen aus.

    Screenshot with the three vertical dots and the delete option in the drop-down menu emphasized.

  3. Wählen Sie Löschen aus, um die Löschung des Dataflows zu bestätigen.

    Screenshot of the Delete dataflow window, with the Delete button emphasized.

Der Dataflow in diesem Beispiel zeigt, wie Sie Daten in Dataflow „Gen2“ laden und transformieren. Sie haben Folgendes gelernt:

  • Erstellen Sie einen Dataflow „Gen2“.
  • Transformieren von Daten.
  • Konfigurieren Sie Zieleinstellungen für transformierte Daten.
  • Führen Sie Ihre Datenpipeline aus, und planen Sie sie.

Fahren Sie mit dem nächsten Artikel fort, um mehr über das Erstellen einer Datenpipeline zu erfahren.