Freigeben über


Schnellstart: Erstellen Ihres ersten Dataflow zum Abrufen und Transformieren von Daten

Dataflows sind eine cloudbasierte Self-Service-Technologie zur Datenaufbereitung. In diesem Artikel erstellen Sie Ihren ersten Dataflow, Sie rufen Daten für Ihren Dataflow ab, transformieren dann die Daten und veröffentlichen den Dataflow.

Voraussetzungen

Bevor Sie beginnen, müssen die folgenden Voraussetzungen erfüllt sein:

Erstellen eines Dataflows

In diesem Abschnitt erstellen Sie Ihren ersten Dataflow.

  1. Wechseln Sie zur Data Factory-Benutzeroberfläche.

  2. Navigieren Sie zu Ihrem Microsoft Fabric-Arbeitsbereich.

    Screenshot: Fenster „Arbeitsbereiche“, in dem Sie zu Ihrem Arbeitsbereich navigieren

  3. Wählen Sie Neu und dann Dataflow Gen2 aus.

    Screenshot: Hervorgehobene Auswahl von „Dataflow Gen2“

Datensammlung

Nun werden wir Daten abrufen! In diesem Beispiel rufen Sie Daten von einem OData-Dienst ab. Führen Sie die folgenden Schritte aus, um Daten in Ihren Dataflow abzurufen.

  1. Wählen Sie im Dataflow-Editor die Option Daten abrufen und dann Weitere aus.

    Screenshot: Ausgewählte Option „Daten abrufen“ mit der hervorgehobenen Option „Weitere“ im Dropdownfeld

  2. Wählen Sie in Datenquelle auswählen die Option Weitere anzeigen aus.

    Screenshot von „Datenquelle abrufen“ mit „Mehr anzeigen“ hervorgehoben.

  3. Wählen Sie in Neue Quelle die Option Andere>OData als Datenquelle aus.

    Screenshot von „Datenquelle abrufen“ mit „Andere Kategorie“und „OData-Connector“ hervorgehoben.

  4. Geben Sie die URL https://services.odata.org/v4/northwind/northwind.svc/ein, und wählen Sie anschließend Weiter aus.

    Screenshot: OData-Datenquelle, wo die Daten-URL eingegeben wird

  5. Wählen Sie die Tabellen Orders und Customers und dann Erstellen aus.

    Screenshot: Power Query-Navigator mit den hervorgehobenen Tabellen „Customers“ und „Orders“

Weitere Informationen zur Dateneingabe und -funktionalität finden Sie unter Abrufen von Daten – Übersicht.

Anwenden von Transformationen und Veröffentlichen

Glückwunsch! Sie haben nun Ihre Daten in Ihren ersten Dataflow geladen. Nun ist es an der Zeit, eine Reihe von Transformationen vorzunehmen, um die Daten in die gewünschte Form zu bringen.

Sie führen diese Aufgabe im Power Query-Editor aus. Eine detaillierte Übersicht über den Power Query-Editor finden Sie unter Power Query-Benutzeroberfläche.

Führen Sie die folgenden Schritte aus, um Transformationen anzuwenden und zu veröffentlichen:

  1. Stellen Sie sicher, dass die Datenprofilerstellungstools aktiviert sind, indem Sie zu Start>Optionen>Globale Optionen navigieren.

    Screenshot: Globale Optionen mit hervorgehobenem Bereich „Spaltenprofil“

    Stellen Sie außerdem sicher, dass Sie die Diagrammansicht mithilfe der Optionen unter der Registerkarte Ansicht im Power Query-Editor-Menüband aktiviert haben oder indem Sie das Diagrammansichtssymbol auf der unteren rechten Seite des Power Query-Fensters auswählen.

    Screenshot: Power Query-Diagrammansicht

  2. In der Tabelle „Bestellungen“ berechnen Sie die Gesamtzahl Bestellungen pro Kunde. Um dieses Ziel zu erreichen, wählen Sie in der Datenvorschau die Spalte CustomerID und dann auf der Registerkarte Transformieren die Option Gruppieren nach aus.

    Screenshot: Die Registerkarte „Transformieren, auf der die Tabelle „Orders“ und die Option „Gruppieren nach“ hervorgehoben sind

  3. Sie führen als Aggregation in Gruppieren nach eine Zeilenzählung aus. Weitere Informationen zu den Funktionen von Gruppieren nach finden Sie unter Gruppieren oder Zusammenfassen von Zeilen.

    Screenshot: Bereich „Gruppieren nach“ mit der ausgewählten Operation „Zeilen zählen“

  4. Nach dem Gruppieren von Daten in der Tabelle „Orders erhalten“ wir eine zweispaltige Tabelle mit den Spalten CustomerID und Count.

    Screenshot: Zweispaltige Tabelle

  5. Als Nächstes möchten Sie Daten aus der Tabelle „Customers“ mit der Anzahl der Bestellungen pro Kunde kombinieren. Um Daten zu kombinieren, wählen Sie in der Diagrammansicht die Abfrage der Tabelle „Customers“ aus, und greifen Sie über das Menü „⋮" auf die Transformation Abfragen in neuer Abfrage zusammenführen zu.

    Screenshot: Dataflow-Editor mit der vertikalen Ellipse der Tabelle „Customers“ und der hervorgehobenen Option zum Zusammenführen von Abfragen in einer neuen Abfrage

  6. Konfigurieren Sie den Zusammenführungsvorgang wie im folgenden Screenshot gezeigt, indem Sie in beiden Tabellen CustomerID als übereinstimmende Spalte auswählen. Wählen Sie Ok.

    Screenshot: Das Fenster „Zusammenführen“

    Screenshot des Fenster „Zusammenführen“, in dem als linke Tabelle für das Merge Zusammenführen die Tabelle „Customers“ und als rechte Tabelle für das Zusammenführen die Tabelle „Orders" festgelegt ist. Die Spalte „CustomerID“ ist sowohl für die Tabelle „Customers“ als auch die Tabelle „Orders“ ausgewählt. Außerdem ist die Verknüpfungsart auf „Linke äußere“ festgelegt. Alle anderen Optionen sind auf ihre Standardwerte festgelegt.

  7. Nachdem der Vorgang Abfragen als neue Abfrage zusammenführen ausgeführt wurde, erhalten Sie eine neue Abfrage mit allen Spalten aus der Tabelle „Kunden“ und eine Spalte mit geschachtelten Daten aus der Tabelle „Bestellungen“.

    Screenshot: Dataflows-Editor mit der neuen zusammengeführten Abfrage, die rechts neben den Tabellen „Customers“ und „Orders“ hinzugefügt wurde

  8. In diesem Beispiel sind Sie nur an einer Teilmenge der Spalten in der Tabelle „Customers“ interessiert. Sie wählen diese Spalten in der Schemaansicht aus. Aktivieren Sie die Schemaansicht mit der Umschaltfläche in der unteren rechten Ecke des Dataflow-Editors.

    Screenshot: Dataflows-Editor mit der hervorgehobenen Schaltfläche für die Schemaansicht in der unteren rechten Ecke

  9. Die Schemaansicht bietet einen gezielten Einblick in die Schemainformationen einer Tabelle, einschließlich Spaltennamen und Datentypen. Die Schemaansicht verfügt über eine Reihe von Schematools, die über eine Registerkarte des Kontextmenübands verfügbar sind. In diesem Szenario wählen Sie die Spalten CustomerID, CompanyName und Bestellungen (2) aus. Dann wählen Sie die Schaltfläche Spalten entfernen und anschließend auf der Registerkarte Schematools die Option Andere Spalten entfernen aus.

    Screenshot: Schemaansicht mit allen verfügbaren Spaltennamen, in der die Spalten „CustomerID“, „CompanyName“ und „Orders (2)“ hervorgehoben sind

    Screenshot: Menü mit Schematools, in dem die Option zum Entfernen anderer Spalten hervorgehoben ist

  10. Die Spalte Orders (2) enthält geschachtelte Informationen, die sich aus dem Zusammenführungsvorgang ergeben, den Sie einige Schritte zuvor ausgeführt haben. Wechseln Sie nun zurück zur Datenansicht, indem Sie in der unteren rechten Ecke der Benutzeroberfläche die Schaltfläche Datenansicht anzeigen neben der Schaltfläche Schemaansicht anzeigen auswählen. Verwenden Sie dann die Transformation Spalte erweitern in der Spaltenüberschrift Orders (2), um die Spalte Count auszuwählen.

    Screenshot: Verwenden der Datenansicht

  11. Als letzter Vorgang möchten Sie Ihre Kunden basierend auf der Anzahl der Bestellungen priorisieren. Wählen Sie die Spalte Count und dann die Schaltfläche Spaltenrangfolge auf der Registerkarte Spalte hinzufügen im Menüband aus.

    Screenshot: Dataflows-Editor mit ausgewählter Spalte „Count“

  12. Behalten Sie die Standardeinstellungen in Spaltenrangfolge bei. Wählen Sie OK aus, um diese Transformation anzuwenden.

    Screenshot: Fenster „Rangfolge“ mit der Anzeige aller Standardeinstellungen

  13. Benennen Sie nun die resultierende Abfrage im Bereich Abfrageeinstellungen auf der rechten Seite des Bildschirms in Ranked Customers um.

    Screenshot: Dataflows-Editor mit dem unter den Abfrageeinstellungen hervorgehobenen Namen „Ranked Customers“

  14. Sie haben das Transformieren und Kombinieren Ihrer Daten abgeschlossen. Daher konfigurieren Sie nun die zugehörigen Einstellungen für das Ausgabeziel. Wählen Sie im Bereich Abfrageeinstellungen unten Datenziel auswählen aus.

    Screenshot: Dataflows-Editor mit hervorgehobener Option zum Auswählen des Datenziels

  15. In diesem Schritt können Sie eine Ausgabe für Ihr Lakehouse konfigurieren, sofern Sie über eines verfügen, oder andernfalls diesen Schritt überspringen. In dieser Umgebung können Sie zusätzlich zur Updatemethode („Append“ oder „Replace“) das Ziel-Lakehouse und die Tabelle für Ihre Abfrageergebnisse konfigurieren.

    Screenshot des Fensters „Mit Datenziel verbinden“ mit ausgewähltem Lakehouse.

    Screenshot: Fenster zum Auswählen der Zieleinstellungen

  16. Ihr Dataflow ist jetzt bereit für die Veröffentlichung. Überprüfen Sie die Abfragen in der Diagrammansicht, und wählen Sie dann Veröffentlichen aus.

    Screenshot: Dataflows-Editor mit der hervorgehobenen Schaltfläche „Veröffentlichen“ unten rechts

    Sie werden nun zum Arbeitsbereich zurück geleitet. Ein Wartekreiselsymbol neben dem Dataflownamen zeigt an, dass die Veröffentlichung in Bearbeitung ist. Sobald die Veröffentlichung abgeschlossen ist, kann der Dataflow aktualisiert werden.

    Wichtig

    Bei der ersten Dataflow Gen2-Erstellung in einem Arbeitsbereich werden Lakehouse- und Warehouse-Elemente zusammen mit den zugehörigen SQL-Analyseendpunkten und semantischen Modellen bereitgestellt. Diese Elemente werden von allen Dataflows im Arbeitsbereich gemeinsam verwendet und sind für Dataflow Gen2 erforderlich. Sie sollten nicht gelöscht und nicht direkt von Benutzern verwendet werden. Die Elemente sind ein Implementierungsdetail von Dataflow Gen2. Die Elemente sind im Arbeitsbereich nicht sichtbar, können aber in anderen Oberflächen wie Notebook, SQL-Analyseendpunkt, Lakehouse- und Warehouse-Erfahrungen zugänglich sein. Sie können die Elemente anhand ihres Präfixes im Namen erkennen. Das Präfix der Elemente lautet "DataflowsStaging".

  17. Wählen Sie in Ihrem Arbeitsbereich das Symbol Aktualisierung planen aus.

    Screenshot: Arbeitsbereich mit dem hervorgehobenen Symbol „Aktualisierung planen“

  18. Aktivieren Sie die geplante Aktualisierung, wählen Sie Weiteren Zeitpunkt hinzufügen aus, und konfigurieren Sie die Aktualisierung wie im folgenden Screenshot dargestellt.

    Screenshot: So wird ein weiterer Zeitpunkt ausgewählt

    Screenshot der Optionen für geplante Aktualisierungen, bei denen die geplante Aktualisierung aktiviert ist, die Aktualisierungshäufigkeit auf „Täglich“, die Zeitzone auf „Koordinierte Weltzeit“ und die Uhrzeit auf 4:00 Uhr festgelegt ist. Hervorgehoben sind die Schaltfläche „Ein“, die Option „Weiteren Zeitpunkt hinzufügen“, der Dataflowbesitzer und die Schaltfläche „Anwenden“.

Bereinigen von Ressourcen

Wenn Sie diesen Dataflow nicht weiterhin verwenden möchten, löschen Sie ihn mit folgenden Schritten:

  1. Navigieren Sie zu Ihrem Microsoft Fabric-Arbeitsbereich.

    Screenshot: Fenster „Arbeitsbereiche“, in dem Sie zu Ihrem Arbeitsbereich navigieren

  2. Wählen Sie die vertikalen Auslassungspunkte neben dem Namen Ihres Dataflows und dann Löschen aus.

    Screenshot: Drei vertikale Punkte und die hervorgehobene Option „Löschen“ im Dropdownmenü

  3. Wählen Sie Löschen aus, um die Löschung des Dataflows zu bestätigen.

    Screenshot: Fenster „Dataflow löschen“ mit hervorgehobener Schaltfläche „Löschen“

Der Dataflow in diesem Beispiel zeigt, wie Sie Daten in Dataflow „Gen2“ laden und transformieren. Sie haben Folgendes gelernt:

  • Erstellen Sie einen Dataflow „Gen2“.
  • Transformieren von Daten.
  • Konfigurieren Sie Zieleinstellungen für transformierte Daten.
  • Führen Sie Ihre Datenpipeline aus, und planen Sie sie.

Fahren Sie mit dem nächsten Artikel fort, um mehr über das Erstellen einer Datenpipeline zu erfahren.