Schnellstart: Erstellen Ihres ersten Dataflow zum Abrufen und Transformieren von Daten
Dataflows sind eine cloudbasierte Self-Service-Technologie zur Datenaufbereitung. In diesem Artikel erstellen Sie Ihren ersten Dataflow, Sie rufen Daten für Ihren Dataflow ab, transformieren dann die Daten und veröffentlichen den Dataflow.
Voraussetzungen
Bevor Sie beginnen, müssen die folgenden Voraussetzungen erfüllt sein:
- Ein Microsoft Fabric-Mandantenkonto mit einem aktiven Abonnement. Erstellen Sie ein kostenloses Konto.
- Stellen Sie sicher, dass Sie über einen für Microsoft Fabric aktivierten Arbeitsbereich verfügen: Erstellen eines Arbeitsbereichs.
Erstellen eines Dataflows
In diesem Abschnitt erstellen Sie Ihren ersten Dataflow.
Wechseln Sie zur Data Factory-Benutzeroberfläche.
Navigieren Sie zu Ihrem Microsoft Fabric-Arbeitsbereich.
Wählen Sie Neu und dann Dataflow Gen2 aus.
Datensammlung
Nun werden wir Daten abrufen! In diesem Beispiel rufen Sie Daten von einem OData-Dienst ab. Führen Sie die folgenden Schritte aus, um Daten in Ihren Dataflow abzurufen.
Wählen Sie im Dataflow-Editor die Option Daten abrufen und dann Weitere aus.
Wählen Sie in Datenquelle auswählen die Option Weitere anzeigen aus.
Wählen Sie in Neue Quelle die Option Andere>OData als Datenquelle aus.
Geben Sie die URL
https://services.odata.org/v4/northwind/northwind.svc/
ein, und wählen Sie anschließend Weiter aus.Wählen Sie die Tabellen Orders und Customers und dann Erstellen aus.
Weitere Informationen zur Dateneingabe und -funktionalität finden Sie unter Abrufen von Daten – Übersicht.
Anwenden von Transformationen und Veröffentlichen
Glückwunsch! Sie haben nun Ihre Daten in Ihren ersten Dataflow geladen. Nun ist es an der Zeit, eine Reihe von Transformationen vorzunehmen, um die Daten in die gewünschte Form zu bringen.
Sie führen diese Aufgabe im Power Query-Editor aus. Eine detaillierte Übersicht über den Power Query-Editor finden Sie unter Power Query-Benutzeroberfläche.
Führen Sie die folgenden Schritte aus, um Transformationen anzuwenden und zu veröffentlichen:
Stellen Sie sicher, dass die Datenprofilerstellungstools aktiviert sind, indem Sie zu Start>Optionen>Globale Optionen navigieren.
Stellen Sie außerdem sicher, dass Sie die Diagrammansicht mithilfe der Optionen unter der Registerkarte Ansicht im Power Query-Editor-Menüband aktiviert haben oder indem Sie das Diagrammansichtssymbol auf der unteren rechten Seite des Power Query-Fensters auswählen.
In der Tabelle „Bestellungen“ berechnen Sie die Gesamtzahl Bestellungen pro Kunde. Um dieses Ziel zu erreichen, wählen Sie in der Datenvorschau die Spalte CustomerID und dann auf der Registerkarte Transformieren die Option Gruppieren nach aus.
Sie führen als Aggregation in Gruppieren nach eine Zeilenzählung aus. Weitere Informationen zu den Funktionen von Gruppieren nach finden Sie unter Gruppieren oder Zusammenfassen von Zeilen.
Nach dem Gruppieren von Daten in der Tabelle „Orders erhalten“ wir eine zweispaltige Tabelle mit den Spalten CustomerID und Count.
Als Nächstes möchten Sie Daten aus der Tabelle „Customers“ mit der Anzahl der Bestellungen pro Kunde kombinieren. Um Daten zu kombinieren, wählen Sie in der Diagrammansicht die Abfrage der Tabelle „Customers“ aus, und greifen Sie über das Menü „⋮" auf die Transformation Abfragen in neuer Abfrage zusammenführen zu.
Konfigurieren Sie den Zusammenführungsvorgang wie im folgenden Screenshot gezeigt, indem Sie in beiden Tabellen CustomerID als übereinstimmende Spalte auswählen. Wählen Sie Ok.
Screenshot des Fenster „Zusammenführen“, in dem als linke Tabelle für das Merge Zusammenführen die Tabelle „Customers“ und als rechte Tabelle für das Zusammenführen die Tabelle „Orders" festgelegt ist. Die Spalte „CustomerID“ ist sowohl für die Tabelle „Customers“ als auch die Tabelle „Orders“ ausgewählt. Außerdem ist die Verknüpfungsart auf „Linke äußere“ festgelegt. Alle anderen Optionen sind auf ihre Standardwerte festgelegt.
Nachdem der Vorgang Abfragen als neue Abfrage zusammenführen ausgeführt wurde, erhalten Sie eine neue Abfrage mit allen Spalten aus der Tabelle „Kunden“ und eine Spalte mit geschachtelten Daten aus der Tabelle „Bestellungen“.
In diesem Beispiel sind Sie nur an einer Teilmenge der Spalten in der Tabelle „Customers“ interessiert. Sie wählen diese Spalten in der Schemaansicht aus. Aktivieren Sie die Schemaansicht mit der Umschaltfläche in der unteren rechten Ecke des Dataflow-Editors.
Die Schemaansicht bietet einen gezielten Einblick in die Schemainformationen einer Tabelle, einschließlich Spaltennamen und Datentypen. Die Schemaansicht verfügt über eine Reihe von Schematools, die über eine Registerkarte des Kontextmenübands verfügbar sind. In diesem Szenario wählen Sie die Spalten CustomerID, CompanyName und Bestellungen (2) aus. Dann wählen Sie die Schaltfläche Spalten entfernen und anschließend auf der Registerkarte Schematools die Option Andere Spalten entfernen aus.
Die Spalte Orders (2) enthält geschachtelte Informationen, die sich aus dem Zusammenführungsvorgang ergeben, den Sie einige Schritte zuvor ausgeführt haben. Wechseln Sie nun zurück zur Datenansicht, indem Sie in der unteren rechten Ecke der Benutzeroberfläche die Schaltfläche Datenansicht anzeigen neben der Schaltfläche Schemaansicht anzeigen auswählen. Verwenden Sie dann die Transformation Spalte erweitern in der Spaltenüberschrift Orders (2), um die Spalte Count auszuwählen.
Als letzter Vorgang möchten Sie Ihre Kunden basierend auf der Anzahl der Bestellungen priorisieren. Wählen Sie die Spalte Count und dann die Schaltfläche Spaltenrangfolge auf der Registerkarte Spalte hinzufügen im Menüband aus.
Behalten Sie die Standardeinstellungen in Spaltenrangfolge bei. Wählen Sie OK aus, um diese Transformation anzuwenden.
Benennen Sie nun die resultierende Abfrage im Bereich Abfrageeinstellungen auf der rechten Seite des Bildschirms in Ranked Customers um.
Sie haben das Transformieren und Kombinieren Ihrer Daten abgeschlossen. Daher konfigurieren Sie nun die zugehörigen Einstellungen für das Ausgabeziel. Wählen Sie im Bereich Abfrageeinstellungen unten Datenziel auswählen aus.
In diesem Schritt können Sie eine Ausgabe für Ihr Lakehouse konfigurieren, sofern Sie über eines verfügen, oder andernfalls diesen Schritt überspringen. In dieser Umgebung können Sie zusätzlich zur Updatemethode („Append“ oder „Replace“) das Ziel-Lakehouse und die Tabelle für Ihre Abfrageergebnisse konfigurieren.
Ihr Dataflow ist jetzt bereit für die Veröffentlichung. Überprüfen Sie die Abfragen in der Diagrammansicht, und wählen Sie dann Veröffentlichen aus.
Sie werden nun zum Arbeitsbereich zurück geleitet. Ein Wartekreiselsymbol neben dem Dataflownamen zeigt an, dass die Veröffentlichung in Bearbeitung ist. Sobald die Veröffentlichung abgeschlossen ist, kann der Dataflow aktualisiert werden.
Wichtig
Bei der ersten Dataflow Gen2-Erstellung in einem Arbeitsbereich werden Lakehouse- und Warehouse-Elemente zusammen mit den zugehörigen SQL-Analyseendpunkten und semantischen Modellen bereitgestellt. Diese Elemente werden von allen Dataflows im Arbeitsbereich gemeinsam verwendet und sind für Dataflow Gen2 erforderlich. Sie sollten nicht gelöscht und nicht direkt von Benutzern verwendet werden. Die Elemente sind ein Implementierungsdetail von Dataflow Gen2. Die Elemente sind im Arbeitsbereich nicht sichtbar, können aber in anderen Oberflächen wie Notebook, SQL-Analyseendpunkt, Lakehouse- und Warehouse-Erfahrungen zugänglich sein. Sie können die Elemente anhand ihres Präfixes im Namen erkennen. Das Präfix der Elemente lautet "DataflowsStaging".
Wählen Sie in Ihrem Arbeitsbereich das Symbol Aktualisierung planen aus.
Aktivieren Sie die geplante Aktualisierung, wählen Sie Weiteren Zeitpunkt hinzufügen aus, und konfigurieren Sie die Aktualisierung wie im folgenden Screenshot dargestellt.
Screenshot der Optionen für geplante Aktualisierungen, bei denen die geplante Aktualisierung aktiviert ist, die Aktualisierungshäufigkeit auf „Täglich“, die Zeitzone auf „Koordinierte Weltzeit“ und die Uhrzeit auf 4:00 Uhr festgelegt ist. Hervorgehoben sind die Schaltfläche „Ein“, die Option „Weiteren Zeitpunkt hinzufügen“, der Dataflowbesitzer und die Schaltfläche „Anwenden“.
Bereinigen von Ressourcen
Wenn Sie diesen Dataflow nicht weiterhin verwenden möchten, löschen Sie ihn mit folgenden Schritten:
Navigieren Sie zu Ihrem Microsoft Fabric-Arbeitsbereich.
Wählen Sie die vertikalen Auslassungspunkte neben dem Namen Ihres Dataflows und dann Löschen aus.
Wählen Sie Löschen aus, um die Löschung des Dataflows zu bestätigen.
Zugehöriger Inhalt
Der Dataflow in diesem Beispiel zeigt, wie Sie Daten in Dataflow „Gen2“ laden und transformieren. Sie haben Folgendes gelernt:
- Erstellen Sie einen Dataflow „Gen2“.
- Transformieren von Daten.
- Konfigurieren Sie Zieleinstellungen für transformierte Daten.
- Führen Sie Ihre Datenpipeline aus, und planen Sie sie.
Fahren Sie mit dem nächsten Artikel fort, um mehr über das Erstellen einer Datenpipeline zu erfahren.