Erstellen einer visuellen Datenvorbereitung in Lakeflow Designer

Important

Dieses Feature befindet sich in der Public Preview.

Mit Lakeflow Designer können Sie Datentransformationsworkflows auf einem visuellen, drag-and-drop-Canvas erstellen. Auf dieser Seite wird erläutert, wie Sie eine visuelle Datenvorbereitung erstellen – vom Hinzufügen einer Datenquelle und dem Verketten von Operatoren bis hin zur Vorschau von Ergebnissen und dem Schreiben in den Unity Catalog.

So erstellen Sie eine visuelle Datenvorbereitung:

  1. Überprüfen der Anforderungen
  2. Erstellen einer visuellen Datenvorbereitung
  3. Hinzufügen einer Datenquelle
  4. Hinzufügen und Konfigurieren von Operatoren
  5. Verbinden von Operatoren
  6. Vorschau der Ergebnisse
  7. Schreiben von Ergebnissen in den Unity-Katalog
  8. Planung oder Ausführung im Produktionsbetrieb
  9. Speichern und Verwalten in Git

Anforderungen

Um Lakeflow Designer zu verwenden, müssen Sie folgendes haben:

  • Ein Azure Databricks-Arbeitsbereich mit aktiviertem Unity-Katalog.
  • CAN USE Berechtigung für mindestens eine allgemein nutzbare Compute-Ressource (Serverless oder Allzweck).

Erstellen einer neuen visuellen Datenvorbereitung

Um eine neue visuelle Datenvorbereitung zu erstellen, klicken Sie auf das Plussymbol.Neu in der Randleiste, und wählen Sie visual data prep aus.

Der Designer wird mit einer Willkommensseite geöffnet, auf der Sie eine Datenquelle hinzufügen oder eine Beispielvorbereitung für visuelle Daten erkunden können.

Hinzufügen einer Datenquelle

Jeder Designerworkflow beginnt mit einer oder mehreren Datenquellen. Der Source-Operator stellt eine Datenquelle auf dem Zeichenbereich dar.

So fügen Sie eine Datenquelle hinzu:

  1. Fügen Sie einen Source-Operator hinzu. Klicken Sie auf der Willkommensseite auf den Quelloperator auswählen. Öffnen Sie in der Arbeitsfläche das Operatormenü und wählen Sie "Quelle" aus.
  2. Wählen Sie im Bereich "Quellkonfiguration" aus, wie Ihre Daten angezeigt werden sollen. Sie können nach einer vorhandenen Tabelle suchen, eine lokale CSV- oder Excel-Datei hochladen, eine Tabelle aus einer Datei erstellen oder aus Google Drive oder SharePoint importieren.
  3. Wählen Sie Ihre Datenquelle aus, oder konfigurieren Sie sie. Der Source-Operator erscheint auf der Leinwand.

Sie können auch eine CSV- oder Excel-Datei direkt auf den Zeichenbereich ziehen und ablegen, um schnell einen Quelloperator zu erstellen.

Um die Quelle später zu ändern, öffnen Sie den Source-Operator, und klicken Sie auf "Neue Datenquelle auswählen". Durch Das Ändern der Quelle wird der Ausgabecache für alle downstream-Operatoren ungültig.

Ausführliche Informationen zu den einzelnen Aufnahmeoptionen finden Sie unter "Daten aufnehmen" in Lakeflow Designer.

Hinzufügen und Konfigurieren von Operatoren

Um einen Operator hinzuzufügen, öffnen Sie das Operatormenü im Seitenbereich auf der linken Seite der Arbeitsfläche. Klicken Sie auf einen Operator, um ihn dem Zeichenbereich hinzuzufügen, oder ziehen Sie einen Operator aus dem Menü auf den Zeichenbereich. Sie können auch auf die + Schaltfläche neben einem beliebigen vorhandenen Operator klicken, um einen neuen Operator mit einer automatischen Verbindung hinzuzufügen.

LFD-Bedienermenü mit Drag-and-Drop auf die Leinwand.

Um einen Operator zu konfigurieren, doppelklicken Sie darauf, oder halten Sie den Mauszeiger darauf, und klicken Sie auf Bleistiftsymbol. (Bearbeitungsoperator), um den Konfigurationsbereich zu öffnen. Legen Sie die Optionen für diesen Operatortyp fest, und klicken Sie dann auf Übernehmen.

Ausführliche Informationen zu jedem verfügbaren Operator finden Sie unter integrierten Operatoren in Lakeflow Designer. Ausführliche Informationen zum Erstellen eigener benutzerdefinierter Operatoren finden Sie unter User-defined operators in Lakeflow Designer.

Verbinden von Operatoren

Um zwei Operatoren zu verbinden, klicken und ziehen Sie vom Ausgabepunkt (dem kleinen Kreis am rechten Rand eines Operators) zum Eingabepunkt (dem kleinen Kreis am linken Rand des nächsten Operators). Dies gibt an, dass Daten vom ersten Operator in die zweite fließen. Daten fließen von links nach rechts durch die visuelle Datenvorbereitung.

LFD-Canvas mit einer Verbindung zwischen zwei Operatoren.

Einige Operatoren, z. B. Join und Combine, akzeptieren mehrere Eingaben.

Verwenden von Genie Code

Sie können jederzeit während der Bearbeitung im Lakeflow-Designer Aufforderungen zu Genie Code erstellen, um Hilfe zu erhalten.

LFD Genie Code-Eingabeaufforderung

Bei Verwendung von Genie Code bieten die folgenden Schaltflächen zusätzliche Funktionen:

  • Bildsymbol. : Lädt ein Bild hoch, das als Teil der Eingabeaufforderung verwendet werden soll.
  • Bei Icons. : Verwenden Sie, um Objekte wie Tabellen oder Dateien zu erwähnen, die als Teil der Eingabeaufforderung verwendet werden sollen.
  • Sprachblase plus Symbol. : Startet einen neuen Chatthread mit neuem Agentkontext.
  • Reader-Modus-Symbol. : Öffnet den seitlichen Bereich für den Gesprächsverlauf und bietet eine umfassendere Ansicht der Aktivitäten des Agents.

Genie Code zeigt eine einzeilige Zusammenfassung seiner letzten Bearbeitung über dem Eingabefeld.

Vorschau der Ergebnisse

Wählen Sie einen beliebigen Operator aus, um die Ergebnisse im Ausgabebereich am unteren Rand des Bildschirms anzuzeigen. Bei den meisten Operatortypen befindet sich die Eingabedaten auf der linken Seite, und die Ausgabedaten sind rechts. Operatoren, die Nichttabellenergebnisse erzeugen, z. B. Plots, HTML oder Bilder, rendern diese Ausgaben direkt im Ausgabebereich.

Verwenden Sie die Ansichtssteuerung im Ausgabefenster, um zwischen Eingabe und Ausgabe (Standard), nur Eingabe oder nur Ausgabe zu wechseln. Ziehen Sie in der kombinierten Ansicht die Trennlinie, um die Größe der Eingabe- und Ausgabebereiche zu ändern.

LFD-Ausgabebereich unterhalb des Zeichenbereichs.

Standardmäßig verarbeiten Operatoren eine begrenzte Stichprobe von Daten. Verwenden Sie die Dropdownliste "Zeilen gescannt" im Ausgabebereich, um zu steuern, wie viele Zeilen verarbeitet werden sollen:

  • Gescannte Zeilen: Limit: Verarbeitet die ersten N-Eingabezeilen. Geben Sie die Anzahl der Zeilen im Feld neben dem Dropdown an.
  • Gescannte Zeilen: Max: Verarbeitet alle Eingabezeilen.

Warning

Wird mit gescannten Zeilen ausgeführt: Max führt alle Upstreamoperatoren mit dem vollständigen, ungebundenen Dataset erneut aus und kann eine lange Zeit in Anspruch nehmen.

Datenprofilierung

Im Ausgabebereich können Sie auswählen, dass Details zu den Daten in der Ausgabe angezeigt werden. Wählen Sie in der oberen rechten Ecke des Ausgabebereichs das Randleistensymbol aus. Die Randleistenschaltfläche , um die Auswahldetails zu öffnen. Wählen Sie eine Teilmenge Ihrer Daten aus, um Details zur Auswahl anzuzeigen.

Randleiste mit Diagrammen und Details zu den ausgewählten Ausgabedaten.

Schreiben von Ergebnissen in den Unity-Katalog

Fügen Sie einen Ausgabeoperator hinzu, um Ihre Ergebnisse in eine Tabelle im Unity-Katalog zu schreiben:

  1. Öffnen Sie das Operatormenü, wählen Sie "Ausgabe" aus, oder klicken Sie neben + dem letzten Operator, und wählen Sie "Ausgabe" aus.
  2. Verbinden Sie den Ausgabehandle Ihrer letzten Transformation mit dem Eingabehandle des Ausgabeoperators , wenn dies noch nicht verbunden ist.
  3. Doppelklicken Sie auf den Ausgabeoperator , um den Konfigurationsbereich zu öffnen.
  4. Geben Sie einen Tabellennamen ein, und wählen Sie den Ausgabespeicherort (Katalog und Schema) aus.
  5. Klicken Sie auf Ausführen.

Planen oder in Produktion ausführen

Sie können Ihre Workflows automatisieren, indem Sie sie als Aufträge planen.

  • Direkt planen: Klicken Sie im oberen Menü auf die Schaltfläche Zeitplan, um eine geplante Aufgabe für Ihre visuelle Datenaufbereitung zu erstellen.
  • Einem Job hinzufügen: Erstellen Sie einen Azure Databricks-Job, und wählen Sie Ihre visuelle Datenaufbereitung als Task aus. Auf diese Weise können Sie diese visuelle Datenaufbereitung mit anderen Aufgaben zu einer größeren Pipeline kombinieren.

LFD-Zeitplansteuerung zur Automatisierung einer visuellen Datenaufbereitung als Job.

Speichern und Verwalten visueller Datenvorbereitungsdateien in Git

Visuelle Datenvorbereitungsdateien werden nativ im Arbeitsbereich gespeichert. Um sie mit Git zu verwenden, erstellen Sie einen Git-Ordner, und platzieren Sie die Datei dort. Wenn sich die Datei in einem Git-Ordner befindet, können Sie Git wie für jede normale Datei oder ein normales Notizbuch verwenden.

Die Datei wird in Git als Notizbuch mit dem Format file_name.designer.ipynbangezeigt.

Weitere Tipps beim Arbeiten im Zeichenbereich

Die folgenden Aktionen stehen auf der Arbeitsfläche zur Verfügung, um Sie beim Bearbeiten Ihrer visuellen Datenaufbereitung zu unterstützen.

  • Benennen Sie einen Operator um: Klicken Sie oben im Konfigurationsbereich auf das Textfeld, um den Operator umzubenennen. Beschreibende Namen erleichtern das Verständnis Ihrer visuellen Datenaufbereitung auf einen Blick. Einige Operatoren, z. B. der SQL-Operator, können anhand des Namens auf die Ausgabe anderer Operatoren verweisen.
  • Kopieren Sie einen Operator: Halten Sie den Mauszeiger über einen Operator, und klicken Sie auf das Symbol , oder wählen Sie einen Operator aus, und drücken Sie DANN CMD/STRG+V.
  • Automatisches Layout: Klicken Sie auf das horizontale DAG-Symbol. In der Kopfzeilensymbolleiste werden alle Operatoren automatisch in einem kompakten Layout angeordnet.
  • Ansicht anpassen: Klicken Sie auf Zoom, um das Symbol anzupassen. In der Kopfzeilensymbolleiste werden alle Operatoren im aktuellen Viewport angezeigt.
  • Rückgängig machen und wiederholen: Drücken Sie Cmd/Strg+Z und Cmd/Strg+Umschalt+Z oder verwenden Sie die Schaltflächen zum Rückgängigmachen und Wiederholen in der Symbolleiste der Kopfzeile.
  • Generierten Code anzeigen: Um den von Designer generierten PySpark-Code anzuzeigen, öffnen Sie den Versionsverlauf im rechten Bereich, verschieben Sie die Datei in einen Git-Ordner, und zeigen Sie ihn dort an, oder zeigen Sie den Code in den Auftragsausführungsdetails an.

Nächste Schritte