Tutorial: Ausführen Ihrer ersten Delta Live Tables-Pipeline

Wichtig

Serverlose DLT-Pipelines befinden sich in der Public Preview-Phase. Wenn Sie mehr über die Aktivierung von serverlosen DLT-Pipelines erfahren möchten, wenden Sie sich an Ihr Azure Databricks-Kontoteam.

In diesem Tutorial erfahren Sie, wie Sie eine Delta Live Tables-Pipeline über den Code in einem Databricks-Notebook konfigurieren und die Pipeline durch Auslösen eines Pipelineupdates ausführen. Dieses Tutorial enthält eine Beispielpipeline zum Erfassen und Verarbeiten eines Beispieldatasets mit Beispielcode anhand der Python- und SQL-Schnittstellen. Sie können die Anweisungen in diesem Tutorial auch verwenden, um eine Pipeline mit beliebigen Notebooks mit ordnungsgemäß definierter Delta Live Tables-Syntax zu erstellen.

Sie können Delta Live Tables-Pipelines konfigurieren und Updates in der Benutzeroberfläche des Azure Databricks-Arbeitsbereichs oder mit automatisierten Tools (z. B. mit der API, der CLI und Databricks-Ressourcenpaketen) oder als Aufgabe in einem Databricks-Workflow auslösen. Um sich mit den Funktionen und Features von Delta Live Tables vertraut zu machen, empfiehlt Databricks, zunächst die Benutzeroberfläche zum Erstellen und Ausführen von Pipelines zu verwenden. Wenn Sie eine Pipeline in der Benutzeroberfläche konfigurieren, generiert Delta Live Tables zudem eine JSON-Konfiguration für Ihre Pipeline, die Sie zum Implementieren Ihrer programmgesteuerten Workflows verwenden können.

Um die Funktionalität von Delta Live Tables zu veranschaulichen, wird mit den Beispielen in diesem Tutorial ein öffentlich verfügbares Dataset heruntergeladen. Databricks bietet jedoch mehrere Möglichkeiten, eine Verbindung mit Datenquellen herzustellen und Daten zu erfassen, die von Pipelines in realen Anwendungsfällen verwendet werden. Weitere Informationen finden Sie unter Erfassen von Daten mit Delta Live Tables.

Anforderungen

  • Zum Starten einer nicht serverlosen Pipeline benötigen Sie die Berechtigung zur Clustererstellung oder Zugriff auf eine Clusterrichtlinie, die einen Delta Live Tables-Cluster definiert. Die Delta Live Tables-Runtime erstellt einen Cluster, bevor die Pipeline ausgeführt wird und schlägt fehl, wenn Sie nicht über die richtige Berechtigung verfügen.

  • Um die Beispiele in diesem Tutorial verwenden zu können, muss für Ihren Arbeitsbereich Unity Catalog aktiviert sein.

  • Außerdem müssen Sie über die folgenden Berechtigungen in Unity Catalog verfügen:

    • READ VOLUME und WRITE VOLUME oder ALL PRIVILEGES für das Volume my-volume.
    • USE SCHEMA oder ALL PRIVILEGES für das Schema default.
    • USE CATALOG oder ALL PRIVILEGES für den Katalog main.

    Wenden Sie sich zum Festlegen dieser Berechtigungen an Ihren Databricks-Administrator, oder lesen Sie den Artikel Unity Catalog-Berechtigungen und sicherungsfähige Objekte, um mehr zu erfahren.

  • In den Beispielen in diesem Tutorial wird ein Unity Catalog-Volume zum Speichern von Beispieldaten verwendet. Um diese Beispiele zu verwenden, erstellen Sie ein Volume, und verwenden Sie den Katalog, das Schema und die Volumenamen dieses Volumes, um den in den Beispielen verwendeten Volumepfad festzulegen.

Hinweis

Wenn Unity Catalog für Ihren Arbeitsbereich nicht aktiviert ist, können Sie die an diesen Artikel angefügten Notebooks mit Beispielen verwenden, die Unity Catalog nicht erfordern. Um diese Beispiele zu verwenden, wählen Sie beim Erstellen der Pipeline die Speicheroption Hive metastore aus.

Wo werden Delta Live Tables-Abfragen ausgeführt?

Delta Live Tables-Abfragen werden in erster Linie in Databricks-Notebooks implementiert, Delta Live Tables ist jedoch nicht zur interaktiven Ausführung in Notebook-Zellen konzipiert. Das Ausführen einer Zelle, die Delta Live Tables-Syntax in einem Databricks-Notebook enthält, führt zu einer Fehlermeldung. Um Ihre Abfragen auszuführen, müssen Sie Ihre Notebooks als Teil einer Pipeline konfigurieren.

Wichtig

  • Sie können sich beim Schreiben von Abfragen für Delta Live Tables nicht auf die zellenweise Ausführungsreihenfolge von Notebooks verlassen. Delta Live Tables wertet den gesamten in Notebooks definierten Code aus und führt diesen aus, verwendet jedoch ein anderes Ausführungsmodell als der Befehl Alle ausführen für ein Notebook.
  • In einer einzigen Delta Live Tables-Quellcodedatei können Programmiersprachen nicht gemischt werden. Ein Notebook kann beispielsweise nur Python-Abfragen oder nur SQL-Abfragen enthalten. Wenn Sie in einer Pipeline mehrere Sprachen verwenden müssen, verwenden Sie mehrere sprachspezifische Notebooks oder Dateien in der Pipeline.

Sie können auch in Dateien gespeicherten Python-Code verwenden. Sie können beispielsweise ein Python-Modul erstellen, das in Ihre Python-Pipelines importiert werden kann, oder benutzerdefinierte Python-Funktionen (User-Defined Functions, UDFs) zur Verwendung in SQL-Abfragen definieren. Informationen zum Importieren von Python-Modulen finden Sie im Artikel zum Importieren von Python-Modulen aus Git-Ordnern oder Arbeitsbereichsdateien. Informationen zur Verwendung von Python-UDFs finden Sie unter Benutzerdefinierte Skalarfunktionen: Python.

Beispiel: Erfassen und Verarbeiten von Babynamen in New York

Im Beispiel in diesem Artikel wird ein öffentlich verfügbares Dataset verwendet, das Datensätze mit New York State Baby Names enthält. Diese Beispiele veranschaulichen die Verwendung einer Delta Live Tables-Pipeline für folgende Zwecke:

  • Lesen von unformatierten CSV-Daten aus einem öffentlich verfügbaren Dataset in eine Tabelle.
  • Datensätze aus der Rohdatentabelle lesen und die Delta Live Tables-Erwartungen verwenden können, um eine neue Tabelle zu erstellen, die bereinigte Daten enthält.
  • Verwenden der bereinigten Datensätze als Eingabe für Delta Live Tables-Abfragen, die abgeleitete Datasets erstellen.

Dieser Code veranschaulicht ein vereinfachtes Beispiel für die Medallion-Architektur. Siehe Worum handelt es sich bei der Medallion- Lakehouse-Architektur?.

Implementierungen dieses Beispiels sind für die Python- und SQL-Schnittstellen verfügbar. Sie können die Schritte ausführen, um neue Notebooks zu erstellen, die den Beispielcode enthalten. Alternativ können Sie mit Erstellen einer Pipeline fortfahren und eines der Notebooks verwenden, die auf dieser Seite bereitgestellt werden.

Implementieren einer Delta Live Tables-Pipeline mit Python

Python-Code, der Delta Live Tables-Datasets erstellt, muss DataFrames zurückgeben, womit Benutzer von PySpark oder Pandas für Spark bereits vertraut sind. Für Benutzer, die nicht mit DataFrames vertraut sind, empfiehlt Databricks die Verwendung der SQL-Schnittstelle. Weitere Informationen finden Sie unter Implementieren einer Delta Live Tables-Pipeline mit SQL.

Alle Python-APIs von Delta Live Tables werden im dlt-Modul implementiert. Ihr mit Python implementierter Delta Live Tables-Pipelinecode muss das dlt-Modul am Anfang von Python-Notebooks und -Dateien explizit importieren. Delta Live Tables unterscheiden sich von vielen Python-Skripts auf eine wichtige Weise: Sie rufen nicht die Funktionen auf, die Datenaufnahme und Transformation durchführen, um Delta Live Tables-Datasets zu erstellen. Stattdessen interpretiert Delta Live Tables die Dekorierfunktionen aus dem dlt-Modul in allen Dateien, die in eine Pipeline geladen wurden, und erstellt ein Datenflussdiagramm.

Um das Beispiel in diesem Tutorial zu implementieren, kopieren Sie den folgenden Python-Code, und fügen Sie ihn in ein neues Python-Notebook ein. Fügen Sie jeden Beispielcodeschnipsel in der beschriebenen Reihenfolge in der entsprechenden Zelle im Notebook hinzu. Informationen zum Überprüfen von Optionen zum Erstellen von Notebooks finden Sie unter Erstellen eines Notebooks.

Hinweis

Wenn Sie eine Pipeline mit der Python-Schnittstelle erstellen, werden Tabellennamen standardmäßig durch Funktionsnamen definiert. Im folgenden Python-Beispiel werden beispielsweise die drei Tabellen baby_names_raw, baby_names_preparedund top_baby_names_2021 erstellt. Sie können den Tabellennamen mit dem Parameter name überschreiben. Siehe Erstellen einer materialisierten Ansicht oder Streamingtabelle für Delta Live Tables.

Importieren des Delta Live Tables-Moduls

Alle Python-APIs von Delta Live Tables werden im dlt-Modul implementiert. Importieren Sie das dlt-Modul explizit oben in Python-Notebooks und -dateien.

Das folgende Beispiel zeigt diesen Import zusammen mit Importanweisungen für pyspark.sql.functions.

import dlt
from pyspark.sql.functions import *

Herunterladen der Daten

Um die Daten für dieses Beispiel abzurufen, laden Sie eine CSV-Datei herunter, und speichern Sie sie wie folgt im Volume:

import os

os.environ["UNITY_CATALOG_VOLUME_PATH"] = "/Volumes/<catalog-name>/<schema-name>/<volume-name>/"
os.environ["DATASET_DOWNLOAD_URL"] = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
os.environ["DATASET_DOWNLOAD_FILENAME"] = "rows.csv"

dbutils.fs.cp(f"{os.environ.get('DATASET_DOWNLOAD_URL')}", f"{os.environ.get('UNITY_CATALOG_VOLUME_PATH')}{os.environ.get('DATASET_DOWNLOAD_FILENAME')}")

Ersetzen Sie <catalog-name>, <schema-name> und <volume-name> durch die Katalog-, Schema- und Volumenamen für ein Unity Catalog-Volume.

Erstellen einer Tabelle aus Dateien im Objektspeicher

Delta Live Tables unterstützt das Laden von Daten aus allen von Azure Databricks unterstützten Formaten. Siehe Datenformatoptionen.

Das Decorator-Element @dlt.table weist Delta Live Tables an, eine Tabelle zu erstellen, die das Ergebnis eines DataFrame enthält, das von einer Funktion zurückgegeben wurde. Fügen Sie den @dlt.table-Dekorateur vor jeder Python-Funktionsdefinition hinzu, die einen Spark DataFrame zurückgibt, um eine neue Tabelle in Delta Live Tables zu registrieren. Im folgenden Beispiel wird die Verwendung des Funktionsnamens als Tabellenname und das Hinzufügen eines beschreibenden Kommentars zur Tabelle veranschaulicht:

@dlt.table(
  comment="Popular baby first names in New York. This data was ingested from the New York State Department of Health."
)
def baby_names_raw():
  df = spark.read.csv(f"{os.environ.get('UNITY_CATALOG_VOLUME_PATH')}{os.environ.get('DATASET_DOWNLOAD_FILENAME')}", header=True, inferSchema=True)
  df_renamed_column = df.withColumnRenamed("First Name", "First_Name")
  return df_renamed_column

Hinzufügen einer Tabelle aus einem Upstream-Dataset in der Pipeline

Sie können dlt.read()-Daten aus anderen Datasets lesen, die in Ihrer aktuellen Delta Live Tables-Pipeline deklariert sind. Durch das Deklarieren neuer Tabellen wird auf diese Weise eine Abhängigkeit erstellt, die Delta Live Tables automatisch auflöst, bevor Updates ausgeführt werden. Der folgende Code enthält auch Beispiele für die Überwachung und Erzwingung der Datenqualität mit Erwartungen. Siehe Verwalten der Datenqualität mit Delta Live Tables.

@dlt.table(
  comment="New York popular baby first name data cleaned and prepared for analysis."
)
@dlt.expect("valid_first_name", "First_Name IS NOT NULL")
@dlt.expect_or_fail("valid_count", "Count > 0")
def baby_names_prepared():
  return (
    dlt.read("baby_names_raw")
      .withColumnRenamed("Year", "Year_Of_Birth")
      .select("Year_Of_Birth", "First_Name", "Count")
  )

Erstellen einer Tabelle mit erweiterten Datenansichten

Da Delta Live Tables Aktualisierungen von Pipelines als eine Reihe von Abhängigkeitsdiagrammen verarbeitet, können Sie hochgradig angereicherte Ansichten deklarieren, die Dashboards, BI und Analysen unterstützen, indem Sie Tabellen mit spezifischer Geschäftslogik deklarieren.

Vom Konzept her entsprechen Tabellen in Delta Live Tables materialisierten Ansichten. Während herkömmliche Ansichten auf Spark bei jeder Abfrage der Ansicht eine Logik ausführen, speichert eine Delta Live Tables-Tabelle die aktuellste Version der Abfrageergebnisse in Datendateien. Da Delta Live Tables die Aktualisierungen für alle Datasets in einer Pipeline verwaltet, können Sie die Pipeline-Updates so planen, dass sie den Latenzanforderungen für materialisierte Ansichten entsprechen, und wissen, dass die Abfragen für diese Tabellen die aktuellste verfügbare Version der Daten enthalten.

Die durch den folgenden Code definierte Tabelle veranschaulicht die konzeptionelle Ähnlichkeit mit einer materialisierten Ansicht, die von Upstream-Daten in Ihrer Pipeline abgeleitet wurde:

@dlt.table(
  comment="A table summarizing counts of the top baby names for New York for 2021."
)
def top_baby_names_2021():
  return (
    dlt.read("baby_names_prepared")
      .filter(expr("Year_Of_Birth == 2021"))
      .groupBy("First_Name")
      .agg(sum("Count").alias("Total_Count"))
      .sort(desc("Total_Count"))
      .limit(10)
  )

Informationen zum Konfigurieren einer Pipeline, die das Notebook verwendet, finden Sie unter Erstellen einer Pipeline.

Implementieren einer Delta Live Tables-Pipeline mit SQL

Databricks empfiehlt Delta Live Tables mit SQL als bevorzugte Methode für SQL-Benutzer, um neue ETL-, Ingestion- und Transformationspipelines auf Azure Databricks zu erstellen. Die SQL-Schnittstelle für Delta Live Tables erweitert die Standard-Spark-SQL mit vielen neuen Schlüsselwörtern, Konstrukten und Tabellenwertfunktionen. Diese Ergänzungen von Standard-SQL ermöglichen es Benutzern, Abhängigkeiten zwischen Datasets zu deklarieren und die Infrastruktur auf Produktionsniveau bereitzustellen, ohne neue Tools oder zusätzliche Konzepte erlernen zu müssen.

Für Benutzer, die mit Spark DataFrames vertraut sind und Unterstützung für umfangreichere Tests und Vorgänge benötigen, die mit SQL schwer zu implementieren sind (z. B. Metaprogrammierungsvorgänge), empfiehlt Databricks die Verwendung der Python-Schnittstelle. Weitere Informationen finden Sie unter Beispiel: Erfassen und Verarbeiten von Babynamen in New York.

Herunterladen der Daten

Um die Daten für dieses Beispiel abzurufen, kopieren Sie den folgenden Code, fügen Sie ihn in ein neues Notebook ein, und führen Sie dann das Notebook aus. Informationen zum Überprüfen von Optionen zum Erstellen von Notebooks finden Sie unter Erstellen eines Notebooks.

%sh
wget -O "/Volumes/<catalog-name>/<schema-name>/<volume-name>/babynames.csv" "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"

Ersetzen Sie <catalog-name>, <schema-name> und <volume-name> durch die Katalog-, Schema- und Volumenamen für ein Unity Catalog-Volume.

Erstellen einer Tabelle aus Dateien in Unity Catalog

Kopieren Sie für den Rest dieses Beispiels die folgenden SQL-Codeschnipsel, und fügen Sie sie in ein neues SQL-Notebook ein (getrennt vom Notebook im vorherigen Abschnitt). Sie sollten jeden SQL-Beispielcodeschnipsel in der beschriebenen Reihenfolge zu einer eigenen Zelle im Notebook hinzufügen.

Delta Live Tables unterstützt das Laden von Daten aus allen von Azure Databricks unterstützten Formaten. Siehe Datenformatoptionen.

Alle SQL-Anweisungen von Delta Live Tables verwenden CREATE OR REFRESH-Syntax und -Semantik. Wenn Sie eine Pipeline aktualisieren, bestimmt Delta Live Tables, ob das logisch richtige Ergebnis für die Tabelle durch inkrementelle Verarbeitung erreicht werden kann oder ob eine vollständige Neukompilierung erforderlich ist.

Im folgenden Beispiel wird eine Tabelle erstellt, indem Daten aus der CSV-Datei geladen werden, die im Unity Catalog-Volume gespeichert ist:

CREATE OR REFRESH LIVE TABLE baby_names_sql_raw
COMMENT "Popular baby first names in New York. This data was ingested from the New York State Department of Health."
AS SELECT Year, `First Name` AS First_Name, County, Sex, Count FROM read_files(
  '/Volumes/<catalog-name>/<schema-name>/<volume-name>/babynames.csv',
  format => 'csv',
  header => true,
  mode => 'FAILFAST')

Ersetzen Sie <catalog-name>, <schema-name> und <volume-name> durch die Katalog-, Schema- und Volumenamen für ein Unity Catalog-Volume.

Hinzufügen einer Tabelle aus einem Upstream-Dataset zur Pipeline

Sie können das live virtuelle Schema verwenden, um Daten aus anderen Datasets abzufragen, die in Ihrer aktuellen Delta Live Tables-Pipeline deklariert sind. Wenn Sie neue Tabellen auf diese Weise deklarieren, entsteht eine Abhängigkeit, die Delta Live Tables vor der Ausführung von Aktualisierungen automatisch auflöst. Das live-Schema ist ein in Delta Live Tables implementiertes benutzerdefiniertes Schlüsselwort, das durch ein Zielschema ersetzt werden kann, wenn Sie Ihre Datasets veröffentlichen möchten. Weitere Informationen finden Sie unter Verwenden von Unity Catalog mit Ihren Delta Live Tables-Pipelines und Veröffentlichen von Daten aus Delta Live Tables-Pipelines im Hive-Metastore.

Der folgende Code enthält auch Beispiele für die Überwachung und Erzwingung der Datenqualität mit Erwartungen. Siehe Verwalten der Datenqualität mit Delta Live Tables.

CREATE OR REFRESH LIVE TABLE baby_names_sql_prepared(
  CONSTRAINT valid_first_name EXPECT (First_Name IS NOT NULL),
  CONSTRAINT valid_count EXPECT (Count > 0) ON VIOLATION FAIL UPDATE
)
COMMENT "New York popular baby first name data cleaned and prepared for analysis."
AS SELECT
  Year AS Year_Of_Birth,
  First_Name,
  Count
FROM live.baby_names_sql_raw;

Erstellen einer angereicherten Datenansicht

Da Delta Live Tables Aktualisierungen von Pipelines als eine Reihe von Abhängigkeitsdiagrammen verarbeitet, können Sie hochgradig angereicherte Ansichten deklarieren, die Dashboards, BI und Analysen unterstützen, indem Sie Tabellen mit spezifischer Geschäftslogik deklarieren.

Live-Tabellen sind konzeptionell gleichwertig mit materialisierten Ansichten. Während herkömmliche Ansichten auf Spark bei jeder Abfrage der Ansicht eine Logik ausführen, speichern Live-Tabellen die aktuellste Version der Abfrageergebnisse in Datendateien. Da Delta Live Tables die Aktualisierungen für alle Datasets in einer Pipeline verwaltet, können Sie die Pipeline-Updates so planen, dass sie den Latenzanforderungen für materialisierte Ansichten entsprechen, und wissen, dass die Abfragen für diese Tabellen die aktuellste verfügbare Version der Daten enthalten.

Der folgende Code erstellt eine angereicherte materialisierte Ansicht von Upstream-Daten:

CREATE OR REFRESH LIVE TABLE top_baby_names_sql_2021
COMMENT "A table summarizing counts of the top baby names for New York for 2021."
AS SELECT
  First_Name,
  SUM(Count) AS Total_Count
FROM live.baby_names_sql_prepared
WHERE Year_Of_Birth = 2021
GROUP BY First_Name
ORDER BY Total_Count DESC
LIMIT 10;

Wenn Sie eine Pipeline konfigurieren möchten, die das Notebook verwendet, fahren Sie mit Erstellen einer Pipeline fort.

Erstellen einer Pipeline

Delta Live Tables erstellt Pipelines, indem Abhängigkeiten aufgelöst werden, die in Notebooks oder Dateien (Quellcode oderBibliotheken genannt) mithilfe der Delta Live Tables-Syntax definiert sind. Jede Quellcodedatei kann nur eine Sprache enthalten. Sie können aber Bibliotheken unterschiedlicher Sprachen in Ihrer Pipeline miteinander kombinieren.

  1. Klicken Sie auf Delta Live Tables in der Randleiste und dann auf Create Pipeline (Pipeline erstellen).
  2. Geben Sie der Pipeline einen Namen.
  3. (Optional) Aktivieren Sie das Kontrollkästchen Serverless (Serverlos), um für diese Pipeline vollständig verwaltetes Compute zu verwenden. Wenn Sie die Option Serverless auswählen, werden die Einstellungen für Compute von der Benutzeroberfläche entfernt.
  4. (Optional) Wählen Sie eine Produktedition aus.
  5. Wählen Sie Ausgelöst als Pipelinemodus aus.
  6. Konfigurieren Sie mindestens ein Notebook, das den Quellcode für die Pipeline enthält. Geben Sie im Textfeld Paths (Pfade) den Pfad zu einem Notebook ein, oder klicken Sie auf Symbol „Dateiauswahl“, um ein Notebook auszuwählen.
  7. Wählen Sie ein Ziel für Datasets aus, die von der Pipeline veröffentlicht wurden, entweder Hive-Metastore oder Unity Catalog. Weitere Informationen finden Sie unter Veröffentlichen von Datasets.
    • Hive-Metastore:
      • Geben Sie optional einen Speicherort für die Ausgabedaten aus der Pipeline ein. Wenn Sie den Speicherort leer lassen, verwendet das System einen Standardspeicherort.
      • (Optional) Geben Sie ein Zielschema für die Veröffentlichung Ihres Datasets im Hive-Metastore an.
    • Unity Catalog: Geben Sie einen Katalog und ein Zielschema für die Veröffentlichung Ihres Datasets in Unity Catalog an.
  8. (Optional) Wenn Sie die Option Serverless nicht ausgewählt haben, können Sie Computeeinstellungen für die Pipeline konfigurieren. Weitere Informationen zu den Optionen für Computeeinstellungen finden Sie unter Konfigurieren von Pipelineeinstellungen für Delta Live Tables.
  9. (Optional) Klicken Sie auf Benachrichtigung hinzufügen, um eine oder mehrere E-Mail-Adressen zum Empfangen von Benachrichtigungen für Pipelineereignisse zu konfigurieren. Siehe Hinzufügen von E-Mail-Benachrichtigungen für Pipelineereignisse.
  10. (Optional) Konfigurieren Sie erweiterte Einstellungen für die Pipeline. Weitere Informationen zu den Optionen für erweiterte Einstellungen finden Sie unter Konfigurieren von Pipelineeinstellungen für Delta Live Tables.
  11. Klicken Sie auf Erstellen.

Nachdem Sie auf Erstellen geklickt haben, zeigt das System die Seite Pipelinedetails an. Sie können auch auf Ihre Pipeline zugreifen, indem Sie auf der Registerkarte Delta Live Tables auf den Namen der Pipeline klicken.

Starten eines Pipelineupdates

Um ein Update für eine Pipeline zu starten, klicken Sie im oberen Bereich auf die Schaltfläche „Startsymbol „Delta Live Tables““. Das System gibt eine Meldung zurück, die bestätigt, dass Ihre Pipeline gestartet wird.

Nachdem das Update erfolgreich gestartet wurde, wird das Delta Live Tables-System:

  1. Einen Cluster mithilfe einer Clusterkonfiguration starten, die vom Delta Live Tables-System erstellt wurde. Sie können außerdem eine benutzerdefinierte Clusterkonfiguration festlegen.
  2. Alle Tabellen erstellen, die nicht vorhanden sind und sicherstellen, dass das Schema für alle vorhandenen Tabellen korrekt ist.
  3. Tabellen mit den neuesten verfügbaren Daten aktualisieren.
  4. Den Cluster herunterfahren, wenn das Update abgeschlossen ist.

Hinweis

Der Ausführungsmodus ist standardmäßig auf Produktion festgelegt, wodurch kurzlebige Computeressourcen für jedes Update bereitgestellt werden. Sie können den Modus Entwicklung verwenden, um dieses Verhalten zu ändern, sodass die gleichen Computeressourcen während der Entwicklung und der Testphase für mehrere Pipelineupdates verwendet werden können. Siehe Entwicklungs- und Produktionsmodi.

Veröffentlichen von Datasets

Sie können Delta Live Tables-Datasets zum Abfragen verfügbar machen, indem Sie Tabellen im Hive-Metaspeicher oder Unity Catalog veröffentlichen. Wenn Sie kein Ziel für die Veröffentlichung von Daten angeben, können Tabellen, die in Delta Live Tables-Pipelines erstellt wurden, nur von anderen Vorgängen innerhalb derselben Pipeline aufgerufen werden. Weitere Informationen finden Sie unter Veröffentlichen von Daten aus Delta Live Tables-Pipelines im Hive-Metastore und Verwenden von Unity Catalog mit Ihren Delta Live Tables-Pipelines.

Beispiel für Quellcodenotebooks

Sie können diese Notebooks in einen Azure Databricks-Arbeitsbereich importieren und zum Bereitstellen einer Delta Live Tables-Pipeline verwenden. Weitere Informationen finden Sie unter Erstellen einer Pipeline.

Erste Schritte mit dem Delta Live Tables-Python-Notebook

Notebook abrufen

Erste Schritte mit dem Delta Live Tables-SQL-Notebook

Notebook abrufen

Notebooks mit Beispielquellcode für Arbeitsbereiche ohne Unity Catalog

Sie können diese Notebooks in einen Azure Databricks-Arbeitsbereich importieren, für den Unity Catalog nicht aktiviert ist, und zum Bereitstellen einer Delta Live Tables-Pipeline verwenden. Weitere Informationen finden Sie unter Erstellen einer Pipeline.

Erste Schritte mit dem Delta Live Tables-Python-Notebook

Notebook abrufen

Erste Schritte mit dem Delta Live Tables-SQL-Notebook

Notebook abrufen