Tutorial: Ausführen Ihrer ersten Delta Live Tables-Pipeline
In diesem Tutorial erfahren Sie, wie Sie eine Delta Live Tables-Pipeline über den Code in einem Databricks-Notebook konfigurieren und die Pipeline durch Auslösen eines Pipelineupdates ausführen. Dieses Tutorial enthält eine Beispielpipeline zum Erfassen und Verarbeiten eines Beispieldatasets mit Beispielcode anhand der Python- und SQL-Schnittstellen. Sie können die Anweisungen in diesem Tutorial auch verwenden, um eine Pipeline mit beliebigen Notebooks mit ordnungsgemäß definierter Delta Live Tables-Syntax zu erstellen.
Sie können Delta Live Tables-Pipelines konfigurieren und Updates in der Benutzeroberfläche des Azure Databricks-Arbeitsbereichs oder mit automatisierten Tools (z. B. mit der API, der CLI und Databricks-Ressourcenpaketen) oder als Aufgabe in einem Databricks-Workflow auslösen. Um sich mit den Funktionen und Features von Delta Live Tables vertraut zu machen, empfiehlt Databricks, zunächst die Benutzeroberfläche zum Erstellen und Ausführen von Pipelines zu verwenden. Wenn Sie eine Pipeline in der Benutzeroberfläche konfigurieren, generiert Delta Live Tables zudem eine JSON-Konfiguration für Ihre Pipeline, die Sie zum Implementieren Ihrer programmgesteuerten Workflows verwenden können.
Um die Funktionalität von Delta Live Tables zu veranschaulichen, wird mit den Beispielen in diesem Tutorial ein öffentlich verfügbares Dataset heruntergeladen. Databricks bietet jedoch mehrere Möglichkeiten, eine Verbindung mit Datenquellen herzustellen und Daten zu erfassen, die von Pipelines in realen Anwendungsfällen verwendet werden. Weitere Informationen finden Sie unter Erfassen von Daten mit Delta Live Tables.
Anforderungen
Zum Starten einer Pipeline benötigen Sie die Berechtigung zur Clustererstellung oder Zugriff auf eine Clusterrichtlinie, die einen Delta Live Tables-Cluster definiert. Die Delta Live Tables-Runtime erstellt einen Cluster, bevor die Pipeline ausgeführt wird und schlägt fehl, wenn Sie nicht über die richtige Berechtigung verfügen.
Um die Beispiele in diesem Tutorial verwenden zu können, muss für Ihren Arbeitsbereich Unity Catalog aktiviert sein.
Außerdem müssen Sie über die folgenden Berechtigungen in Unity Catalog verfügen:
READ VOLUME
undWRITE VOLUME
oderALL PRIVILEGES
für das Volumemy-volume
.USE SCHEMA
oderALL PRIVILEGES
für das Schemadefault
USE CATALOG
oderALL PRIVILEGES
für den Katalogmain
Wenden Sie sich zum Festlegen dieser Berechtigungen an Ihren Databricks-Administrator, oder lesen Sie den Artikel Unity Catalog-Berechtigungen und sicherungsfähige Objekte, um mehr zu erfahren.
In den Beispielen in diesem Tutorial wird ein Unity Catalog-Volume zum Speichern von Beispieldaten verwendet. Um diese Beispiele zu verwenden, erstellen Sie ein Volume, und verwenden Sie den Katalog, das Schema und die Volumenamen dieses Volumes, um den in den Beispielen verwendeten Volumepfad festzulegen.
Hinweis
Wenn Unity Catalog für Ihren Arbeitsbereich nicht aktiviert ist, können Sie die an diesen Artikel angefügten Notebooks mit Beispielen verwenden, die Unity Catalog nicht erfordern. Um diese Beispiele zu verwenden, wählen Sie beim Erstellen der Pipeline die Speicheroption Hive metastore
aus.
Wo werden Delta Live Tables-Abfragen ausgeführt?
Delta Live Tables-Abfragen werden in erster Linie in Databricks-Notebooks implementiert, Delta Live Tables ist jedoch nicht zur interaktiven Ausführung in Notebook-Zellen konzipiert. Das Ausführen einer Zelle, die Delta Live Tables-Syntax in einem Databricks-Notebook enthält, führt zu einer Fehlermeldung. Um Ihre Abfragen auszuführen, müssen Sie Ihre Notebooks als Teil einer Pipeline konfigurieren.
Wichtig
- Sie können sich beim Schreiben von Abfragen für Delta Live Tables nicht auf die zellenweise Ausführungsreihenfolge von Notebooks verlassen. Delta Live Tables wertet den gesamten in Notebooks definierten Code aus und führt diesen aus, verwendet jedoch ein anderes Ausführungsmodell als der Befehl Alle ausführen für ein Notebook.
- In einer einzigen Delta Live Tables-Quellcodedatei können Programmiersprachen nicht gemischt werden. Ein Notebook kann beispielsweise nur Python-Abfragen oder nur SQL-Abfragen enthalten. Wenn Sie in einer Pipeline mehrere Sprachen verwenden müssen, verwenden Sie mehrere sprachspezifische Notebooks oder Dateien in der Pipeline.
Sie können auch in Dateien gespeicherten Python-Code verwenden. Sie können beispielsweise ein Python-Modul erstellen, das in Ihre Python-Pipelines importiert werden kann, oder benutzerdefinierte Python-Funktionen (User-Defined Functions, UDFs) zur Verwendung in SQL-Abfragen definieren. Informationen zum Importieren von Python-Modulen finden Sie im Artikel zum Importieren von Python-Modulen aus Git-Ordnern oder Arbeitsbereichsdateien. Informationen zur Verwendung von Python-UDFs finden Sie unter Benutzerdefinierte Skalarfunktionen: Python.
Beispiel: Erfassen und Verarbeiten von Babynamen in New York
Im Beispiel in diesem Artikel wird ein öffentlich verfügbares Dataset verwendet, das Datensätze mit New York State Baby Names enthält. Diese Beispiele veranschaulichen die Verwendung einer Delta Live Tables-Pipeline für folgende Zwecke:
- Lesen von unformatierten CSV-Daten aus einem öffentlich verfügbaren Dataset in eine Tabelle.
- Datensätze aus der Rohdatentabelle lesen und die Delta Live Tables-Erwartungen verwenden können, um eine neue Tabelle zu erstellen, die bereinigte Daten enthält.
- Verwenden der bereinigten Datensätze als Eingabe für Delta Live Tables-Abfragen, die abgeleitete Datasets erstellen.
Dieser Code veranschaulicht ein vereinfachtes Beispiel für die Medallion-Architektur. Siehe Worum handelt es sich bei der Medallion- Lakehouse-Architektur?.
Implementierungen dieses Beispiels sind für die Python- und SQL-Schnittstellen verfügbar. Sie können die Schritte ausführen, um neue Notebooks zu erstellen, die den Beispielcode enthalten. Alternativ können Sie mit Erstellen einer Pipeline fortfahren und eines der Notebooks verwenden, die auf dieser Seite bereitgestellt werden.
Implementieren einer Delta Live Tables-Pipeline mit Python
Python-Code zum Erstellen von Delta Live Tables-Datasets muss DataFrames zurückgeben. Für Benutzerinnen und Benutzer, die nicht mit Python und DataFrames vertraut sind, empfiehlt Databricks die Verwendung der SQL-Schnittstelle. Weitere Informationen finden Sie unter Implementieren einer Delta Live Tables-Pipeline mit SQL.
Alle Python-APIs von Delta Live Tables werden im dlt
-Modul implementiert. Ihr mit Python implementierter Delta Live Tables-Pipelinecode muss das dlt
-Modul am Anfang von Python-Notebooks und -Dateien explizit importieren. Delta Live Tables unterscheiden sich von vielen Python-Skripts auf eine wichtige Weise: Sie rufen nicht die Funktionen auf, die Datenaufnahme und Transformation durchführen, um Delta Live Tables-Datasets zu erstellen. Stattdessen interpretiert Delta Live Tables die Dekorierfunktionen aus dem dlt
-Modul in allen Dateien, die in eine Pipeline geladen wurden, und erstellt ein Datenflussdiagramm.
Um das Beispiel in diesem Tutorial zu implementieren, kopieren Sie den folgenden Python-Code, und fügen Sie ihn in ein neues Python-Notebook ein. Fügen Sie jeden Beispielcodeschnipsel in der beschriebenen Reihenfolge in der entsprechenden Zelle im Notebook hinzu. Informationen zum Überprüfen von Optionen zum Erstellen von Notebooks finden Sie unter Erstellen eines Notebooks.
Wenn Sie eine Pipeline mit der Python-Schnittstelle erstellen, werden Tabellennamen standardmäßig durch Funktionsnamen definiert. Im folgenden Python-Beispiel werden beispielsweise die drei Tabellen baby_names_raw
, baby_names_prepared
und top_baby_names_2021
erstellt. Sie können den Tabellennamen mit dem Parameter name
überschreiben. Siehe Erstellen einer materialisierten Ansicht oder Streamingtabelle für Delta Live Tables.
Wichtig
Um ein unerwartetes Verhalten bei der Ausführung Ihrer Pipeline zu vermeiden, sollten Sie in Ihre Funktionen, die Datasets definieren, keinen Code aufnehmen, der Nebeneffekte haben könnte. Weitere Informationen finden Sie in der Python-Referenz.
Importieren des Delta Live Tables-Moduls
Alle Python-APIs von Delta Live Tables werden im dlt
-Modul implementiert. Importieren Sie das dlt
-Modul explizit oben in Python-Notebooks und -dateien.
Das folgende Beispiel zeigt diesen Import zusammen mit Importanweisungen für pyspark.sql.functions
.
import dlt
from pyspark.sql.functions import *
Herunterladen der Daten
Um die Daten für dieses Beispiel abzurufen, laden Sie eine CSV-Datei herunter, und speichern Sie sie wie folgt im Volume:
import os
os.environ["UNITY_CATALOG_VOLUME_PATH"] = "/Volumes/<catalog-name>/<schema-name>/<volume-name>/"
os.environ["DATASET_DOWNLOAD_URL"] = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
os.environ["DATASET_DOWNLOAD_FILENAME"] = "rows.csv"
dbutils.fs.cp(f"{os.environ.get('DATASET_DOWNLOAD_URL')}", f"{os.environ.get('UNITY_CATALOG_VOLUME_PATH')}{os.environ.get('DATASET_DOWNLOAD_FILENAME')}")
Ersetzen Sie <catalog-name>
, <schema-name>
und <volume-name>
durch die Katalog-, Schema- und Volumenamen für ein Unity Catalog-Volume.
Erstellen einer Tabelle aus Dateien im Objektspeicher
Delta Live Tables unterstützt das Laden von Daten aus allen von Azure Databricks unterstützten Formaten. Siehe Datenformatoptionen.
Das @dlt.table
-Decorator-Element weist Delta Live Tables an, eine Tabelle zu erstellen, die das Ergebnis eines von einer Funktion zurückgegebenen DataFrame
enthält. Fügen Sie den @dlt.table
-Dekorateur vor jeder Python-Funktionsdefinition hinzu, die einen Spark DataFrame zurückgibt, um eine neue Tabelle in Delta Live Tables zu registrieren. Im folgenden Beispiel wird die Verwendung des Funktionsnamens als Tabellenname und das Hinzufügen eines beschreibenden Kommentars zur Tabelle veranschaulicht:
@dlt.table(
comment="Popular baby first names in New York. This data was ingested from the New York State Department of Health."
)
def baby_names_raw():
df = spark.read.csv(f"{os.environ.get('UNITY_CATALOG_VOLUME_PATH')}{os.environ.get('DATASET_DOWNLOAD_FILENAME')}", header=True, inferSchema=True)
df_renamed_column = df.withColumnRenamed("First Name", "First_Name")
return df_renamed_column
Hinzufügen einer Tabelle aus einem Upstream-Dataset in der Pipeline
Sie können dlt.read()
-Daten aus anderen Datasets lesen, die in Ihrer aktuellen Delta Live Tables-Pipeline deklariert sind. Durch das Deklarieren neuer Tabellen wird auf diese Weise eine Abhängigkeit erstellt, die Delta Live Tables automatisch auflöst, bevor Updates ausgeführt werden. Der folgende Code enthält auch Beispiele für die Überwachung und Erzwingung der Datenqualität mit Erwartungen. Siehe Verwalten der Datenqualität mit Delta Live Tables.
@dlt.table(
comment="New York popular baby first name data cleaned and prepared for analysis."
)
@dlt.expect("valid_first_name", "First_Name IS NOT NULL")
@dlt.expect_or_fail("valid_count", "Count > 0")
def baby_names_prepared():
return (
dlt.read("baby_names_raw")
.withColumnRenamed("Year", "Year_Of_Birth")
.select("Year_Of_Birth", "First_Name", "Count")
)
Erstellen einer Tabelle mit erweiterten Datenansichten
Da Delta Live Tables Aktualisierungen von Pipelines als eine Reihe von Abhängigkeitsdiagrammen verarbeitet, können Sie hochgradig angereicherte Ansichten deklarieren, die Dashboards, BI und Analysen unterstützen, indem Sie Tabellen mit spezifischer Geschäftslogik deklarieren.
Vom Konzept her entsprechen Tabellen in Delta Live Tables materialisierten Ansichten. Anders als herkömmliche Ansichten auf Spark, die bei jeder Abfrage der Ansicht eine Logik ausführen, speichert eine Delta Live Tables-Tabelle die aktuellste Version der Abfrageergebnisse in Datendateien. Da Delta Live Tables die Aktualisierungen für alle Datasets in einer Pipeline verwaltet, können Sie die Pipeline-Updates so planen, dass sie den Latenzanforderungen für materialisierte Ansichten entsprechen, und wissen, dass die Abfragen für diese Tabellen die aktuellste verfügbare Version der Daten enthalten.
Die durch den folgenden Code definierte Tabelle veranschaulicht die konzeptionelle Ähnlichkeit mit einer materialisierten Ansicht, die von Upstream-Daten in Ihrer Pipeline abgeleitet wurde:
@dlt.table(
comment="A table summarizing counts of the top baby names for New York for 2021."
)
def top_baby_names_2021():
return (
dlt.read("baby_names_prepared")
.filter(expr("Year_Of_Birth == 2021"))
.groupBy("First_Name")
.agg(sum("Count").alias("Total_Count"))
.sort(desc("Total_Count"))
.limit(10)
)
Informationen zum Konfigurieren einer Pipeline, die das Notebook verwendet, finden Sie unter Erstellen einer Pipeline.
Implementieren einer Delta Live Tables-Pipeline mit SQL
Databricks empfiehlt Delta Live Tables mit SQL als bevorzugte Methode für SQL-Benutzer, um neue ETL-, Ingestion- und Transformationspipelines auf Azure Databricks zu erstellen. Die SQL-Schnittstelle für Delta Live Tables erweitert die Standard-Spark-SQL mit vielen neuen Schlüsselwörtern, Konstrukten und Tabellenwertfunktionen. Diese Ergänzungen von Standard-SQL ermöglichen es Benutzern, Abhängigkeiten zwischen Datasets zu deklarieren und die Infrastruktur auf Produktionsniveau bereitzustellen, ohne neue Tools oder zusätzliche Konzepte erlernen zu müssen.
Für Benutzer, die mit Spark DataFrames vertraut sind und Unterstützung für umfangreichere Tests und Vorgänge benötigen, die mit SQL schwer zu implementieren sind (z. B. Metaprogrammierungsvorgänge), empfiehlt Databricks die Verwendung der Python-Schnittstelle. Weitere Informationen finden Sie unter Implementieren einer Delta Live Tables-Pipeline mit Python.
Herunterladen der Daten
Um die Daten für dieses Beispiel abzurufen, kopieren Sie den folgenden Code, fügen Sie sie in ein neues Notebook ein, und führen Sie dann das Notebook aus. Informationen zum Überprüfen von Optionen zum Erstellen von Notebooks finden Sie unter Erstellen eines Notebooks.
%sh
wget -O "/Volumes/<catalog-name>/<schema-name>/<volume-name>/babynames.csv" "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv"
Ersetzen Sie <catalog-name>
, <schema-name>
und <volume-name>
durch die Katalog-, Schema- und Volumenamen für ein Unity Catalog-Volume.
Erstellen einer Tabelle aus Dateien in Unity Catalog
Kopieren Sie für den Rest dieses Beispiels die folgenden SQL-Codeschnipsel, und fügen Sie sie in ein neues SQL-Notebook ein, getrennt vom Notebook im vorherigen Abschnitt. Fügen Sie jeden SQL-Beispielcodeschnipsel in der beschriebenen Reihenfolge zu einer eigenen Zelle im Notebook hinzu.
Delta Live Tables unterstützt das Laden von Daten aus allen von Azure Databricks unterstützten Formaten. Siehe Datenformatoptionen.
Alle SQL-Anweisungen von Delta Live Tables verwenden CREATE OR REFRESH
-Syntax und -Semantik. Wenn Sie eine Pipeline aktualisieren, bestimmt Delta Live Tables, ob das logisch richtige Ergebnis für die Tabelle durch inkrementelle Verarbeitung erreicht werden kann oder ob eine vollständige Neukompilierung erforderlich ist.
Im folgenden Beispiel wird eine Tabelle erstellt, indem Daten aus der CSV-Datei geladen werden, die im Unity Catalog-Volume gespeichert ist:
CREATE OR REFRESH MATERIALIZED VIEW baby_names_sql_raw
COMMENT "Popular baby first names in New York. This data was ingested from the New York State Department of Health."
AS SELECT Year, `First Name` AS First_Name, County, Sex, Count FROM read_files(
'/Volumes/<catalog-name>/<schema-name>/<volume-name>/babynames.csv',
format => 'csv',
header => true,
mode => 'FAILFAST')
Ersetzen Sie <catalog-name>
, <schema-name>
und <volume-name>
durch die Katalog-, Schema- und Volumenamen für ein Unity Catalog-Volume.
Hinzufügen einer Tabelle aus einem Upstream-Dataset zur Pipeline
Sie können das live
virtuelle Schema verwenden, um Daten aus anderen Datasets abzufragen, die in Ihrer aktuellen Delta Live Tables-Pipeline deklariert sind. Wenn Sie neue Tabellen auf diese Weise deklarieren, entsteht eine Abhängigkeit, die Delta Live Tables vor der Ausführung von Aktualisierungen automatisch auflöst. Das live
-Schema ist ein in Delta Live Tables implementiertes benutzerdefiniertes Schlüsselwort, das durch ein Zielschema ersetzt werden kann, wenn Sie Ihre Datasets veröffentlichen möchten. Siehe Verwenden des Unity-Katalogs mit Ihren Delta Live Tables-Pipelines und Verwenden von Delta Live Tables-Pipelines mit legacy-Hive-Metaspeicher.
Der folgende Code enthält auch Beispiele für die Überwachung und Erzwingung der Datenqualität mit Erwartungen. Siehe Verwalten der Datenqualität mit Delta Live Tables.
CREATE OR REFRESH MATERIALIZED VIEW baby_names_sql_prepared(
CONSTRAINT valid_first_name EXPECT (First_Name IS NOT NULL),
CONSTRAINT valid_count EXPECT (Count > 0) ON VIOLATION FAIL UPDATE
)
COMMENT "New York popular baby first name data cleaned and prepared for analysis."
AS SELECT
Year AS Year_Of_Birth,
First_Name,
Count
FROM live.baby_names_sql_raw;
Erstellen einer angereicherten Datenansicht
Da Delta Live Tables Aktualisierungen von Pipelines als eine Reihe von Abhängigkeitsdiagrammen verarbeitet, können Sie hochgradig angereicherte Ansichten deklarieren, die Dashboards, BI und Analysen unterstützen, indem Sie Tabellen mit spezifischer Geschäftslogik deklarieren.
Die folgende Abfrage verwendet eine materialisierte Ansicht, um eine erweiterte Ansicht aus den Upstreamdaten zu erstellen. Während herkömmliche Ansichten auf Spark bei jeder Abfrage der Ansicht eine Logik ausführen, speichern materialisierte Ansichten die aktuellste Version der Abfrageergebnisse in Datendateien. Da Delta Live Tables die Aktualisierungen für alle Datasets in einer Pipeline verwaltet, können Sie die Pipeline-Updates so planen, dass sie den Latenzanforderungen für materialisierte Ansichten entsprechen, und wissen, dass die Abfragen für diese Tabellen die aktuellste verfügbare Version der Daten enthalten.
CREATE OR REFRESH MATERIALIZED VIEW top_baby_names_sql_2021
COMMENT "A table summarizing counts of the top baby names for New York for 2021."
AS SELECT
First_Name,
SUM(Count) AS Total_Count
FROM live.baby_names_sql_prepared
WHERE Year_Of_Birth = 2021
GROUP BY First_Name
ORDER BY Total_Count DESC
LIMIT 10;
Wenn Sie eine Pipeline konfigurieren möchten, die das Notebook verwendet, fahren Sie mit Erstellen einer Pipeline fort.
Erstellen einer Pipeline
Hinweis
- Da Computeressourcen für serverlose DLT-Pipelines vollständig verwaltet werden, stehen Computeeinstellungen nicht zur Verfügung, wenn Sie die Option Serverless für eine Pipeline auswählen.
- Informationen zur Berechtigung und Aktivierung von serverlosn DLT-Pipelines finden Sie unter Aktivieren des serverlosen Computings.
Delta Live Tables erstellt Pipelines, indem Abhängigkeiten aufgelöst werden, die in Notizbüchern oder Dateien (als Quellcode bezeichnet) mithilfe der Syntax von Delta Live Tables definiert sind. Jede Quellcodedatei kann nur eine Sprache enthalten, Sie können jedoch Quellcode verschiedener Sprachen in Ihrer Pipeline kombinieren.
- Klicken Sie auf Delta Live Tables in der Randleiste und dann auf Create Pipeline (Pipeline erstellen).
- Geben Sie der Pipeline einen Namen.
- (Optional) Wenn Sie Ihre Pipeline mit serverlosen DLT-Pipelines ausführen möchten, aktivieren Sie das Kontrollkästchen Serverless. Wenn Sie die Option Serverless auswählen, werden die Einstellungen für Compute von der Benutzeroberfläche entfernt. Siehe Konfigurieren einer serverlosen Delta Live Tables-Pipeline.
- (Optional) Wählen Sie eine Produktedition aus.
- Wählen Sie Ausgelöst als Pipelinemodus aus.
- Konfigurieren Sie mindestens ein Notebook, das den Quellcode für die Pipeline enthält. Geben Sie im Textfeld Paths (Pfade) den Pfad zu einem Notebook ein, oder klicken Sie auf , um ein Notebook auszuwählen.
- Wählen Sie ein Ziel für Datasets aus, die von der Pipeline veröffentlicht wurden, entweder Hive-Metastore oder Unity Catalog. Weitere Informationen finden Sie unter Veröffentlichen von Datasets.
- Hive-Metastore:
- Geben Sie optional einen Speicherort für die Ausgabedaten aus der Pipeline ein. Wenn Sie den Speicherort leer lassen, verwendet das System einen Standardspeicherort.
- (Optional) Geben Sie ein Zielschema für die Veröffentlichung Ihres Datasets im Hive-Metastore an.
- Unity Catalog: Geben Sie einen Katalog und ein Zielschema für die Veröffentlichung Ihres Datasets in Unity Catalog an.
- Hive-Metastore:
- (Optional) Wenn Sie die Option Serverless nicht ausgewählt haben, können Sie Computeeinstellungen für die Pipeline konfigurieren. Weitere Informationen zu Optionen für Computeeinstellungen finden Sie unter Konfigurieren der Compute für eine Delta Live Tables-Pipeline.
- (Optional) Klicken Sie auf Benachrichtigung hinzufügen, um eine oder mehrere E-Mail-Adressen zum Empfangen von Benachrichtigungen für Pipelineereignisse zu konfigurieren. Siehe Hinzufügen von E-Mail-Benachrichtigungen für Pipelineereignisse.
- (Optional) Konfigurieren Sie erweiterte Einstellungen für die Pipeline. Weitere Informationen zu den Optionen für erweiterte Einstellungen finden Sie unter Konfigurieren einer Delta Live Tables-Pipeline.
- Klicken Sie auf Erstellen.
Die Seite Pipelinedetails wird angezeigt, nachdem Sie Erstellen ausgewählt haben. Sie können auch auf Ihre Pipeline zugreifen, indem Sie auf der Registerkarte Delta Live Tables auf den Namen der Pipeline klicken.
Starten eines Pipelineupdates
Um ein Update für eine Pipeline zu starten, klicken Sie im oberen Bereich auf die Schaltfläche „“. Das System gibt eine Meldung zurück, die bestätigt, dass Ihre Pipeline gestartet wird.
Nachdem das Update erfolgreich gestartet wurde, wird das Delta Live Tables-System:
- Einen Cluster mithilfe einer Clusterkonfiguration starten, die vom Delta Live Tables-System erstellt wurde. Sie können außerdem eine benutzerdefinierte Clusterkonfiguration festlegen.
- Alle Tabellen erstellen, die nicht vorhanden sind und sicherstellen, dass das Schema für alle vorhandenen Tabellen korrekt ist.
- Tabellen mit den neuesten verfügbaren Daten aktualisieren.
- Den Cluster herunterfahren, wenn das Update abgeschlossen ist.
Hinweis
Der Ausführungsmodus ist standardmäßig auf Produktion festgelegt, wodurch kurzlebige Computeressourcen für jedes Update bereitgestellt werden. Sie können den Modus Entwicklung verwenden, um dieses Verhalten zu ändern, sodass die gleichen Computeressourcen während der Entwicklung und der Testphase für mehrere Pipelineupdates verwendet werden können. Siehe Entwicklungs- und Produktionsmodi.
Veröffentlichen von Datasets
Sie können Delta Live Tables-Datasets zum Abfragen verfügbar machen, indem Sie Tabellen im Hive-Metaspeicher oder Unity Catalog veröffentlichen. Wenn Sie kein Ziel für die Veröffentlichung von Daten angeben, können Tabellen, die in Delta Live Tables-Pipelines erstellt wurden, nur von anderen Vorgängen innerhalb derselben Pipeline aufgerufen werden. Weitere Informationen finden Sie unter Verwenden von Delta Live Tables-Pipelines mit legacy-Hive-Metastore und Verwenden des Unity-Katalogs mit Ihren Delta Live Tables-Pipelines.
Beispiel für Quellcodenotebooks
Sie können diese Notebooks in einen Azure Databricks-Arbeitsbereich importieren und zum Bereitstellen einer Delta Live Tables-Pipeline verwenden. Weitere Informationen finden Sie unter Erstellen einer Pipeline.
Erste Schritte mit dem Delta Live Tables-Python-Notebook
Erste Schritte mit dem Delta Live Tables-SQL-Notebook
Notebooks mit Beispielquellcode für Arbeitsbereiche ohne Unity Catalog
Sie können diese Notebooks in einen Azure Databricks-Arbeitsbereich importieren, für den Unity Catalog nicht aktiviert ist, und zum Bereitstellen einer Delta Live Tables-Pipeline verwenden. Weitere Informationen finden Sie unter Erstellen einer Pipeline.