Erstellen vollständig verwalteter Pipelines mithilfe von Delta Live Tables mit serverlosem Computing

Artikel
08/16/2024

Hinweis

Informationen zur Berechtigung und Aktivierung von serverlosn DLT-Pipelines finden Sie unter Aktivieren des serverlosen Computings.
Wenn Sie eine Azure Private Link-Verbindung mit Ihren serverlosen DLT-Pipelines verwenden müssen, wenden Sie sich an Ihren Databricks-Mitarbeiter.

In diesem Artikel wird erläutert, wie Sie Delta Live Tables mit serverlosem Computing verwenden, um Ihre Pipelineupdates mit vollständig verwaltetem Compute auszuführen, und erläutert Features von serverlosem Computing, die die Leistung Ihrer Pipelines verbessern.

Nutzen Sie serverlose DLT-Pipelines, um Ihre Delta Live Tables-Pipelines auszuführen, ohne die Infrastruktur zu konfigurieren und bereitzustellen. Beim serverlosen DLT-Pipelines können Sie sich auf die Implementierung Ihrer Datenerfassung und Transformation konzentrieren, während Azure Databricks die Computeressourcen effizient verwaltet, einschließlich der Optimierung und Skalierung des Computings für Ihre Workloads. Serverlose DLT-Pipelines umfassen die folgenden Funktionen:

Automatisch optimierte Compute Services, die nur bei Bedarf ausgeführt werden
Zuverlässige und vollständig verwaltete Computeressourcen
Effizientere Datasetaktualisierungen mit inkrementeller Aktualisierung für materialisierte Sichten
Schnellerer Start für die Computeressourcen, die ein Pipelineupdate ausführen

Serverlose DLT-Pipelines bieten auch die folgenden Features, um die Verarbeitungsleistung von Pipelines zu optimieren, die effizientere Nutzung von Computeressourcen zu unterstützen und die Kosten für die Ausführung Ihrer Pipeline zu senken:

Streampipelining: Um die Auslastung, den Durchsatz und die Latenz für Streamingdatenworkloads wie die Datenerfassung zu verbessern, werden Mikrobatches in eine Pipeline eingefügt. Mit anderen Worten: Anstatt Mikrobatches wie beim standardmäßigen Spark Structured Streaming sequentiell auszuführen, führen serverlose DLT-Pipelines Mikrobatches gleichzeitig aus, sodass die Computeressourcen besser genutzt werden. Die Verwendung von Pipelines für Streams ist in serverlosen DLT-Pipelines standardmäßig aktiviert.
Automatische vertikale Skalierung: Serverlose DLT-Pipelines ergänzen die automatische horizontale Skalierung von Databricks Enhanced Autocaling, indem automatisch die kostengünstigsten Instanztypen zugeordnet werden, die Ihre Delta Live Tables-Pipeline ausführen können, ohne aufgrund von Fehlern wegen unzureichenden Arbeitsspeichers fehlzuschlagen. Weitere Informationen finden Sie unter Was die automatische vertikale Skalierung?

Weil keine Berechtigung zum Erstellen von Clustern erforderlich ist, können serverlose DLT-Pipelines mit allen Benutzerkonten im Arbeitsbereich verwendet werden, um Workflows auszuführen.

Anforderungen

Um serverlose DLT-Pipelines verwenden zu können, muss in Ihrem Arbeitsbereich Unity Catalog aktiviert sein.
Ihr Arbeitsbereich muss sich in einer serverlos-fähigen Region befinden.

Ausführen eines Pipelineupdates mit serverlosen DLT-Pipelines

Wichtig

Weil Computeressourcen für serverlose DLT-Pipelines vollständig verwaltet werden, sind keine Computeeinstellungen in der Benutzeroberfläche von Delta Live Tables für eine serverlose Pipeline verfügbar. Wenn Sie „Serverlos“ aktivieren, werden alle Computeeinstellungen, die Sie für eine Pipeline konfiguriert haben, entfernt. Wenn Sie eine Pipeline wieder auf nicht serverlose Updates umstellen, müssen diese Computeeinstellungen der Pipelinekonfiguration erneut hinzugefügt werden. Zudem ist es nicht möglich, Berechnungseinstellungen in einem clusters-Objekt in der JSON-Konfiguration für die Pipeline manuell hinzuzufügen.

Wenn Sie ein Pipelineupdate ausführen möchten, das serverlose DLT-Pipelines verwendet, aktivieren Sie das Kontrollkästchen Serverlos, wenn Sie eine Pipeline erstellen oder bearbeiten.

Wie werden materialisierte Sichten in serverlosen DLT-Pipelines aktualisiert?

Wenn möglich, werden Abfrageergebnisse für materialisierte Sichten in einer serverlosen Pipeline inkrementell aktualisiert. Wenn eine inkrementelle Aktualisierung durchgeführt wird, entsprechen die Ergebnisse einer vollständigen Neukompilierung. Wenn die materialisierte Sicht nicht inkrementell aktualisiert werden kann, wird stattdessen eine vollständige Aktualisierung durchgeführt. Siehe Aktualisierungsvorgänge für materialisierte Sichten.

Was ist die automatische vertikale Skalierung?

Bei der automatischen vertikalen Skalierung von serverlosen DLT-Pipelines werden automatisch die kostengünstigsten verfügbaren Instanztypen zugewiesen, die Delta Live Tables-Pipelineupdates ausführen können, ohne aufgrund von Fehlern wegen unzureichenden Arbeitsspeichers fehlzuschlagen. Bei der automatischen vertikalen Skalierung wird hochskaliert, wenn größere Instanzentypen erforderlich sind, um ein Pipelineupdate auszuführen, und herunterskaliert, wenn ermittelt wird, dass das Update mit kleineren Instanztypen ausgeführt werden kann. Die automatische vertikale Skalierung bestimmt, ob Treiberknoten, Workerknoten oder sowohl Treiber- als auch Workerknoten hoch- oder herunterskaliert werden sollen.

Die automatische vertikale Skalierung wird für alle serverlosen DLT-Pipelines verwendet, einschließlich Pipelines, die von materialisierten Sichten und Streamingtabellen von Databricks SQL verwendet werden.

Die automatische vertikale Skalierung funktioniert durch die Erkennung von Pipelineupdates, die aufgrund von Fehlern wegen unzureichenden Arbeitsspeichers fehlgeschlagen sind. Wenn diese Fehler erkannt werden, weist die automatische vertikale Skalierung basierend auf den Daten zum Speicherbedarf, die aus dem fehlgeschlagenen Update gesammelt wurden, größere Instanzentypen zu. Im Produktionsmodus wird automatisch ein neues Update gestartet, das die neuen Computeressourcen verwendet. Im Entwicklungsmodus werden die neuen Computeressourcen verwendet, wenn Sie ein neues Update manuell starten.

Wenn die vertikale automatische Skalierung erkennt, dass der Speicher der zugeordneten Instanzen konsistent nicht ausgelastet ist, werden die Instanztypen, die im nächsten Pipelineupdate verwendet werden sollen, verkleinert.

Freigeben über

Erstellen vollständig verwalteter Pipelines mithilfe von Delta Live Tables mit serverlosem Computing

Anforderungen

Ausführen eines Pipelineupdates mit serverlosen DLT-Pipelines

Wie werden materialisierte Sichten in serverlosen DLT-Pipelines aktualisiert?

Was ist die automatische vertikale Skalierung?

Feedback

Zusätzliche Ressourcen