Konfigurera en serverlös Delta Live Tables-pipeline

Artikel
11/07/2024

I den här artikeln beskrivs konfigurationer för serverlösa Delta Live Tables-pipelines.

Databricks rekommenderar att du utvecklar nya pipelines med hjälp av serverlös. Vissa arbetsbelastningar kan kräva att du konfigurerar klassisk beräkning eller arbetar med det äldre Hive-metaarkivet. Se Konfigurera beräkning för en Delta Live Tables-pipeline och Använd Delta Live Tables-pipelines med äldre Hive-metaarkiv.

Kommentar

Serverlösa pipelines använder alltid Unity Catalog. Unity Catalog for Delta Live Tables finns i offentlig förhandsversion och har vissa begränsningar. Se Använda Unity Catalog med dina Delta Live Tables-pipelines.
Du kan inte lägga till beräkningsinställningar manuellt i ett clusters objekt i JSON-konfigurationen för en serverlös pipeline. Om du försöker göra det resulterar det i ett fel.
Information om berättigande och aktivering för serverlösa DLT-pipelines finns i Aktivera serverlös beräkning.
Om du behöver använda en Azure Private Link-anslutning med dina serverlösa DLT-pipelines kontaktar du din Databricks-representant.

Krav

Din arbetsyta måste ha Unity Catalog aktiverat för att kunna använda serverlösa pipelines.
Arbetsytan måste vara i en serverlös aktiverad region.

Rekommenderad konfiguration för serverlösa pipelines

Viktigt!

Behörighet att skapa kluster krävs inte för att konfigurera serverlösa pipelines. Som standard kan alla arbetsyteanvändare använda serverlösa pipelines.

Serverlösa pipelines tar bort de flesta konfigurationsalternativ eftersom Azure Databricks hanterar all infrastruktur. Gör följande för att konfigurera en serverlös pipeline:

Klicka på Delta Live Tables (Delta Live Tables ) i sidofältet.
Klicka på Skapa pipeline.
Ange ett unikt pipelinenamn.
Markera kryssrutan bredvid Serverlös.
Använd filväljaren för att konfigurera notebook-filer och arbetsytefiler som källkod.
- Du måste lägga till minst en källkodstillgång.
- Använd knappen Lägg till källkod för att lägga till ytterligare källkodstillgångar.
Välj en katalog för att publicera data.
Välj ett schema i katalogen. Alla strömmande tabeller och materialiserade vyer som definierats i pipelinen skapas i det här schemat.
Klicka på Skapa.

Dessa rekommenderade konfigurationer skapar en ny pipeline som är konfigurerad att köras i utlöst läge och den aktuella kanalen. Den här konfigurationen rekommenderas för många användningsfall, inklusive utveckling och testning, och passar bra för produktionsarbetsbelastningar som ska köras enligt ett schema. Mer information om hur du schemalägger pipelines finns i Delta Live Tables pipeline task for jobs (Delta Live Tables pipeline task for jobs).

Du kan också konvertera befintliga pipelines som konfigurerats med Unity Catalog för att använda serverlösa. Se Konvertera en befintlig pipeline för att använda serverlös.

Andra konfigurationsöverväganden

Följande konfigurationsalternativ är också tillgängliga för serverlösa pipelines:

Du kan välja att använda läget Kontinuerlig pipeline när du kör pipelines i produktion. Se Utlöses jämfört med kontinuerligt pipelineläge.
Lägg till meddelanden för e-postuppdateringar baserat på framgångs- eller felvillkor. Se Lägga till e-postaviseringar för pipelinehändelser.
Använd fältet Konfiguration för att ange nyckel/värde-par för pipelinen. Dessa konfigurationer har två syften:
- Ange godtyckliga parametrar som du kan referera till i källkoden. Se Använda parametrar med Delta Live Tables-pipelines.
- Konfigurera pipelineinställningar och Spark-konfigurationer. Se Egenskaper för Delta Live Tables.
Använd förhandsgranskningskanalen för att testa din pipeline mot väntande Delta Live Tables-körningsändringar och testa nya funktioner.

Budgetprincip

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Med budgetprinciper kan din organisation tillämpa anpassade taggar på serverlös användning för detaljerad faktureringsattribution. När du har markerat kryssrutan Serverlös visas inställningen Budgetprincip där du kan välja den princip som du vill tillämpa på pipelinen. Taggarna ärvs från budgetprincipen och kan bara redigeras av arbetsyteadministratörer.

Kommentar

När du har tilldelats en budgetprincip taggas inte dina befintliga pipelines automatiskt med din princip. Du måste uppdatera befintliga pipelines manuellt om du vill koppla en princip till dem.

Mer information om budgetprinciper finns i Attributserverlös användning med budgetprinciper.

Serverlösa pipelinefunktioner

Förutom att förenkla konfigurationen har serverlösa pipelines följande funktioner:

Inkrementell uppdatering för materialiserade vyer: Uppdateringar för materialiserade vyer uppdateras stegvis när det är möjligt. Inkrementell uppdatering har samma resultat som fullständig omkomputation. Uppdateringen använder en fullständig uppdatering om resultatet inte kan beräknas stegvis. Se Inkrementell uppdatering för materialiserade vyer.
Stream pipelining: För att förbättra användningen, dataflödet och svarstiden för strömmande dataarbetsbelastningar, till exempel datainmatning, pipelines mikrobatcher. Med andra ord, i stället för att köra mikrobatcher sekventiellt som Standard Spark Structured Streaming, kör serverlösa DLT-pipelines mikrobatcher samtidigt, vilket förbättrar användningen av beräkningsresurser. Stream pipelining är aktiverat som standard i serverlösa DLT-pipelines.
Lodrät autoskalning: Serverlösa DLT-pipelines lägger till den horisontella autoskalning som tillhandahålls av Databricks förbättrad autoskalning genom att automatiskt allokera de mest kostnadseffektiva instanstyperna som kan köra din Delta Live Tables-pipeline utan att misslyckas på grund av minnesfel. Se Vad är lodrät autoskalning?

Vad är lodrät autoskalning?

Lodrät automatisk skalning av serverlösa DLT-pipelines allokerar automatiskt de mest kostnadseffektiva tillgängliga instanstyperna för att köra dina Delta Live Tables-pipelineuppdateringar utan att misslyckas på grund av minnesfel. Lodrät autoskalning skalas upp när större instanstyper krävs för att köra en pipelineuppdatering och skalas även ned när den fastställer att uppdateringen kan köras med mindre instanstyper. Lodrät autoskalning avgör om drivrutinsnoder, arbetsnoder eller både drivrutins- och arbetsnoder ska skalas upp eller ned.

Lodrät autoskalning används för alla serverlösa DLT-pipelines, inklusive pipelines som används av Databricks SQL-materialiserade vyer och strömmande tabeller.

Lodrät autoskalning fungerar genom att identifiera pipelineuppdateringar som har misslyckats på grund av minnesfel. Lodrät autoskalning allokerar större instanstyper när dessa fel identifieras baserat på minnesutdata som samlats in från den misslyckade uppdateringen. I produktionsläge startas en ny uppdatering som använder de nya beräkningsresurserna automatiskt. I utvecklingsläge används de nya beräkningsresurserna när du startar en ny uppdatering manuellt.

Om lodrät autoskalning upptäcker att minnet för de allokerade instanserna är konsekvent underutnyttat, kommer instanstyperna att skalas ned som ska användas i nästa pipelineuppdatering.

Konvertera en befintlig pipeline till att använda serverlös

Du kan konvertera befintliga pipelines som konfigurerats med Unity Catalog till serverlösa pipelines. Slutför följande steg:

Klicka på Delta Live Tables (Delta Live Tables ) i sidofältet.
Klicka på namnet på den önskade pipelinen i listan.
Klicka på Inställningar.
Markera kryssrutan bredvid Serverlös.
Klicka på Spara och starta.

Viktigt!

När du aktiverar serverlös tas alla beräkningsinställningar som du har konfigurerat för en pipeline bort. Om du växlar tillbaka en pipeline till icke-serverlösa uppdateringar måste du konfigurera om önskade beräkningsinställningar till pipelinekonfigurationen.

Hur hittar jag DBU-användningen av en serverlös pipeline?

Du hittar DBU-användningen av serverlösa DLT-pipelines genom att fråga den fakturerbara användningstabellen, som är en del av Azure Databricks-systemtabellerna. Se Vad är DBU-förbrukningen för en serverlös DLT-pipeline?.

Dela via

Konfigurera en serverlös Delta Live Tables-pipeline

Krav

Rekommenderad konfiguration för serverlösa pipelines

Andra konfigurationsöverväganden

Budgetprincip

Serverlösa pipelinefunktioner

Vad är lodrät autoskalning?

Konvertera en befintlig pipeline till att använda serverlös

Hur hittar jag DBU-användningen av en serverlös pipeline?

Feedback

Ytterligare resurser