Kör ditt Azure Databricks-jobb med serverlös beräkning för arbetsflöden

Artikel
11/16/2024

Viktigt!

Eftersom serverlös beräkning för arbetsflöden inte stöder kontroll av utgående trafik har dina jobb fullständig åtkomst till Internet.

Med serverlös beräkning för arbetsflöden kan du köra ditt Azure Databricks-jobb utan att konfigurera och distribuera infrastruktur. Med serverlös beräkning fokuserar du på att implementera dina databearbetnings- och analyspipelines, och Azure Databricks hanterar effektivt beräkningsresurser, inklusive optimering och skalning av beräkning för dina arbetsbelastningar. Automatisk skalning och foton aktiveras automatiskt för de beräkningsresurser som kör jobbet.

Serverlös beräkning för arbetsflöden optimerar automatiskt och kontinuerligt infrastrukturen, till exempel instanstyper, minne och bearbetningsmotorer, för att säkerställa bästa prestanda baserat på de specifika bearbetningskraven för dina arbetsbelastningar.

Databricks uppgraderar automatiskt Databricks Runtime-versionen för att stödja förbättringar och uppgraderingar till plattformen samtidigt som du säkerställer stabiliteten för dina Azure Databricks-jobb. Information om hur du ser den aktuella Databricks Runtime-versionen som används av serverlös beräkning för arbetsflöden finns i Viktig information om serverlös beräkning.

Eftersom behörighet att skapa kluster inte krävs kan alla arbetsyteanvändare använda serverlös beräkning för att köra sina arbetsflöden.

Den här artikeln beskriver hur du använder användargränssnittet för Azure Databricks-jobb för att skapa och köra jobb som använder serverlös beräkning. Du kan också automatisera skapandet och körningen av jobb som använder serverlös beräkning med Jobb-API:et, Databricks Asset Bundles och Databricks SDK för Python.

Mer information om hur du använder JOBB-API:et för att skapa och köra jobb som använder serverlös beräkning finns i Jobb i REST API-referensen.
Mer information om hur du använder Databricks-tillgångspaket för att skapa och köra jobb som använder serverlös beräkning finns i Utveckla ett jobb på Azure Databricks med databricks-tillgångspaket.
Mer information om hur du använder Databricks SDK för Python för att skapa och köra jobb som använder serverlös beräkning finns i Databricks SDK för Python.

Krav

Din Azure Databricks-arbetsyta måste ha Unity Catalog aktiverat.
Eftersom serverlös beräkning för arbetsflöden använder läget för delad åtkomst måste dina arbetsbelastningar ha stöd för det här åtkomstläget.
Din Azure Databricks-arbetsyta måste finnas i en region som stöds. Se Funktioner med begränsad regional tillgänglighet.
Ditt Azure Databricks-konto måste ha serverlös beräkning aktiverad. Se Aktivera serverlös beräkning.

Skapa ett jobb med serverlös beräkning

Kommentar

Eftersom serverlös beräkning för arbetsflöden säkerställer att tillräckligt med resurser etableras för att köra dina arbetsbelastningar kan det uppstå ökade starttider när du kör ett Azure Databricks-jobb som kräver stora mängder minne eller innehåller många uppgifter.

Serverlös beräkning stöds med uppgiftstyperna notebook, Python-skript, dbt och Python-hjul. Som standard väljs serverlös beräkning som beräkningstyp när du skapar ett nytt jobb och lägger till någon av de här aktivitetstyperna som stöds.

Skapa serverlös uppgift

Databricks rekommenderar att du använder serverlös beräkning för alla jobbaktiviteter. Du kan också ange olika beräkningstyper för aktiviteter i ett jobb, vilket kan krävas om en aktivitetstyp inte stöds av serverlös beräkning för arbetsflöden.

Konfigurera ett befintligt jobb för att använda serverlös beräkning

Du kan växla ett befintligt jobb till att använda serverlös beräkning för aktivitetstyper som stöds när du redigerar jobbet. Växla till serverlös beräkning genom att antingen:

På sidan Jobbinformation klickar du på Växla under Beräkning, klickar på Nytt, anger eller uppdaterar inställningar och klickar på Uppdatera.
Klicka på den nedrullningsbara menyn Beräkning och välj Serverlös.

Växla uppgift till serverlös beräkning

Schemalägga en notebook-fil med hjälp av serverlös beräkning

Förutom att använda användargränssnittet jobb för att skapa och schemalägga ett jobb med serverlös beräkning kan du skapa och köra ett jobb som använder serverlös beräkning direkt från en Databricks-notebook-fil. Se Skapa och hantera schemalagda notebook-jobb.

Välj en budgetprincip för din serverlösa användning

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Med budgetprinciper kan din organisation tillämpa anpassade taggar på serverlös användning för detaljerad faktureringsattribution.

Om din arbetsyta använder budgetprinciper för att tillskriva serverlös användning kan du välja jobbets budgetprincip med hjälp av inställningen Budgetprincip i användargränssnittet för jobbinformation. Om du bara tilldelas en budgetprincip väljs principen automatiskt för dina nya jobb.

Kommentar

När du har tilldelats en budgetprincip taggas inte dina befintliga jobb automatiskt med din princip. Du måste uppdatera befintliga jobb manuellt om du vill koppla en princip till dem.

Mer information om budgetprinciper finns i Attributserverlös användning med budgetprinciper.

Ange Spark-konfigurationsparametrar

För att automatisera konfigurationen av Spark på serverlös beräkning tillåter Databricks endast inställning av specifika Spark-konfigurationsparametrar. En lista över tillåtna parametrar finns i Spark-konfigurationsparametrar som stöds.

Du kan endast ange Spark-konfigurationsparametrar på sessionsnivå. Det gör du genom att ange dem i en notebook-fil och lägga till anteckningsboken i en uppgift som ingår i samma jobb som använder parametrarna. Se Hämta och ange Apache Spark-konfigurationsegenskaper i en notebook-fil.

Konfigurera miljöer och beroenden

Information om hur du installerar bibliotek och beroenden med serverlös beräkning finns i Installera notebook-beroenden.

Konfigurera automatisk optimering av serverlös beräkning så att återförsök inte tillåts

Serverlös beräkning för automatisk optimering av arbetsflöden optimerar automatiskt den beräkning som används för att köra dina jobb och återförsök misslyckade uppgifter. Automatisk optimering är aktiverat som standard och Databricks rekommenderar att du låter det vara aktiverat för att säkerställa att kritiska arbetsbelastningar körs minst en gång. Men om du har arbetsbelastningar som måste köras högst en gång, till exempel jobb som inte är idempotenter, kan du inaktivera automatisk optimering när du lägger till eller redigerar en uppgift:

Bredvid Försök igen klickar du på Lägg till (eller om det redan finns en återförsöksprincip).
I dialogrutan Återförsöksprincip avmarkerar du Aktivera serverlös automatisk optimering (kan innehålla ytterligare återförsök).
Klicka på Bekräfta.
Om du lägger till en aktivitet klickar du på Skapa aktivitet. Om du redigerar en uppgift klickar du på Spara uppgift.

Övervaka kostnaden för jobb som använder serverlös beräkning för arbetsflöden

Du kan övervaka kostnaden för jobb som använder serverlös beräkning för arbetsflöden genom att fråga den fakturerbara användningssystemtabellen. Den här tabellen uppdateras så att den innehåller användar- och arbetsbelastningsattribut om serverlösa kostnader. Se Tabellreferens för fakturerbart användningssystem.

Information om aktuella priser och eventuella kampanjer finns på sidan arbetsflödespriser.

Visa frågeinformation för jobbkörningar

Du kan visa detaljerad körningsinformation för dina Spark-instruktioner, till exempel mått och frågeplaner.

Använd följande steg för att komma åt frågeinformation från jobbgränssnittet:

Klicka på Arbetsflöden i sidofältet.
Klicka på namnet på det jobb som du vill visa.
Klicka på den specifika körning som du vill visa.
Klicka på Tidslinje för att visa körningen som en tidslinje, uppdelad i enskilda uppgifter.
Klicka på pilen bredvid aktivitetsnamnet för att visa frågeuttryck och deras körning.
Klicka på en instruktion för att öppna frågeinformationspanelen. Se Visa frågeinformation om du vill veta mer om den information som är tillgänglig i den här panelen.

Så här visar du frågehistoriken för en uppgift:

I avsnittet Beräkning i panelen Aktivitetskörning klickar du på Frågehistorik.
Du omdirigeras till frågehistoriken, förfiltrerad baserat på aktivitetskörnings-ID:t för den aktivitet som du befann dig i.

Information om hur du använder frågehistorik finns i Åtkomst till frågehistorik för Delta Live Tables-pipelines och Frågehistorik.

Begränsningar

En lista över serverlös beräkning för arbetsflödesbegränsningar finns i Serverlösa beräkningsbegränsningar i viktig information om serverlös beräkning.

Dela via