Implementera arbetsflöden för databearbetning och analys med jobb

Artikel
03/25/2024

Du kan använda ett Azure Databricks-jobb för att samordna dina pipelines för databearbetning, maskininlärning eller dataanalys på Databricks-plattformen. Azure Databricks-jobb stöder ett antal arbetsbelastningstyper, inklusive notebook-filer, skript, Delta Live Tables-pipelines, Databricks SQL-frågor och dbt-projekt . Följande artiklar beskriver hur du använder funktionerna och alternativen i Azure Databricks-jobb för att implementera dina datapipelines.

Transformera, analysera och visualisera dina data med ett Azure Databricks-jobb

Du kan använda ett jobb för att skapa en datapipeline som matar in, transformerar, analyserar och visualiserar data. Exemplet i Använda Databricks SQL i ett Azure Databricks-jobb skapar en pipeline som:

Använder ett Python-skript för att hämta data med hjälp av ett REST-API.
Använder Delta Live Tables för att mata in och transformera hämtade data och spara transformerade data till Delta Lake.
Använder jobbintegrering med Databricks SQL för att analysera transformerade data och skapa grafer för att visualisera resultatet.

Använda dbt-transformeringar i ett jobb

Använd aktivitetstypen dbt om du utför datatransformering med ett dbt core-projekt och vill integrera projektet i ett Azure Databricks-jobb, eller om du vill skapa nya dbt-transformeringar och köra dessa transformeringar i ett jobb. Se Använda dbt-transformeringar i ett Azure Databricks-jobb.

Använda ett Python-paket i ett jobb

Python-hjulfiler är ett standard sätt att paketera och distribuera de filer som krävs för att köra ett Python-program. Du kan enkelt skapa ett jobb som använder Python-kod paketerad som en Python-hjulfil med uppgiftstypen Python wheel . Se Använda en Python-hjulfil i ett Azure Databricks-jobb.

Använda kod som paketeras i en JAR

Bibliotek och program som implementeras på ett JVM-språk, till exempel Java och Scala, paketeras ofta i en Java-arkivfil (JAR). Azure Databricks Jobs stöder kod som paketeras i en JAR med aktivitetstypen JAR . Se Använda en JAR i ett Azure Databricks-jobb.

Använda notebook-filer eller Python-kod som underhålls på en central lagringsplats

Ett vanligt sätt att hantera versionskontroll och samarbete för produktionsartefakter är att använda en central lagringsplats, till exempel GitHub. Azure Databricks Jobs har stöd för att skapa och köra jobb med hjälp av notebook-filer eller Python-kod som importerats från en lagringsplats, inklusive GitHub- eller Databricks Git-mappar. Se Använda versionskontrollerad källkod i ett Azure Databricks-jobb.

Samordna dina jobb med Apache Airflow

Databricks rekommenderar att du använder Azure Databricks-jobb för att samordna dina arbetsflöden. Apache Airflow används dock ofta som ett arbetsflödesorkestreringssystem och ger internt stöd för Azure Databricks-jobb. Medan Azure Databricks Jobs tillhandahåller ett visuellt användargränssnitt för att skapa dina arbetsflöden använder Airflow Python-filer för att definiera och distribuera dina datapipelines. Ett exempel på hur du skapar och kör ett jobb med Airflow finns i Orkestrera Azure Databricks-jobb med Apache Airflow.

Köra ett jobb med hjälp av tjänstens huvudnamn

Du kan köra dina jobb som ett tjänstkonto med hjälp av ett Microsoft Entra-ID (tidigare Azure Active Directory) och tjänstens huvudnamn. Genom att köra ett jobb som ett tjänstkonto i stället för en enskild användare kan du styra åtkomsten till jobbet, se till att jobbet har nödvändiga behörigheter och förhindra problem om en jobbägare tas bort från en arbetsyta. En självstudiekurs om hur du skapar och använder ett huvudnamn för tjänsten för att köra ett Azure Databricks-jobb finns i Köra ett jobb med tjänstens huvudnamn för Microsoft Entra-ID.

Dela via