Fuskark för schemaläggning av produktionsjobb

Den här artikeln syftar till att ge tydlig och åsiktsorienterad vägledning för schemaläggning av produktionsjobb. Med hjälp av metodtips kan du minska kostnaderna, förbättra prestanda och öka säkerheten.

Metodtips Påverkan Dokument
Använda serverlös beräkning för jobb Kostnad: Serverlösa jobb kräver ingen klusterkonfiguration. Azure Databricks hanterar etablering och skalning automatiskt.
Använd Lakeflow-jobb för orkestrering när det är möjligt Cost: Du behöver inte använda externa verktyg för att orkestrera om du bara orkestrerar arbetsbelastningar på Azure Databricks.
Använda tjänstens huvudnamn i stället för användarkonton för att köra produktionsjobb Säkerhet: Om jobb ägs av enskilda användare kan de här jobben sluta köras när de lämnar organisationen.
För klassisk beräkning: använd jobbkluster för automatiserade arbetsflöden Kostnad: Jobbkluster faktureras till lägre priser än interaktiva kluster.
För klassisk beräkning: starta om långvariga kluster Säkerhet: Starta om kluster för att dra nytta av korrigeringar och felkorrigeringar i Databricks Runtime.
För klassisk beräkning: använd den senaste LTS-versionen av Databricks Runtime Performance och kostnad: Azure Databricks förbättrar alltid Databricks Runtime för användbarhet, prestanda och säkerhet.
För klassisk beräkning: lagra inte produktionsdata i DBFS-roten Säkerhet: När data lagras i DBFS-roten kan alla användare komma åt dem.