Arkitektur på hög nivå

Den här artikeln innehåller en översikt över Azure Databricks-arkitekturen på hög nivå, inklusive dess företagsarkitektur, i kombination med Azure.

Databricks-objekt

Ett Azure Databricks-konto är den konstruktion på den översta nivån som du använder för att hantera Azure Databricks i hela organisationen. På kontonivå hanterar du:

  • Identitet och åtkomst: Användare, grupper, tjänstens huvudnamn och användaretablering.
  • Hantering av arbetsytor: Skapa, uppdatera och ta bort arbetsytor i flera regioner.

  • Hantering av metaarkiv i Unity Catalog: Skapa och koppla metaarkiv till arbetsytor.

  • Användningshantering: Fakturering, efterlevnad och principer.

Ett konto kan innehålla flera arbetsytor och Unity Catalog-metaarkiv.

  • Arbetsytor är samarbetsmiljön där användare kör beräkningsarbetsbelastningar som inmatning, interaktiv utforskning, schemalagda jobb och ML-utbildning.

  • Unity Catalog-metaarkiv är det centrala styrningssystemet för datatillgångar som tabeller och ML-modeller. Du organiserar data i ett metaarkiv under ett namnområde på tre nivåer:

<catalog-name>.<schema-name>.<object-name>

Metaarkiv är kopplade till arbetsytor. Du kan länka ett enda metaarkiv till flera Azure Databricks-arbetsytor i samma region, vilket ger varje arbetsyta samma datavy. Dataåtkomstkontroller kan hanteras på alla länkade arbetsytor.

Diagram: Databricks-objekthierarki

Arkitektur för arbetsyta

Azure Databricks fungerar från ett kontrollplan och ett beräkningsplan.

  • Kontrollplanet innehåller de serverdelstjänster som Azure Databricks hanterar i ditt Azure Databricks-konto. Webbprogrammet finns i kontrollplanet.

  • Det är på beräkningsplanet där dina data bearbetas. Det finns två typer av beräkningsplan beroende på vilken beräkning du använder.

    • För serverlös beräkning körs de serverlösa beräkningsresurserna i ett serverlöst beräkningsplan i ditt Azure Databricks-konto.
    • För klassisk Azure Databricks-beräkning finns beräkningsresurserna i din Azure-prenumeration i det som kallas det klassiska beräkningsplanet. Detta refererar till nätverket i din Azure-prenumeration och dess resurser.

    Mer information om klassisk beräkning och serverlös beräkning finns i Beräkning.

Klassisk arbetsytearkitektur

Klassiska Azure Databricks-arbetsytor har ett associerat lagringskonto som kallas lagringskontot för arbetsytan. Lagringskontot för arbetsytan finns i din Azure-prenumeration.

I följande diagram beskrivs den allmänna Azure Databricks-arkitekturen för klassiska arbetsytor.

Diagram: Databricks-arkitektur

Arkitektur för serverlös arbetsyta

Arbetsytans lagring i serverlösa arbetsytor sparas i arbetsytans förvalda lagring. Du kan också ansluta till ditt molnlagringskonto för att få åtkomst till dina data. I följande diagram beskrivs den allmänna arkitekturen för serverlösa arbetsytor.

Diagram: Databricks-arkitektur

Serverlöst beräkningsplan

I det serverlösa beräkningsplanet körs Azure Databricks-beräkningsresurser i ett beräkningslager i ditt Azure Databricks-konto. Azure Databricks skapar ett serverlöst beräkningsplan i samma Azure-region som arbetsytans klassiska beräkningsplan. Du väljer den här regionen när du skapar en arbetsyta.

För att skydda kunddata i det serverlösa beräkningsplanet körs serverlös beräkning inom en nätverksgräns för arbetsytan, med olika säkerhetslager för att isolera olika Azure Databricks-kundarbetsytor och ytterligare nätverkskontroller mellan kluster för samma kund.

Om du vill veta mer om nätverk i det serverlösa beräkningsplanet, serverlös beräkningsplannätverk.

Klassiskt beräkningsplan

I det klassiska beräkningsplanet körs Azure Databricks-beräkningsresurser i din Azure-prenumeration. Nya beräkningsresurser skapas i varje arbetsytas virtuella nätverk i kundens Azure-prenumeration.

Ett klassiskt beräkningsplan har naturlig isolering eftersom det körs i varje kunds egen Azure-prenumeration. Mer information om nätverk i det klassiska beräkningsplanet finns i Klassiska nätverk för beräkningsplanet.

Regionalt stöd finns i Azure Databricks-regioner.

Lagring av arbetsyta

Lagring av arbetsytor hanteras på olika sätt beroende på din arbetsytetyp. Mer information om arbetsytetyperna finns i Skapa en arbetsyta.

Serverlösa arbetsytor

Serverlösa arbetsytor använder standardlagring, vilket är en fullständigt hanterad lagringsplats för arbetsytans systemdata och Unity Catalog-kataloger. Serverlösa arbetsytor stöder också möjligheten att ansluta till dina molnlagringsplatser. Se Standardlagring i Databricks.

Klassiska arbetsytor

Lagringskontot för arbetsytan innehåller:

  • Systemdata för arbetsytor: Arbetsytesystemdata genereras när du använder olika Azure Databricks-funktioner, till exempel att skapa notebook-filer. Den här bucketen innehåller notebook-revisioner, jobbkörningsinformation, kommandoresultat och Spark-loggar
  • Unity Catalog-arbetsytekatalog: Om arbetsytan aktiverades automatiskt för Unity Catalog innehåller arbetsytans lagringskonto standardkatalogen för arbetsytor. Alla användare på din arbetsyta kan skapa tillgångar i standardschemat i den här katalogen. Se Kom igång med Unity Catalog.
  • DBFS (äldre): DBFS-rot- och DBFS-monteringar är äldre och kan vara inaktiverade på din arbetsyta. DBFS (Databricks File System) är ett distribuerat filsystem i Azure Databricks-miljöer som är tillgängliga under dbfs:/ namnområdet. DBFS-rot- och DBFS-monteringar finns båda i dbfs:/ namnområdet. Lagring och åtkomst till data med DBFS-rot- eller DBFS-monteringar är ett inaktuellt mönster och rekommenderas inte av Databricks. Mer information finns i Vad är DBFS?.

Information om hur du begränsar åtkomsten till ditt lagringskonto för arbetsytor från endast auktoriserade resurser och nätverk finns i Aktivera brandväggsstöd för ditt lagringskonto för arbetsytan.