Översikt över Azure Databricks-arkitektur

Den här artikeln innehåller en översikt över Azure Databricks-arkitekturen på hög nivå, inklusive dess företagsarkitektur, i kombination med Azure.

Kontrollplan och beräkningsplan

Azure Databricks är strukturerat för att möjliggöra säkert korsfunktionellt teamsamarbete samtidigt som en betydande mängd serverdelstjänster hanteras av Azure Databricks så att du kan fokusera på dina datavetenskaps-, dataanalys- och datateknikuppgifter.

Azure Databricks fungerar från ett kontrollplan och ett beräkningsplan.

  • Kontrollplanet innehåller de serverdelstjänster som Azure Databricks hanterar i ditt Azure Databricks-konto. Notebook-kommandon och många andra arbetsytekonfigurationer lagras i kontrollplanet och krypteras i vila.

  • Beräkningsplanet är där dina data bearbetas.

    • För de flesta Azure Databricks-beräkningar finns beräkningsresurserna i din Azure-prenumeration i det som kallas det klassiska beräkningsplanet. Detta refererar till nätverket i din Azure-prenumeration och dess resurser. Azure Databricks använder det klassiska beräkningsplanet för dina notebook-filer, jobb och för pro och klassiska Databricks SQL-lager.
    • För serverlösa SQL-lager eller modelltjänster körs de serverlösa beräkningsresurserna i ett serverlöst beräkningsplan i ditt Azure Databricks-konto. Mer arkitekturinformation finns i Serverlös beräkning.

    Kommentar

    Tidigare kallade Azure Databricks beräkningsplanet för dataplanet.

Använd Azure Databricks-anslutningsappar för att ansluta kluster till externa datakällor utanför din Azure-prenumeration för att mata in data eller för lagring. Du kan också mata in data från externa strömmande datakällor, till exempel händelsedata, strömmande data, IoT-data med mera. Se Anslut till datakällor.

Information om hur du konfigurerar nätverken för det klassiska beräkningsplanet finns i Klassiska beräkningsplanets nätverk.

Din datasjö lagras i vila i din Azure-prenumeration och i dina egna datakällor så att du behåller kontrollen och ägarskapet för dina data.

Jobbresultat finns i lagringen i din Azure-prenumeration. För interaktiva notebook-resultat finns lagringen i en kombination av kontrollplanet (partiella resultat för presentation i användargränssnittet) och din Azure-lagring. Om du bara vill att interaktiva notebook-resultat ska lagras i din Azure-prenumeration kan du konfigurera lagringsplatsen för interaktiva notebook-resultat. Se Konfigurera lagringsplatsen för interaktiva notebook-resultat. Observera att vissa metadata om resultat, till exempel diagramkolumnnamn, fortsätter att lagras i kontrollplanet.

Arkitektur på hög nivå

Även om arkitekturer kan variera beroende på anpassade konfigurationer (till exempel när du har distribuerat en Azure Databricks-arbetsyta till ditt eget virtuella nätverk, även kallat VNet-inmatning), representerar följande arkitekturdiagram den vanligaste strukturen och dataflödet för Azure Databricks.

Följande diagram beskriver den övergripande arkitekturen. Mer information om det serverlösa beräkningsplanet som används för serverlösa SQL-lager finns i Serverlös beräkning.

Diagram: Databricks architecture on Azure