Skapa ett Spark-kluster
Du kan skapa ett eller flera kluster på din Azure Databricks-arbetsyta med hjälp av användargränssnittet för Azure Databricks-arbetsytan.
När du skapar klustret kan du ange konfigurationsinställningar, inklusive:
- Ett namn på klustret.
- Ett klusterläge, som kan vara:
- Standard: Lämplig för arbetsbelastningar med en användare som kräver flera arbetsnoder.
- Hög samtidighet: Lämplig för arbetsbelastningar där flera användare använder klustret samtidigt.
- Enskild nod: Lämplig för små arbetsbelastningar eller testning, där endast en enda arbetsnod krävs.
- Den version av Databricks Runtime som ska användas i klustret. som avgör vilken version av Spark och enskilda komponenter som Python, Scala och andra som installeras.
- Den typ av virtuell dator (VM) som används för arbetsnoderna i klustret.
- Det minsta och högsta antalet arbetsnoder i klustret.
- Den typ av virtuell dator som används för drivrutinsnoden i klustret.
- Om klustret stöder autoskalning för att dynamiskt ändra storlek på klustret.
- Hur länge klustret kan vara inaktivt innan det stängs av automatiskt.
Så hanterar Azure klusterresurser
När du skapar en Azure Databricks-arbetsyta distribueras en Databricks-installation som en Azure-resurs i din prenumeration. När du skapar ett kluster på arbetsytan anger du de typer och storlekar på de virtuella datorer som ska användas för både drivrutins- och arbetsnoderna och några andra konfigurationsalternativ, men Azure Databricks hanterar alla andra aspekter av klustret.
Databricks-installationen distribueras till Azure som en hanterad resursgrupp i din prenumeration. Den här resursgruppen innehåller drivrutinen och de virtuella arbetsdatorerna för dina kluster, tillsammans med andra nödvändiga resurser, inklusive ett virtuellt nätverk, en säkerhetsgrupp och ett lagringskonto. Alla metadata för klustret, till exempel schemalagda jobb, lagras i en Azure Database med geo-replikering för feltolerans.
Azure Databricks är uppdelat i två huvudplan: kontrollplanet, som består av serverdelstjänster (till exempel webbgränssnittet) som hanteras av Microsoft och beräkningsplanet, där dina dataarbetsbelastningar körs. Det finns två varianter av beräkning: klassisk beräkning, som använder din egen Azure-prenumeration och ditt virtuella nätverk (erbjuder isolering i prenumerationen) och serverlös beräkning, som körs i Databricks hanterade miljö men fortfarande i samma Azure-region som din arbetsyta, med nätverks- och säkerhetskontroller för att isolera mellan kunder. Varje arbetsyta har ett lagringskonto i din prenumeration som innehåller systemdata (notebook-filer, loggar, jobbmetadata), det distribuerade filsystemet (DBFS) och katalogtillgångar (om du har Unity Catalog aktiverat), med ytterligare kontroller för nätverk, brandvägg och åtkomst för att säkerställa säkerhet och korrekt isolering.
Anmärkning
Du kan också koppla klustret till en pool med inaktiva noder för att minska starttiden för klustret. Mer information finns i Pooler i Azure Databricks-dokumentationen.