Snabbstart: Skapa en ny serverlös Apache Spark-pool med hjälp av Azure-portalen

Azure Synapse Analytics erbjuder olika analysmotorer som hjälper dig att mata in, transformera, modellera, analysera och distribuera dina data. En Apache Spark-pool har funktioner för stordatabearbetning med öppen källkod. När du har skapat en Apache Spark-pool på din Synapse-arbetsyta kan data läsas in, modelleras, bearbetas och distribueras för snabbare analysinsikt.

I den här snabbstarten lär du dig hur du använder Azure-portalen för att skapa en Apache Spark-pool på en Synapse-arbetsyta.

Viktigt!

Faktureringen för Spark-instanser beräknas per minut, oavsett om du använder dem eller inte. Se till att stänga av Spark-instansen när du har använt den eller ange en kort tidsgräns. Mer information finns i avsnittet Rensa resurser i den här artikeln.

Om du inte har någon Azure-prenumeration skapar du ett kostnadsfritt konto innan du börjar.

Förutsättningar

  • Du behöver en Azure-prenumeration. Skapa ett kostnadsfritt Azure-konto om det behövs
  • Du kommer att använda Synapse-arbetsytan.

Logga in på Azure-portalen

Logga in på Azure-portalen

  1. Gå till Synapse-arbetsytan där Apache Spark-poolen skapas genom att skriva tjänstnamnet (eller resursnamnet direkt) i sökfältet. Screenshot of the Azure portal search bar with Synapse workspaces typed in.

  2. I listan över arbetsytor skriver du namnet (eller en del av namnet) på arbetsytan som ska öppnas. I det här exemplet använder vi en arbetsyta med namnet contosoanalytics. Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

Skapa ny Apache Spark-pool

Viktigt!

Azure Synapse Runtime för Apache Spark 2.4 har blivit inaktuell och stöds officiellt inte sedan september 2023. Med tanke på att Spark 3.1 och Spark 3.2 också har upphört med supporten rekommenderar vi att kunderna migrerar till Spark 3.3.

  1. På synapse-arbetsytan där du vill skapa Apache Spark-poolen väljer du Ny Apache Spark-pool. Screenshot from the Azure portal of a Synapse workspace with a red box around the command to create a new Apache Spark pool.

  2. Ange följande information på fliken Grundläggande :

    Inställning Föreslaget värde Beskrivning
    Namn på Apache Spark-pool Ett giltigt poolnamn, till exempel contosospark Det här är namnet som Apache Spark-poolen kommer att ha.
    Nodstorlek Liten (4 vCPU/32 GB) Ange den minsta storleken för att minska kostnaderna för den här snabbstarten
    Automatisk skalning Inaktiverad Vi behöver inte autoskalning för den här snabbstarten
    Antal noder 5 Använd en liten storlek för att begränsa kostnaderna för den här snabbstarten

    Screenshot from the Azure portal of the Apache Spark pool create flow - basics tab.

    Viktigt!

    Det finns specifika begränsningar för de namn som Apache Spark-pooler kan använda. Namn får endast innehålla bokstäver eller siffror, måste innehålla högst 15 tecken, måste börja med en bokstav, inte innehålla reserverade ord och vara unika på arbetsytan.

  3. Välj Nästa: ytterligare inställningar och granska standardinställningarna. Ändra inga standardinställningar. Screenshot from the Azure portal that shows the 'Create Apache Spark pool' page with the 'Additional settings' tab selected.

  4. Välj Nästa: taggar. Överväg att använda Azure-taggar. Till exempel taggen "Ägare" eller "CreatedBy" för att identifiera vem som skapade resursen och taggen "Miljö" för att identifiera om den här resursen finns i Produktion, Utveckling osv. Mer information finns i Utveckla din namngivnings- och taggningsstrategi för Azure-resurser. Screenshot from the Azure portal of Apache Spark pool create flow - additional settings tab.

  5. Välj Granska + skapa.

  6. Kontrollera att informationen ser korrekt ut baserat på vad som angavs tidigare och välj Skapa. Screenshot from the Azure portal of Apache Spark pool create flow - review settings tab.

  7. Nu startar resursetableringsflödet, vilket anger när det är klart. Screenshot from the Azure portal of that shows the 'Overview' page with a 'Your deployment is complete' message displayed.

  8. När etableringen är klar visas en ny post för den nyligen skapade Apache Spark-poolen när du navigerar tillbaka till arbetsytan. Screenshot from the Azure portal of Apache Spark pool create flow - resource provisioning.

  9. I det här läget körs inga resurser, inga avgifter för Spark, du har skapat metadata om de Spark-instanser som du vill skapa.

Rensa resurser

Följande steg tar bort Apache Spark-poolen från arbetsytan.

Varning

Om du tar bort en Apache Spark-pool tas analysmotorn bort från arbetsytan. Det går inte längre att ansluta till poolen och alla frågor, pipelines och notebook-filer som använder den här Apache Spark-poolen fungerar inte längre.

Om du vill ta bort Apache Spark-poolen gör du följande:

  1. Gå till fönstret Apache Spark-pooler på arbetsytan.
  2. Välj den Apache Spark-pool som ska tas bort (i det här fallet contosospark).
  3. Välj Ta bort. Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.
  4. Bekräfta borttagningen och välj knappen Ta bort . Screenshot from the Azure portal of the Confirmation dialog to delete the selected Apache Spark pool.
  5. När processen är klar visas inte längre Apache Spark-poolen i arbetsytans resurser.