Dela via


Snabbstart: Skapa en serverlös Apache Spark-pool med Synapse Studio

Azure Synapse Analytics erbjuder olika analysmotorer som hjälper dig att mata in, transformera, modellera, analysera och hantera dina data. Apache Spark-poolen erbjuder funktioner för stordatabearbetning med öppen källkod. När du har skapat en Apache Spark-pool på din Synapse-arbetsyta kan data läsas in, modelleras, bearbetas och hanteras för att få insikter.

Den här snabbstarten beskriver stegen för att skapa en Apache Spark-pool på en Synapse-arbetsyta med hjälp av Synapse Studio.

Viktigt!

Faktureringen för Spark-instanser beräknas per minut, oavsett om du använder dem eller inte. Se till att stänga av Spark-instansen när du har använt den eller ange en kort tidsgräns. Mer information finns i avsnittet Rensa resurser i den här artikeln.

Om du inte har någon Azure-prenumeration skapar du ett kostnadsfritt konto innan du börjar.

Förutsättningar

  • Du behöver en Azure-prenumeration. Skapa ett kostnadsfritt Azure-konto om det behövs
  • Du kommer att använda Synapse-arbetsytan.

Logga in på Azure-portalen

Logga in på Azure-portalen

  1. Gå till Synapse-arbetsytan där Apache Spark-poolen skapas genom att skriva tjänstnamnet (eller resursnamnet direkt) i sökfältet. Screenshot from the Azure portal of the search bar with Synapse workspaces typed in.

  2. I listan över arbetsytor skriver du namnet (eller en del av namnet) på arbetsytan som ska öppnas. I det här exemplet använder vi en arbetsyta med namnet contosoanalytics. Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

Starta Synapse Studio

I översikten över arbetsytan väljer du webb-URL:en för arbetsytan för att öppna Synapse Studio.

Screenshot from the Azure portal of a Synapse workspace overview with Launch Synapse Studio highlighted.

Skapa Apache Spark-poolen i Synapse Studio

Viktigt!

Azure Synapse Runtime för Apache Spark 2.4 har blivit inaktuell och stöds officiellt inte sedan september 2023. Med tanke på att Spark 3.1 och Spark 3.2 också har upphört med supporten rekommenderar vi att kunderna migrerar till Spark 3.3.

  1. På synapse Studio-startsidan går du till hanteringshubben i det vänstra navigeringsfältet genom att välja ikonen Hantera . Screenshot from the Azure portal of the Synapse Studio home page with Management Hub section highlighted.

  2. I hanteringshubben går du till avsnittet Apache Spark-pooler för att se den aktuella listan över Apache Spark-pooler som är tillgängliga på arbetsytan. Screenshot from the Azure portal of the Synapse Studio management hub with Apache Spark pools navigation selected.

  3. Välj + Ny så visas den nya guiden skapa Apache Spark-pool.

  4. Ange följande information på fliken Grundläggande :

    Inställning Föreslaget värde Beskrivning
    Namn på Apache Spark-pool Ett giltigt poolnamn, till exempel contosospark Det här är namnet som Apache Spark-poolen kommer att ha.
    Nodstorlek Liten (4 vCPU/32 GB) Ange den minsta storleken för att minska kostnaderna för den här snabbstarten
    Automatisk skalning Inaktiverad Vi behöver inte autoskalning i den här snabbstarten
    Antal noder 8 Använd en liten storlek för att begränsa kostnaderna i den här snabbstarten
    Dynamiskt allokera köre Inaktiverad Den här inställningen mappar till den dynamiska allokeringsegenskapen i Spark-konfigurationen för Spark Application Executors-allokering. Vi behöver inte autoskalning i den här snabbstarten.

    Screenshot from the Azure portal of the Basics for Synapse Studio new Apache Spark pool.

    Viktigt!

    Det finns specifika begränsningar för de namn som Apache Spark-pooler kan använda. Namn får endast innehålla bokstäver eller siffror, måste innehålla högst 15 tecken, måste börja med en bokstav, inte innehålla reserverade ord och vara unika på arbetsytan.

  5. På nästa flik, Ytterligare inställningar, lämnar du alla inställningar som standard.

  6. Välj Taggar. Överväg att använda Azure-taggar. Till exempel taggen "Ägare" eller "CreatedBy" för att identifiera vem som skapade resursen och taggen "Miljö" för att identifiera om den här resursen finns i Produktion, Utveckling osv. Mer information finns i Utveckla din namngivnings- och taggningsstrategi för Azure-resurser. När du är klar väljer du Granska + skapa.

  7. På fliken Granska + skapa kontrollerar du att informationen ser korrekt ut baserat på vad som angavs tidigare och trycker på Skapa.

    Screenshot from the Azure portal of the Create Synapse Studio new Apache Spark pool.

  8. Apache Spark-poolen startar etableringsprocessen.

  9. När etableringen är klar visas den nya Apache Spark-poolen i listan.

    Screenshot from the Azure portal of the Synapse Studio new Apache Spark pool list.

Rensa Apache Spark-poolresurser med Synapse Studio

Följande steg tar bort Apache Spark-poolen från arbetsytan med Hjälp av Synapse Studio.

Varning

Om du tar bort en Spark-pool tas analysmotorn bort från arbetsytan. Det går inte längre att ansluta till poolen, och alla frågor, pipelines och notebook-filer som använder den här Spark-poolen fungerar inte längre.

Om du vill ta bort Apache Spark-poolen gör du följande:

  1. Gå till Apache Spark-poolerna i hanteringshubben i Synapse Studio.

  2. Välj ellipsen bredvid Apache-poolen som ska tas bort (i det här fallet contosospark) för att visa kommandona för Apache Spark-poolen.

    Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.

  3. Välj Ta bort.

  4. Bekräfta borttagningen och tryck på knappen Ta bort .

  5. När processen är klar visas inte längre Apache Spark-poolen i arbetsytans resurser.