Snabbstart: Skapa en serverlös Apache Spark-pool i Azure Synapse Analytics med hjälp av webbverktyg

I den här snabbstarten får du lära dig hur du skapar en serverlös Apache Spark-pool i Azure Synapse med hjälp av webbverktyg. Sedan lär du dig att ansluta till Apache Spark-poolen och köra Spark SQL-frågor mot filer och tabeller. Apache Spark möjliggör snabb dataanalys och klusterberäkning med hjälp av minnesintern bearbetning. Information om Spark i Azure Synapse finns i Översikt: Apache Spark på Azure Synapse.

Viktigt!

Faktureringen för Spark-instanser beräknas per minut, oavsett om du använder dem eller inte. Se till att stänga av Spark-instansen när du har använt den eller ange en kort tidsgräns. Mer information finns i avsnittet Rensa resurser i den här artikeln.

Om du inte har någon Azure-prenumeration skapar du ett kostnadsfritt konto innan du börjar.

Förutsättningar

Du behöver en Azure-prenumeration. Skapa ett kostnadsfritt Azure-konto om det behövs
Synapse Analytics-arbetsyta
Serverlös Apache Spark-pool

Logga in på Azure-portalen.

Om du inte har en Azure-prenumeration kan du skapa ett kostnadsfritt Azure-konto innan du börjar.

Skapa en anteckningsbok

En notebook är en interaktiv miljö som stöder olika programmeringsspråk. Med notebook-filen kan du interagera med dina data, kombinera kod med markdown, text och utföra enkla visualiseringar.

I Azure-portalvyn för den Azure Synapse-arbetsyta som du vill använda väljer du Starta Synapse Studio.
När Synapse Studio har startats väljer du Utveckla. Välj sedan ikonen "+" för att lägga till en ny resurs.
Därifrån väljer du Notebook. En ny notebook-fil skapas och öppnas med ett automatiskt genererat namn.
I fönstret Egenskaper anger du ett namn för notebook-filen.
Klicka på Publicera i verktygsfältet.
Om det bara finns en Apache Spark-pool på din arbetsyta väljs den som standard. Använd listrutan för att välja rätt Apache Spark-pool om ingen har valts.
Klicka på Lägg till kod. Standardspråket är Pyspark. Du kommer att använda en blandning av Pyspark och Spark SQL, så standardvalet är bra. Andra språk som stöds är Scala och .NET för Spark.

Sedan skapar du ett enkelt Spark DataFrame-objekt att manipulera. I det här fallet skapar du den från kod. Det finns tre rader och tre kolumner:

new_rows = [('CA',22, 45000),("WA",35,65000) ,("WA",50,85000)]
demo_df = spark.createDataFrame(new_rows, ['state', 'age', 'salary'])
demo_df.show()

Kör nu cellen med någon av följande metoder:
- Tryck på SKIFT + RETUR.
- Välj den blå uppspelningsikonen till vänster om cellen.
- Välj knappen Kör alla i verktygsfältet.
Om Apache Spark-poolinstansen inte redan körs startas den automatiskt. Du kan se statusen för Apache Spark-poolens instans under cellen som du kör och även på statuspanelen längst ner i anteckningsboken. Beroende på storleken på poolen bör det ta 2–5 minuter att starta. När koden har körts klart, visas information under cellen som visar hur lång tid körningen tog. I utdatacellen visas utdata.
Data finns nu i en DataFrame därifrån du kan använda data på många olika sätt. Du kommer att behöva det i olika format för resten av den här snabbstarten.
Ange koden nedan i en annan cell och kör den. Då skapas en Spark-tabell, en CSV och en Parquet-fil med kopior av data:
```
 demo_df.createOrReplaceTempView('demo_df')
 demo_df.write.csv('demo_df', mode='overwrite')
 demo_df.write.parquet('abfss://<<TheNameOfAStorageAccountFileSystem>>@<<TheNameOfAStorageAccount>>.dfs.core.windows.net/demodata/demo_df', mode='overwrite')
```
Om du använder lagringsutforskaren kan du se effekten av de två olika sätten att skriva en fil som används ovan. När inget filsystem anges används standardvärdet i det här fallet default>user>trusted-service-user>demo_df. Data sparas på platsen för det angivna filsystemet.

Observera att under skrivoperationer i både "csv"- och "parquet"-format, skapas en katalog med många partitionerade filer.

Köra Spark SQL-instruktioner

Structured Query Language (SQL) är det vanligaste och mest använda språket för att fråga och definiera data. Spark SQL fungerar som ett tillägg till Apache Spark för bearbetning av strukturerade data med den välbekanta SQL-syntaxen.

Klistra in följande kod i en tom cell och kör sedan koden. Kommandot visar tabellerna i poolen.
```
%%sql
SHOW TABLES
```
När du använder en anteckningsbok med din Azure Synapse Apache Spark-pool får du en förinställning sqlContext som du kan använda för att exekvera frågor med Spark SQL. %%sql instruerar notebook att använda förinställningen sqlContext för att köra frågan. Frågan hämtar de 10 översta raderna från en systemtabell som levereras med alla Azure Synapse Apache Spark-pooler som standard.
Kör ytterligare en fråga för att visa data i demo_df.
```
%%sql
SELECT * FROM demo_df
```
Koden genererar två utdataceller, en som innehåller dataresultat den andra, som visar jobbvyn.

Som standard visar resultatvyn ett rutnät. Men det finns en vyväxlare under rutnätet som gör att vyn kan växla mellan rutnäts- och diagramvyer.
I växlaren Visa väljer du Diagram.
Välj ikonen Visa alternativ längst till höger.
I fältet Diagramtyp väljer du "stapeldiagram".
I kolumnfältet X-axel väljer du "tillstånd".
I kolumnfältet Y-axel väljer du "lön".
I fältet Sammansättning väljer du till "AVG".
Välj Använd.
Det går att få samma upplevelse av att köra SQL men utan att behöva byta språk. Du kan göra detta genom att ersätta SQL-cellen ovan med den här PySpark-cellen. Utdataupplevelsen är densamma eftersom visningskommandot används:
```
display(spark.sql('SELECT * FROM demo_df'))
```
Var och en av cellerna som tidigare kördes hade möjlighet att gå till Historikserver och Övervakning. Om du klickar på länkarna kommer du till olika delar av användarupplevelsen.

Anmärkning

En del av den officiella Dokumentationen för Apache Spark förlitar sig på att använda Spark-konsolen, som inte är tillgänglig i Synapse Spark. Använd notebook- eller IntelliJ-upplevelserna i stället.

Rensa resurser

Azure Synapse sparar dina data i Azure Data Lake Storage. Du kan på ett säkert sätt stänga av en Spark-instans när den inte används. Du debiteras för en serverlös Apache Spark-pool så länge den körs, även om den inte används.

Eftersom avgifterna för poolen är många gånger högre än avgifterna för lagring är det ekonomiskt klokt att låta Spark-instanser stängas när de inte används.

För att säkerställa att Spark-instansen stängs av ska du avsluta alla anslutna sessioner (anteckningsböcker). Poolen stängs av när den inaktiva tid som anges i Apache Spark-poolen har nåtts. Du kan också välja avsluta session från statusfältet längst ned i anteckningsboken.

Nästa steg

I den här snabbstarten har du lärt dig hur du skapar en serverlös Apache Spark-pool och kör en grundläggande Spark SQL-fråga.

Feedback

Var den här sidan till hjälp?

Last updated on 2025-10-09