Använda Spark i Azure Synapse Analytics

Slutförd

Du kan köra många olika typer av program på Spark, inklusive kod i Python- eller Scala-skript, Java-kod som kompilerats som ett Java-arkiv (JAR) och andra. Spark används ofta i två typer av arbetsbelastningar:

  • Batch- eller dataströmbearbetningsjobb för att mata in, rensa och transformera data – som ofta körs som en del av en automatiserad pipeline.
  • Interaktiva analyssessioner för att utforska, analysera och visualisera data.

Köra Spark-kod i notebook-filer

Azure Synapse Studio innehåller ett integrerat notebook-gränssnitt för att arbeta med Spark. Notebook-filer är ett intuitivt sätt att kombinera kod med Markdown-anteckningar, som ofta används av dataforskare och dataanalytiker. Utseendet och känslan i den integrerade notebook-upplevelsen i Azure Synapse Studio liknar jupyter notebook-filer – en populär öppen källkod notebook-plattform.

En skärmbild av en anteckningsbok i Azure Synapse Studio.

Kommentar

Notebook-filer används vanligtvis interaktivt, men de kan inkluderas i automatiserade pipelines och köras som ett obevakat skript.

Notebook-filer består av en eller flera celler som var och en innehåller antingen kod eller markdown. Kodceller i notebook-filer har några funktioner som kan hjälpa dig att bli mer produktiv, inklusive:

  • Syntaxmarkering och felstöd.
  • Automatisk slutförande av kod.
  • Interaktiva datavisualiseringar.
  • Möjligheten att exportera resultat.

Dricks

Mer information om hur du arbetar med notebook-filer i Azure Synapse Analytics finns i artikeln Skapa, utveckla och underhålla Synapse-anteckningsböcker i Azure Synapse Analytics i Azure Synapse Analytics-dokumentationen.

Komma åt data från en Synapse Spark-pool

Du kan använda Spark i Azure Synapse Analytics för att arbeta med data från olika källor, inklusive:

  • En datasjö baserad på det primära lagringskontot för Azure Synapse Analytics-arbetsytan.
  • En datasjö som bygger på lagring definierad som en länkad tjänst på arbetsytan.
  • En dedikerad eller serverlös SQL-pool på arbetsytan.
  • En Azure SQL- eller SQL Server-databas (med Spark-anslutningsappen för SQL Server)
  • En Azure Cosmos DB-analysdatabas definierad som en länkad tjänst och konfigurerad med Azure Synapse Link för Cosmos DB.
  • En Kusto-databas för Azure Data Explorer definierad som en länkad tjänst på arbetsytan.
  • Ett externt Hive-metaarkiv som definierats som en länkad tjänst på arbetsytan.

En av de vanligaste användningsområdena för Spark är att arbeta med data i en datasjö, där du kan läsa och skriva filer i flera vanliga format, inklusive avgränsad text, Parquet, Avro och andra.