Rychlý start: Analýza pomocí Apache Sparku

2025-04-01

V tomto kurzu se naučíte základní kroky pro načtení a analýzu dat pomocí Apache Sparku pro Azure Synapse.

Požadavky

Ujistěte se, že jste ukázková data umístili do primárního účtu úložiště.

Vytvoření bezserverového fondu Apache Sparku

V nástroji Synapse Studio na levém podokně vyberte Spravovat>fondy Apache Sparka.
Vyberte Nový
Jako název fondu Apache Sparku zadejte Spark1.
Jako velikost uzlu zadejte Malý.
Pro počet uzlů nastavte minimum na 3 a maximum na 3.
Vyberte Zkontrolovat a vytvořit>Vytvořit. Váš Apache Spark pool bude připraven během několika sekund.

Porozumět bezserverovým fondům Apache Spark

Bezserverový fond Sparku představuje způsob, jak chce uživatel pracovat se Sparkem. Až začnete používat fond, v případě potřeby se vytvoří sezení Sparku. Pool řídí, kolik prostředků Sparku bude relace používat a jak dlouho bude trvat, než se automaticky pozastaví. Platíte za zdroje Sparku využívané během této relace, a ne za samotný fond. Díky tomu fond Sparku umožňuje používat Apache Spark bez správy clusterů. Podobá se tomu, jak funguje bezserverový fond SQL.

Analýza dat taxi služby v NYC pomocí Spark poolu

Poznámka:

Ujistěte se, že jste ukázková data umístili do primárního účtu úložiště.

V synapse Studiu přejděte do centra Vývoj .
Vytvořte nový poznámkový blok.

Vytvořte novou buňku kódu a vložte do této buňky následující kód:

%%pyspark
df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
display(df.limit(10))

Upravte načítací URI, aby podle schématu URI abfss odkazoval na ukázkový soubor ve vašem účtu úložiště.
V poznámkovém bloku v nabídce Připojit k zvolte bezserverový fond Spark Spark1, který jsme vytvořili dříve.
Vyberte Spustit v buňce. Synapse spustí novou relaci Sparku, která v případě potřeby spustí tuto buňku. Pokud je potřeba nová relace Sparku, bude zpočátku vytvoření přibližně 2 až 5 minut trvat. Po vytvoření relace bude spuštění buňky trvat asi 2 sekundy.
Pokud chcete jenom zobrazit schéma datového rámce, spusťte buňku s následujícím kódem:
```
%%pyspark
df.printSchema()
```

Načtení dat taxi NYC do databáze Spark nyctaxi

Data jsou k dispozici prostřednictvím datového rámce s názvem df. Načtěte ji do databáze Sparku s názvem nyctaxi.

Přidejte do poznámkového bloku novou buňku kódu a zadejte následující kód:

%%pyspark
spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
df.write.mode("overwrite").saveAsTable("nyctaxi.trip")

Analýza dat taxislužby NYC pomocí Sparku a poznámkových bloků

Vytvořte novou buňku kódu a zadejte následující kód.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.trip") 
display(df)

Spuštěním buňky zobrazíte data taxislužby v New Yorku, která jsme načetli do databáze Spark nyctaxi.

Vytvořte novou buňku kódu a zadejte následující kód. Tato data analyzujeme a výsledky uložíme do tabulky s názvem nyctaxi.passengercountstats.

%%pyspark
df = spark.sql("""
   SELECT passenger_count,
       SUM(trip_distance) as SumTripDistance,
       AVG(trip_distance) as AvgTripDistance
   FROM nyctaxi.trip
   WHERE trip_distance > 0 AND passenger_count > 0
   GROUP BY passenger_count
   ORDER BY passenger_count
""") 
display(df)
df.write.saveAsTable("nyctaxi.passengercountstats")

Ve výsledcích buňky vyberte Graf a zobrazte vizualizovaná data.

Další krok

Analýza dat s využitím vyhrazeného fondu SQL

Sdílet prostřednictvím