Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
V tomto kurzu se naučíte základní kroky pro načtení a analýzu dat pomocí Apache Sparku pro Azure Synapse.
Požadavky
Ujistěte se, že jste ukázková data umístili do primárního účtu úložiště.
Vytvoření bezserverového fondu Apache Sparku
- V nástroji Synapse Studio na levém podokně vyberte Spravovat>fondy Apache Sparka.
- Vyberte Nový
- Jako název fondu Apache Sparku zadejte Spark1.
- Jako velikost uzlu zadejte Malý.
- Pro počet uzlů nastavte minimum na 3 a maximum na 3.
- Vyberte Zkontrolovat a vytvořit>Vytvořit. Váš Apache Spark pool bude připraven během několika sekund.
Porozumět bezserverovým fondům Apache Spark
Bezserverový fond Sparku představuje způsob, jak chce uživatel pracovat se Sparkem. Až začnete používat fond, v případě potřeby se vytvoří sezení Sparku. Pool řídí, kolik prostředků Sparku bude relace používat a jak dlouho bude trvat, než se automaticky pozastaví. Platíte za zdroje Sparku využívané během této relace, a ne za samotný fond. Díky tomu fond Sparku umožňuje používat Apache Spark bez správy clusterů. Podobá se tomu, jak funguje bezserverový fond SQL.
Analýza dat taxi služby v NYC pomocí Spark poolu
Poznámka:
Ujistěte se, že jste ukázková data umístili do primárního účtu úložiště.
V synapse Studiu přejděte do centra Vývoj .
Vytvořte nový poznámkový blok.
Vytvořte novou buňku kódu a vložte do této buňky následující kód:
%%pyspark df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet') display(df.limit(10))
Upravte načítací URI, aby podle schématu URI abfss odkazoval na ukázkový soubor ve vašem účtu úložiště.
V poznámkovém bloku v nabídce Připojit k zvolte bezserverový fond Spark Spark1, který jsme vytvořili dříve.
Vyberte Spustit v buňce. Synapse spustí novou relaci Sparku, která v případě potřeby spustí tuto buňku. Pokud je potřeba nová relace Sparku, bude zpočátku vytvoření přibližně 2 až 5 minut trvat. Po vytvoření relace bude spuštění buňky trvat asi 2 sekundy.
Pokud chcete jenom zobrazit schéma datového rámce, spusťte buňku s následujícím kódem:
%%pyspark df.printSchema()
Načtení dat taxi NYC do databáze Spark nyctaxi
Data jsou k dispozici prostřednictvím datového rámce s názvem df. Načtěte ji do databáze Sparku s názvem nyctaxi.
Přidejte do poznámkového bloku novou buňku kódu a zadejte následující kód:
%%pyspark spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi") df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
Analýza dat taxislužby NYC pomocí Sparku a poznámkových bloků
Vytvořte novou buňku kódu a zadejte následující kód.
%%pyspark df = spark.sql("SELECT * FROM nyctaxi.trip") display(df)
Spuštěním buňky zobrazíte data taxislužby v New Yorku, která jsme načetli do databáze Spark nyctaxi.
Vytvořte novou buňku kódu a zadejte následující kód. Tato data analyzujeme a výsledky uložíme do tabulky s názvem nyctaxi.passengercountstats.
%%pyspark df = spark.sql(""" SELECT passenger_count, SUM(trip_distance) as SumTripDistance, AVG(trip_distance) as AvgTripDistance FROM nyctaxi.trip WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count ORDER BY passenger_count """) display(df) df.write.saveAsTable("nyctaxi.passengercountstats")
Ve výsledcích buňky vyberte Graf a zobrazte vizualizovaná data.