Analýza s využitím Apache Sparku
V tomto kurzu se naučíte základní kroky pro načtení a analýzu dat pomocí Apache Sparku pro Azure Synapse.
Vytvoření bezserverového fondu Apache Sparku
- V Synapse Studio v levém podokně vyberte Spravovat>fondy Apache Sparku.
- Vyberte Nový.
- Jako název fondu Apache Sparku zadejte Spark1.
- Jako Velikost uzlu zadejte Malá.
- Pro počet uzlů nastavte minimum na 3 a maximum na 3.
- Vyberte Zkontrolovat a vytvořit>Vytvořit. Váš fond Apache Sparku bude připravený během několika sekund.
Principy bezserverových fondů Apache Sparku
Bezserverový fond Sparku je způsob, jak indikovat, jak chce uživatel pracovat se Sparkem. Když začnete používat fond, v případě potřeby se vytvoří relace Sparku. Fond řídí, kolik prostředků Sparku bude tato relace používat a jak dlouho bude trvat, než se automaticky pozastaví. Platíte za prostředky Sparku použité během této relace, a ne za samotný fond. Fond Sparku tak umožňuje používat Apache Spark bez správy clusterů. Podobá se tomu, jak funguje bezserverový fond SQL.
Analýza dat newyordické taxislužby pomocí fondu Sparku
Poznámka
Ujistěte se, že jste ukázková data umístili do primárního účtu úložiště.
V Synapse Studio přejděte do centra Vývoj.
Vytvořte nový poznámkový blok.
Vytvořte novou buňku kódu a vložte do této buňky následující kód:
%%pyspark df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet') display(df.limit(10))
Upravte identifikátor URI načtení tak, aby odkaz na ukázkový soubor ve vašem účtu úložiště odpovídal schématu identifikátoru URI abfss.
V poznámkovém bloku v nabídce Připojit k zvolte bezserverový fond Sparku Spark1 , který jsme vytvořili dříve.
V buňce vyberte Spustit . Synapse v případě potřeby spustí novou relaci Sparku, která tuto buňku spustí. Pokud je potřeba nová relace Sparku, bude zpočátku trvat přibližně 2 až 5 minut, než se vytvoří. Po vytvoření relace bude provádění buňky trvat asi 2 sekundy.
Pokud chcete zobrazit pouze schéma datového rámce, spusťte buňku s následujícím kódem:
%%pyspark df.printSchema()
Načtení dat NEWYC Taxi do databáze Spark nyctaxi
Data jsou k dispozici prostřednictvím datového rámce s názvem df. Načtěte ho do databáze Sparku s názvem nyctaxi.
Přidejte do poznámkového bloku novou buňku kódu a pak zadejte následující kód:
%%pyspark spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi") df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
Analýza dat newyordické taxislužby pomocí Sparku a poznámkových bloků
Vytvořte novou buňku kódu a zadejte následující kód.
%%pyspark df = spark.sql("SELECT * FROM nyctaxi.trip") display(df)
Spuštěním buňky zobrazte data newyorické taxislužby, která jsme načetli do databáze Sparku nyctaxi .
Vytvořte novou buňku kódu a zadejte následující kód. Tato data budeme analyzovat a výsledky uložíme do tabulky s názvem nyctaxi.passengercountstats.
%%pyspark df = spark.sql(""" SELECT passenger_count, SUM(trip_distance) as SumTripDistance, AVG(trip_distance) as AvgTripDistance FROM nyctaxi.trip WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count ORDER BY passenger_count """) display(df) df.write.saveAsTable("nyctaxi.passengercountstats")
Ve výsledcích buňky vyberte Graf , aby se zobrazila vizualizovaná data.
Další kroky
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro