Sdílet prostřednictvím


Rychlý start: Analýza pomocí Apache Sparku

V tomto kurzu se naučíte základní kroky pro načtení a analýzu dat pomocí Apache Sparku pro Azure Synapse.

Požadavky

Ujistěte se, že jste ukázková data umístili do primárního účtu úložiště.

Vytvoření bezserverového fondu Apache Sparku

  1. V nástroji Synapse Studio na levém podokně vyberte Spravovat>fondy Apache Sparka.
  2. Vyberte Nový
  3. Jako název fondu Apache Sparku zadejte Spark1.
  4. Jako velikost uzlu zadejte Malý.
  5. Pro počet uzlů nastavte minimum na 3 a maximum na 3.
  6. Vyberte Zkontrolovat a vytvořit>Vytvořit. Váš Apache Spark pool bude připraven během několika sekund.

Porozumět bezserverovým fondům Apache Spark

Bezserverový fond Sparku představuje způsob, jak chce uživatel pracovat se Sparkem. Až začnete používat fond, v případě potřeby se vytvoří sezení Sparku. Pool řídí, kolik prostředků Sparku bude relace používat a jak dlouho bude trvat, než se automaticky pozastaví. Platíte za zdroje Sparku využívané během této relace, a ne za samotný fond. Díky tomu fond Sparku umožňuje používat Apache Spark bez správy clusterů. Podobá se tomu, jak funguje bezserverový fond SQL.

Analýza dat taxi služby v NYC pomocí Spark poolu

Poznámka:

Ujistěte se, že jste ukázková data umístili do primárního účtu úložiště.

  1. V synapse Studiu přejděte do centra Vývoj .

  2. Vytvořte nový poznámkový blok.

  3. Vytvořte novou buňku kódu a vložte do této buňky následující kód:

    %%pyspark
    df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
    display(df.limit(10))
    
  4. Upravte načítací URI, aby podle schématu URI abfss odkazoval na ukázkový soubor ve vašem účtu úložiště.

  5. V poznámkovém bloku v nabídce Připojit k zvolte bezserverový fond Spark Spark1, který jsme vytvořili dříve.

  6. Vyberte Spustit v buňce. Synapse spustí novou relaci Sparku, která v případě potřeby spustí tuto buňku. Pokud je potřeba nová relace Sparku, bude zpočátku vytvoření přibližně 2 až 5 minut trvat. Po vytvoření relace bude spuštění buňky trvat asi 2 sekundy.

  7. Pokud chcete jenom zobrazit schéma datového rámce, spusťte buňku s následujícím kódem:

    %%pyspark
    df.printSchema()
    

Načtení dat taxi NYC do databáze Spark nyctaxi

Data jsou k dispozici prostřednictvím datového rámce s názvem df. Načtěte ji do databáze Sparku s názvem nyctaxi.

  1. Přidejte do poznámkového bloku novou buňku kódu a zadejte následující kód:

    %%pyspark
    spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
    df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
    

Analýza dat taxislužby NYC pomocí Sparku a poznámkových bloků

  1. Vytvořte novou buňku kódu a zadejte následující kód.

    %%pyspark
    df = spark.sql("SELECT * FROM nyctaxi.trip") 
    display(df)
    
  2. Spuštěním buňky zobrazíte data taxislužby v New Yorku, která jsme načetli do databáze Spark nyctaxi.

  3. Vytvořte novou buňku kódu a zadejte následující kód. Tato data analyzujeme a výsledky uložíme do tabulky s názvem nyctaxi.passengercountstats.

    %%pyspark
    df = spark.sql("""
       SELECT passenger_count,
           SUM(trip_distance) as SumTripDistance,
           AVG(trip_distance) as AvgTripDistance
       FROM nyctaxi.trip
       WHERE trip_distance > 0 AND passenger_count > 0
       GROUP BY passenger_count
       ORDER BY passenger_count
    """) 
    display(df)
    df.write.saveAsTable("nyctaxi.passengercountstats")
    
  4. Ve výsledcích buňky vyberte Graf a zobrazte vizualizovaná data.

Další krok