Rychlý start: Vytvoření bezserverového fondu Apache Sparku v Azure Synapse Analytics pomocí webových nástrojů

V tomto rychlém startu se dozvíte, jak vytvořit bezserverový fond Apache Sparku v Azure Synapse pomocí webových nástrojů. Pak zjistíte, jak se připojit k fondu Apache Sparku a spouštět dotazy Spark SQL na soubory a tabulky. Apache Spark umožňuje rychlou analýzu dat a clusterové výpočty s využitím zpracování v paměti. Informace o Sparku v Azure Synapse najdete v tématu Přehled: Apache Spark na Azure Synapse.

Důležité

Fakturace instancí Sparku se účtuje poměrně po minutách bez ohledu na to, jestli je používáte, nebo ne. Po dokončení používání instance Sparku nezapomeňte vypnout nebo nastavit krátký časový limit. Další informace najdete v části Vyčištění prostředků tohoto článku.

Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet, než začnete.

Požadavky

Přihlášení k webu Azure Portal

Přihlaste se k webu Azure Portal.

Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure , než začnete.

Vytvoření poznámkového bloku

Poznámkový blok je interaktivní prostředí, které podporuje různé programovací jazyky. Poznámkový blok umožňuje pracovat s daty, kombinovat kód s markdownem, textem a provádět jednoduché vizualizace.

  1. V zobrazení Azure Portal pracovního prostoru Azure Synapse, který chcete použít, vyberte Spustit Synapse Studio.

  2. Po spuštění Synapse Studio vyberte Vývoj. Pak výběrem+ ikony přidejte nový prostředek.

  3. Tam vyberte Poznámkový blok. Vytvoří se a otevře nový poznámkový blok s automaticky vygenerovaným názvem.

    Nový poznámkový blok

  4. V okně Vlastnosti zadejte název poznámkového bloku.

  5. Na panelu nástrojů klikněte na Publikovat.

  6. Pokud je ve vašem pracovním prostoru jenom jeden fond Apache Sparku, je ve výchozím nastavení vybraný. V rozevíracím seznamu vyberte správný fond Apache Sparku, pokud není vybraný žádný fond.

  7. Klikněte na Přidat kód. Výchozí jazyk je Pyspark. Budete používat kombinaci Pysparku a Spark SQL, takže výchozí volba je v pořádku. Mezi další podporované jazyky patří Scala a .NET pro Spark.

  8. Dále vytvoříte jednoduchý objekt datového rámce Sparku pro manipulaci. V tomto případě ho vytvoříte z kódu. Existují tři řádky a tři sloupce:

    new_rows = [('CA',22, 45000),("WA",35,65000) ,("WA",50,85000)]
    demo_df = spark.createDataFrame(new_rows, ['state', 'age', 'salary'])
    demo_df.show()
    
  9. Teď buňku spusťte jedním z následujících způsobů:

    • Stiskněte SHIFT+ENTER.

    • Vyberte modrou ikonu přehrávání nalevo od buňky.

    • Na panelu nástrojů vyberte tlačítko Spustit vše .

      Vytvoření objektu datového rámce

  10. Pokud instance fondu Apache Sparku ještě není spuštěná, spustí se automaticky. Stav instance fondu Apache Sparku můžete zobrazit pod buňkou, kterou spouštíte, a také na stavovém panelu v dolní části poznámkového bloku. V závislosti na velikosti fondu by spuštění mělo trvat 2 až 5 minut. Jakmile se kód dokončí, zobrazí se informace pod buňkou, které ukazují, jak dlouho trvalo spuštění a jak dlouho jeho spuštění trvalo. Ve výstupní buňce uvidíte výstup.

    Výstup ze spuštění buňky

  11. Data teď existují v datovém rámci, odkud je můžete použít mnoha různými způsoby. Pro zbytek tohoto rychlého startu ho budete potřebovat v různých formátech.

  12. Zadejte následující kód do jiné buňky a spusťte ho. Tím se vytvoří tabulka Sparku, SOUBOR CSV a Soubor Parquet s kopiemi dat:

     demo_df.createOrReplaceTempView('demo_df')
     demo_df.write.csv('demo_df', mode='overwrite')
     demo_df.write.parquet('abfss://<<TheNameOfAStorageAccountFileSystem>>@<<TheNameOfAStorageAccount>>.dfs.core.windows.net/demodata/demo_df', mode='overwrite')
    

    Pokud používáte Průzkumníka služby Storage, můžete vidět dopad dvou různých způsobů zápisu souboru, který jste použili výše. Pokud není zadán žádný systém souborů, použije se výchozí hodnota, v tomto případě default>user>trusted-service-user>demo_df. Data se uloží do umístění zadaného systému souborů.

    Všimněte si, že ve formátu "csv" i "parquet" se operace zápisu vytvoří adresář s mnoha dělenými soubory.

    Zobrazení Průzkumníka služby Storage výstupu

    Snímek obrazovky se zvýrazněnou výchozí > cestou demo_df demodata >

Spouštění příkazů Spark SQL

jazyk SQL (Structured Query Language) (SQL) je nejběžnějším a nejpoužívanějším jazykem pro dotazování a definování dat. Spark SQL funguje jako rozšíření Apache Spark pro zpracování strukturovaných dat a používá známou syntaxi jazyka SQL.

  1. Do prázdné buňky vložte následující kód a pak ho spusťte. Příkaz vypíše tabulky ve fondu.

    %%sql
    SHOW TABLES
    

    Při použití poznámkového bloku s fondem Azure Synapse Apache Spark získáte přednastavenísqlContext, které můžete použít ke spouštění dotazů pomocí Spark SQL. %%sql řekne poznámkovému bloku, aby ke spuštění dotazu použil předvolbu sqlContext . Dotaz načte prvních 10 řádků ze systémové tabulky, která se ve výchozím nastavení dodává se všemi Azure Synapse fondy Apache Sparku.

  2. Spuštěním dalšího dotazu zobrazíte data v tabulce demo_df.

    %%sql
    SELECT * FROM demo_df
    

    Kód vygeneruje dvě výstupní buňky, jednu, která obsahuje výsledky dat a druhá zobrazuje zobrazení úlohy.

    Ve výchozím nastavení se v zobrazení výsledků zobrazuje mřížka. Ale pod mřížkou je přepínač zobrazení, který umožňuje zobrazení přepínat mezi mřížkou a zobrazením grafu.

    Výstup dotazu ve výstupu dotazu Azure Synapse Spark

  3. V přepínači zobrazení vyberte Graf.

  4. Úplně vpravo vyberte ikonu Možnosti zobrazení .

  5. V poli Typ grafu vyberte pruhový graf.

  6. Ve sloupcovém poli Osa X vyberte "state".

  7. Ve sloupcovém poli Osa Y vyberte "mzda".

  8. V poli Agregace vyberte AVG.

  9. Vyberte Použít.

    Výstup grafu ve Azure Synapse Výstup grafu Spark

  10. Je možné získat stejné prostředí se spouštěním SQL, aniž byste museli přepínat jazyky. Můžete to udělat tak, že výše uvedenou buňku SQL nahradíte touto buňkou PySpark. Výstupní prostředí je stejné, protože se používá příkaz pro zobrazení :

    display(spark.sql('SELECT * FROM demo_df'))
    
  11. Každá z dříve spuštěných buněk měla možnost přejít na Server historie a monitorování. Kliknutím na odkazy přejdete do různých částí uživatelského prostředí.

Poznámka

Některá oficiální dokumentace k Apache Sparku spoléhá na použití konzoly Spark, která není ve Službě Synapse Spark dostupná. Místo toho použijte prostředí poznámkového bloku nebo IntelliJ .

Vyčištění prostředků

Azure Synapse uloží data do Azure Data Lake Storage. Instanci Sparku můžete bezpečně nechat vypnout, když se nepoužívá. Za bezserverový fond Apache Sparku se vám účtují poplatky, pokud je spuštěný, i když se nepoužívá.

Vzhledem k tomu, že poplatky za fond jsou mnohonásobně vyšší než poplatky za úložiště, dává ekonomický smysl nechat instance Sparku vypnout, když se nepoužívají.

Pokud chcete zajistit vypnutí instance Sparku, ukončete všechny připojené relace (poznámkové bloky). Fond se vypne, když dosáhne doby nečinnosti zadané ve fondu Apache Sparku. Ukončit relaci můžete také vybrat ze stavového řádku v dolní části poznámkového bloku.

Další kroky

V tomto rychlém startu jste zjistili, jak vytvořit bezserverový fond Apache Sparku a spustit základní dotaz Spark SQL.