Sdílet prostřednictvím


Kurz: Vytvoření definice úlohy Apache Sparku v nástroji Synapse Studio

V tomto kurzu se dozvíte, jak pomocí nástroje Synapse Studio vytvořit definice úloh Apache Sparku a pak je odeslat do bezserverového fondu Apache Spark.

Tento kurz se zabývá následujícími úkony:

  • Vytvoření definice úlohy Apache Spark pro PySpark (Python)
  • Vytvoření definice úlohy Apache Spark pro Spark (Scala)
  • Vytvoření definice úlohy Apache Sparku pro .NET Spark (C#/F#)
  • Vytvoření definice úlohy importem souboru JSON
  • Export definičního souboru úlohy Apache Sparku do místního prostředí
  • Odeslání definice úlohy Apache Sparku jako dávkové úlohy
  • Přidání definice úlohy Apache Spark do kanálu

Požadavky

Než začnete s tímto kurzem, ujistěte se, že splňujete následující požadavky:

  • Pracovní prostor Azure Synapse Analytics Pokyny najdete v tématu Vytvoření pracovního prostoru Azure Synapse Analytics.
  • Bezserverový fond Apache Spark.
  • Účet úložiště ADLS Gen2. Musíte být přispěvatelem dat objektů blob úložiště systému souborů ADLS Gen2, se kterým chcete pracovat. Pokud ne, musíte oprávnění přidat ručně.
  • Pokud nechcete používat výchozí úložiště pracovního prostoru, propojte požadovaný účet úložiště ADLS Gen2 ve službě Synapse Studio.

Vytvoření definice úlohy Apache Spark pro PySpark (Python)

V této části vytvoříte definici úlohy Apache Spark pro PySpark (Python).

  1. Otevřete Synapse Studio.

  2. Pokud chcete stáhnout ukázkové soubory pro python.zip, rozbalte komprimovaný balíček a extrahujte wordcount.py a shakespeare.txt soubory.

    ukázkové soubory

  3. Vyberte Data -Linked ->>Azure Data Lake Storage Gen2 a nahrajte wordcount.py a shakespeare.txt do systému souborů ADLS Gen2.

    Nahrání souboru Pythonu

  4. Vyberte Vyvíjet centrum, vyberte ikonu + a výběrem definice úlohy Spark vytvořte novou definici úlohy Sparku.

    vytvoření nové definice pro Python

  5. V rozevíracím seznamu Jazyk v hlavním okně definice úlohy Apache Spark vyberte PySpark (Python ).

    výběr pythonu

  6. Vyplňte informace pro definici úlohy Apache Sparku.

    Vlastnost Popis
    Název definice úlohy Zadejte název definice úlohy Apache Sparku. Tento název lze kdykoli aktualizovat, dokud nebude publikován.
    Ukázka: job definition sample
    Hlavní definiční soubor Hlavní soubor použitý pro úlohu. Vyberte soubor PY z úložiště. Pokud chcete soubor nahrát do účtu úložiště, vyberte Nahrát soubor .
    Ukázka: abfss://…/path/to/wordcount.py
    Argumenty příkazového řádku Volitelné argumenty pro úlohu.
    Ukázka: abfss://…/path/to/shakespeare.txt abfss://…/path/to/result
    Poznámka: Dva argumenty pro definici ukázkové úlohy jsou oddělené mezerou.
    Referenční soubory Další soubory používané pro referenci v hlavním definičním souboru. Pokud chcete soubor nahrát do účtu úložiště, vyberte Nahrát soubor .
    Fond Sparku Úloha se odešle do vybraného fondu Apache Spark.
    Verze Sparku Verze Apache Sparku, na které běží fond Apache Sparku
    Exekutory Početexech
    Velikost exekutoru Počet jaderachch
    Velikost ovladače Počet jaderachch
    Konfigurace Apache Sparku Přizpůsobte konfigurace přidáním vlastností níže. Pokud nepřidáte vlastnost, Azure Synapse použije výchozí hodnotu, pokud je k dispozici.

    Nastavení hodnoty definice úlohy Spark pro Python

  7. Výběrem možnosti Publikovat uložte definici úlohy Apache Sparku.

    Publikování definice py

Vytvoření definice úlohy Apache Spark pro Apache Spark (Scala)

V této části vytvoříte definici úlohy Apache Spark pro Apache Spark (Scala).

  1. Otevřete Azure Synapse Studio.

  2. Pokud chcete stáhnout ukázkové soubory pro scala.zip, můžete přejít do ukázkových souborů pro vytváření definic úloh Apache Sparku, rozbalit komprimovaný balíček a extrahovat wordcount.jar a shakespeare.txt soubory.

    Scala ukázkových souborů

  3. Vyberte Data -Linked ->>Azure Data Lake Storage Gen2 a nahrajte wordcount.jar a shakespeare.txt do systému souborů ADLS Gen2.

    příprava struktury scala

  4. Vyberte Vyvíjet centrum, vyberte ikonu + a výběrem definice úlohy Spark vytvořte novou definici úlohy Sparku. (Ukázkový obrázek je stejný jako krok 4 z Vytvoření definice úlohy Apache Sparku (Python) pro PySpark.)

  5. V hlavním okně definice úlohy Apache Spark vyberte Spark(Scala) z rozevíracího seznamu Jazyk.

    výběr scaly

  6. Vyplňte informace pro definici úlohy Apache Sparku. Ukázkové informace můžete zkopírovat.

    Vlastnost Popis
    Název definice úlohy Zadejte název definice úlohy Apache Sparku. Tento název lze kdykoli aktualizovat, dokud nebude publikován.
    Ukázka: scala
    Hlavní definiční soubor Hlavní soubor použitý pro úlohu. Vyberte soubor JAR z úložiště. Pokud chcete soubor nahrát do účtu úložiště, vyberte Nahrát soubor .
    Ukázka: abfss://…/path/to/wordcount.jar
    Název hlavní třídy Plně kvalifikovaný identifikátor nebo hlavní třída, která je v hlavním definičním souboru.
    Ukázka: WordCount
    Argumenty příkazového řádku Volitelné argumenty pro úlohu.
    Ukázka: abfss://…/path/to/shakespeare.txt abfss://…/path/to/result
    Poznámka: Dva argumenty pro definici ukázkové úlohy jsou oddělené mezerou.
    Referenční soubory Další soubory používané pro referenci v hlavním definičním souboru. Pokud chcete soubor nahrát do účtu úložiště, vyberte Nahrát soubor .
    Fond Sparku Úloha se odešle do vybraného fondu Apache Spark.
    Verze Sparku Verze Apache Sparku, na které běží fond Apache Sparku
    Exekutory Početexech
    Velikost exekutoru Počet jaderachch
    Velikost ovladače Počet jaderachch
    Konfigurace Apache Sparku Přizpůsobte konfigurace přidáním vlastností níže. Pokud nepřidáte vlastnost, Azure Synapse použije výchozí hodnotu, pokud je k dispozici.

    Nastavení hodnoty definice úlohy Spark pro scala

  7. Výběrem možnosti Publikovat uložte definici úlohy Apache Sparku.

    publikování definice scala

Vytvoření definice úlohy Apache Spark pro .NET Spark(C#/F#)

V této části vytvoříte definici úlohy Apache Spark pro .NET Spark(C#/F#).

  1. Otevřete Azure Synapse Studio.

  2. Pokud chcete stáhnout ukázkové soubory pro dotnet.zip, rozbalte komprimovaný balíček a extrahujte wordcount.zip a shakespeare.txt soubory.

    sample dotnet

  3. Vyberte Data -Linked ->>Azure Data Lake Storage Gen2 a nahrajte wordcount.zip a shakespeare.txt do systému souborů ADLS Gen2.

    příprava struktury dotnet

  4. Vyberte Vyvíjet centrum, vyberte ikonu + a výběrem definice úlohy Spark vytvořte novou definici úlohy Sparku. (Ukázkový obrázek je stejný jako krok 4 z Vytvoření definice úlohy Apache Sparku (Python) pro PySpark.)

  5. V rozevíracím seznamu Jazyk v hlavním okně Definice úlohy Apache Spark vyberte .NET Spark (C#/F# ).

    výběr dotnet

  6. Vyplňte informace pro definici úlohy Apache Spark. Ukázkové informace můžete zkopírovat.

    Vlastnost Popis
    Název definice úlohy Zadejte název definice úlohy Apache Sparku. Tento název lze kdykoli aktualizovat, dokud nebude publikován.
    Ukázka: dotnet
    Hlavní definiční soubor Hlavní soubor použitý pro úlohu. Vyberte soubor ZIP, který obsahuje vaši aplikaci .NET pro Apache Spark (tj. hlavní spustitelný soubor, knihovny DLL obsahující uživatelem definované funkce a další požadované soubory) z vašeho úložiště. Pokud chcete soubor nahrát do účtu úložiště, vyberte Nahrát soubor .
    Ukázka: abfss://…/path/to/wordcount.zip
    Hlavní spustitelný soubor Hlavní spustitelný soubor v hlavním definičním souboru ZIP.
    Ukázka: WordCount
    Argumenty příkazového řádku Volitelné argumenty pro úlohu.
    Ukázka: abfss://…/path/to/shakespeare.txt abfss://…/path/to/result
    Poznámka: Dva argumenty pro definici ukázkové úlohy jsou oddělené mezerou.
    Referenční soubory Další soubory potřebné pracovními uzly pro spuštění aplikace .NET pro Apache Spark, která není součástí souboru ZIP hlavní definice (tj. závislé soubory JAR, další knihovny DLL funkcí definované uživatelem a další konfigurační soubory). Pokud chcete soubor nahrát do účtu úložiště, vyberte Nahrát soubor .
    Fond Sparku Úloha se odešle do vybraného fondu Apache Spark.
    Verze Sparku Verze Apache Sparku, na které běží fond Apache Sparku
    Exekutory Početexech
    Velikost exekutoru Počet jaderachch
    Velikost ovladače Počet jaderachch
    Konfigurace Apache Sparku Přizpůsobte konfigurace přidáním vlastností níže. Pokud nepřidáte vlastnost, Azure Synapse použije výchozí hodnotu, pokud je k dispozici.

    Nastavení hodnoty definice úlohy Spark pro dotnet

  7. Výběrem možnosti Publikovat uložte definici úlohy Apache Sparku.

    publikování definice dotnetu

Poznámka:

Pokud pro konfiguraci Apache Sparku konfigurace Apache Sparku definice úlohy Apache Sparku nedělá nic zvláštního, použije se při spuštění úlohy výchozí konfigurace.

Vytvoření definice úlohy Apache Sparku importem souboru JSON

Existující místní soubor JSON můžete importovat do pracovního prostoru Azure Synapse z nabídky Actions (...) v Průzkumníku definic úloh Apache Spark a vytvořit novou definici úlohy Apache Spark.

vytvoření definice importu

Definice úlohy Spark je plně kompatibilní s rozhraním Livy API. Do místního souboru JSON můžete přidat další parametry pro další vlastnosti Livy (Livy Docs – REST API (apache.org). V konfigurační vlastnosti můžete také zadat parametry související s konfigurací Sparku, jak je znázorněno níže. Potom můžete importovat soubor JSON zpět a vytvořit novou definici úlohy Apache Spark pro vaši dávkovou úlohu. Příklad JSON pro import definice Sparku:

   {
  "targetBigDataPool": {
    "referenceName": "socdemolarge",
    "type": "BigDataPoolReference"
  },
  "requiredSparkVersion": "2.3",
  "language": "scala",
  "jobProperties": {
    "name": "robinSparkDefinitiontest",
    "file": "adl://socdemo-c14.azuredatalakestore.net/users/robinyao/wordcount.jar",
    "className": "WordCount",
    "args": [
      "adl://socdemo-c14.azuredatalakestore.net/users/robinyao/shakespeare.txt"
    ],
    "jars": [],
    "files": [],
    "conf": {
      "spark.dynamicAllocation.enabled": "false",
      "spark.dynamicAllocation.minExecutors": "2",
      "spark.dynamicAllocation.maxExecutors": "2"
    },
    "numExecutors": 2,
    "executorCores": 8,
    "executorMemory": "24g",
    "driverCores": 8,
    "driverMemory": "24g"
  }
}

další vlastnosti livy

Export existujícího definičního souboru úlohy Apache Sparku

Existující definiční soubory úloh Apache Sparku můžete exportovat do místní nabídky Actions (...) Průzkumník souborů. Soubor JSON můžete dále aktualizovat pro další vlastnosti Livy a v případě potřeby ho importovat zpět a vytvořit novou definici úlohy.

vytvoření definice exportu

vytvoření definice exportu 2

Odeslání definice úlohy Apache Sparku jako dávkové úlohy

Po vytvoření definice úlohy Apache Sparku ji můžete odeslat do fondu Apache Spark. Ujistěte se, že jste přispěvatelem dat objektů blob úložiště systému souborů ADLS Gen2, se kterým chcete pracovat. Pokud ne, musíte oprávnění přidat ručně.

Scénář 1: Odeslání definice úlohy Apache Spark

  1. Výběrem okna definice úlohy Apache Spark otevřete okno definice úlohy Apache Spark.

    Otevření definice úlohy Sparku pro odeslání

  2. Výběrem tlačítka Odeslat odešlete projekt do vybraného fondu Apache Spark. Pokud chcete zobrazit LogQuery aplikace Apache Spark, můžete vybrat kartu adresy URL monitorování Sparku.

    Výběrem tlačítka Odeslat odešlete definici úlohy Sparku.

    Dialogové okno Odeslání Sparku

Scénář 2: Zobrazení průběhu spuštěné úlohy Apache Spark

  1. Vyberte Možnost Sledovat a pak vyberte možnost Aplikace Apache Spark. Odeslanou aplikaci Apache Spark najdete.

    Zobrazení aplikace Spark

  2. Pak vyberte aplikaci Apache Spark, zobrazí se okno úlohy SparkJobDefinition . Průběh provádění úlohy můžete zobrazit odsud.

    Zobrazení Aplikace Spark LogQuery

Scénář 3: Kontrola výstupního souboru

  1. Vyberte Data -Linked ->>Azure Data Lake Storage Gen2 (hozhaobdbj), otevřete složku výsledků vytvořenou dříve, můžete přejít do složky výsledků a zkontrolovat, jestli se vygeneruje výstup.

    Zobrazení výstupního souboru

Přidání definice úlohy Apache Spark do kanálu

V této části přidáte do kanálu definici úlohy Apache Spark.

  1. Otevřete existující definici úlohy Apache Spark.

  2. Vyberte ikonu v pravém horním rohu definice úlohy Apache Sparku, zvolte Existující kanál nebo Nový kanál. Další informace najdete na stránce kanálu.

    přidání do kanálu 1

    přidání do kanálu2

Další kroky

V dalším kroku můžete pomocí nástroje Azure Synapse Studio vytvářet datové sady Power BI a spravovat data Power BI. Další informace najdete v článku Propojení pracovního prostoru Power BI s pracovním prostorem Synapse.