Sdílet prostřednictvím


Rychlý start: Transformace dat pomocí definice úlohy Apache Sparku

V tomto rychlém startu použijete Azure Synapse Analytics k vytvoření kanálu pomocí definice úlohy Apache Spark.

Požadavky

Po vytvoření pracovního prostoru Azure Synapse můžete Synapse Studio otevřít dvěma způsoby:

  • Otevřete pracovní prostor Synapse v Azure Portal. Na kartě Otevřít Synapse Studio v části Začínáme vyberte Otevřít.
  • Otevřete Azure Synapse Analytics a přihlaste se ke svému pracovnímu prostoru.

V tomto rychlém startu použijeme jako příklad pracovní prostor s názvem "sampletest". Automaticky vás přejde na domovskou stránku Synapse Studio.

Domovská stránka synapse Studia

Vytvoření kanálu s definicí úlohy Apache Sparku

Kanál obsahuje logický tok pro provádění sady aktivit. V této části vytvoříte kanál, který obsahuje aktivitu definice úlohy Apache Sparku.

  1. Přejděte na kartu Integrace . Vyberte ikonu plus vedle záhlaví kanálů a vyberte Kanál.

    Vytvoření nového kanálu

  2. Na stránce Nastavení vlastností kanálu zadejte jako Názevukázku.

  3. V části Synapse v podokně Aktivity přetáhněte definici úlohy Sparku na plátno kanálu.

    přetažení definice úlohy Sparku

Nastavení plátna definice úlohy Apache Sparku

Jakmile vytvoříte definici úlohy Apache Sparku, budete automaticky odesláni na plátno definice úlohy Sparku.

Obecná nastavení

  1. Na plátně vyberte modul definice úlohy Spark.

  2. Na kartě Obecné zadejte jako Názevukázku.

  3. (Možnost) Můžete také zadat popis.

  4. Časový limit: Maximální doba, po kterou může aktivita běžet. Výchozí hodnota je sedm dní, což je také maximální povolená doba. Formát je v D.HH:MM:SS.

  5. Opakování: Maximální počet opakovaných pokusů.

  6. Interval opakování: Počet sekund mezi jednotlivými pokusy o opakování.

  7. Zabezpečený výstup: Při zaškrtnutí se výstup z aktivity nezachytí do protokolování.

  8. Zabezpečený vstup: Při zaškrtnutí se vstup z aktivity nezachytí do protokolování.

    Definice úlohy Sparku – obecné

Karta Nastavení

Na tomto panelu můžete odkazovat na definici úlohy Sparku, která se má spustit.

  • Rozbalte seznam definic úloh Sparku a můžete zvolit existující definici úlohy Apache Sparku. Můžete také vytvořit novou definici úlohy Apache Sparku tak, že vyberete tlačítko Nový a odkazujete na definici úlohy Sparku, která se má spustit.

  • (Volitelné) Můžete vyplnit informace o definici úlohy Apache Sparku. Pokud jsou následující nastavení prázdná, použijí se ke spuštění nastavení samotné definice úlohy Sparku. Pokud následující nastavení nejsou prázdná, nahradí tato nastavení nastavení nastavení samotné definice úlohy Sparku.

    Vlastnost Popis
    Hlavní definiční soubor Hlavní soubor použitý pro úlohu Vyberte soubor PY/JAR/ZIP z úložiště. Výběrem možnosti Nahrát soubor můžete soubor nahrát do účtu úložiště.
    Ukázka: abfss://…/path/to/wordcount.jar
    Odkazy z podsložek Skenování podsložek z kořenové složky hlavního definičního souboru, tyto soubory budou přidány jako referenční soubory. Složky s názvem "jars", "pyFiles", "files" nebo "archives" budou zkontrolovány a v názvu složek se rozlišují malá a velká písmena.
    Název hlavní třídy Plně kvalifikovaný identifikátor nebo hlavní třída, která je v hlavním definičním souboru.
    Ukázka: WordCount
    Argumenty příkazového řádku Argumenty příkazového řádku můžete přidat kliknutím na tlačítko Nový . Je třeba poznamenat, že přidání argumentů příkazového řádku přepíše argumenty příkazového řádku definované definicí úlohy Sparku.
    Ukázka: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Fond Apache Sparku Ze seznamu můžete vybrat fond Apache Sparku.
    Referenční informace ke kódu Pythonu Další soubory kódu Pythonu používané pro referenci v hlavním definičním souboru
    Podporuje předávání souborů (.py, .py3, .zip) do vlastnosti "pyFiles". Přepíše vlastnost pyFiles definovanou v definici úlohy Sparku.
    Referenční soubory Další soubory použité pro referenci v hlavním definičním souboru.
    Dynamické přidělování exekutorů Toto nastavení se mapuje na vlastnost dynamického přidělování v konfiguraci Sparku pro přidělení exekutorů aplikací Spark.
    Minimální exekutory Minimální počet exekutorů, které se mají přidělit v zadaném fondu Sparku pro úlohu.
    Maximální počet exekutorů Maximální počet exekutorů, které se mají přidělit v zadaném fondu Sparku pro úlohu.
    Velikost ovladače Počet jader a paměti, které se mají použít pro ovladač v zadaném fondu Apache Sparku pro danou úlohu
    Konfigurace Sparku Zadejte hodnoty pro vlastnosti konfigurace Sparku uvedené v tématu Konfigurace Sparku – vlastnosti aplikace. Uživatelé můžou použít výchozí a přizpůsobenou konfiguraci.

    Nastavení pipline definice úlohy Sparku

  • Dynamický obsah můžete přidat kliknutím na tlačítko Přidat dynamický obsah nebo stisknutím klávesové zkratky Alt+Shift+D. Na stránce Přidat dynamický obsah můžete k dynamickému obsahu přidat libovolnou kombinaci výrazů, funkcí a systémových proměnných.

    přidání dynamického obsahu

Karta Vlastností uživatele

Na tomto panelu můžete přidat vlastnosti pro aktivitu definice úlohy Apache Sparku.

vlastnosti uživatele

Další kroky

Informace o podpoře Azure Synapse Analytics najdete v následujících článcích: