Rychlý start: Transformace dat pomocí definice úlohy Apache Sparku

Článek
07/27/2023

V tomto rychlém startu použijete Azure Synapse Analytics k vytvoření kanálu pomocí definice úlohy Apache Spark.

Požadavky

Předplatné Azure: Pokud nemáte předplatné Azure, vytvořte si bezplatný účet Azure , než začnete.
Azure Synapse pracovního prostoru: Vytvořte pracovní prostor Synapse pomocí Azure Portal podle pokynů v tématu Rychlý start: Vytvoření pracovního prostoru Synapse.
Definice úlohy Apache Spark: V pracovním prostoru Synapse vytvořte definici úlohy Apache Sparku podle pokynů v kurzu Vytvoření definice úlohy Apache Spark v Synapse Studio.

Přejděte na Synapse Studio.

Po vytvoření pracovního prostoru Azure Synapse můžete Synapse Studio otevřít dvěma způsoby:

Otevřete pracovní prostor Synapse v Azure Portal. Na kartě Otevřít Synapse Studio v části Začínáme vyberte Otevřít.
Otevřete Azure Synapse Analytics a přihlaste se ke svému pracovnímu prostoru.

V tomto rychlém startu použijeme jako příklad pracovní prostor s názvem "sampletest". Automaticky vás přejde na domovskou stránku Synapse Studio.

Domovská stránka synapse Studia

Vytvoření kanálu s definicí úlohy Apache Sparku

Kanál obsahuje logický tok pro provádění sady aktivit. V této části vytvoříte kanál, který obsahuje aktivitu definice úlohy Apache Sparku.

Přejděte na kartu Integrace . Vyberte ikonu plus vedle záhlaví kanálů a vyberte Kanál.
Na stránce Nastavení vlastností kanálu zadejte jako Názevukázku.
V části Synapse v podokně Aktivity přetáhněte definici úlohy Sparku na plátno kanálu.

Nastavení plátna definice úlohy Apache Sparku

Jakmile vytvoříte definici úlohy Apache Sparku, budete automaticky odesláni na plátno definice úlohy Sparku.

Obecná nastavení

Na plátně vyberte modul definice úlohy Spark.
Na kartě Obecné zadejte jako Názevukázku.
(Možnost) Můžete také zadat popis.
Časový limit: Maximální doba, po kterou může aktivita běžet. Výchozí hodnota je sedm dní, což je také maximální povolená doba. Formát je v D.HH:MM:SS.
Opakování: Maximální počet opakovaných pokusů.
Interval opakování: Počet sekund mezi jednotlivými pokusy o opakování.
Zabezpečený výstup: Při zaškrtnutí se výstup z aktivity nezachytí do protokolování.
Zabezpečený vstup: Při zaškrtnutí se vstup z aktivity nezachytí do protokolování.

Karta Nastavení

Na tomto panelu můžete odkazovat na definici úlohy Sparku, která se má spustit.

Rozbalte seznam definic úloh Sparku a můžete zvolit existující definici úlohy Apache Sparku. Můžete také vytvořit novou definici úlohy Apache Sparku tak, že vyberete tlačítko Nový a odkazujete na definici úlohy Sparku, která se má spustit.

(Volitelné) Můžete vyplnit informace o definici úlohy Apache Sparku. Pokud jsou následující nastavení prázdná, použijí se ke spuštění nastavení samotné definice úlohy Sparku. Pokud následující nastavení nejsou prázdná, nahradí tato nastavení nastavení nastavení samotné definice úlohy Sparku.

Vlastnost	Popis
Hlavní definiční soubor	Hlavní soubor použitý pro úlohu Vyberte soubor PY/JAR/ZIP z úložiště. Výběrem možnosti Nahrát soubor můžete soubor nahrát do účtu úložiště. Ukázka: `abfss://…/path/to/wordcount.jar`
Odkazy z podsložek	Skenování podsložek z kořenové složky hlavního definičního souboru, tyto soubory budou přidány jako referenční soubory. Složky s názvem "jars", "pyFiles", "files" nebo "archives" budou zkontrolovány a v názvu složek se rozlišují malá a velká písmena.
Název hlavní třídy	Plně kvalifikovaný identifikátor nebo hlavní třída, která je v hlavním definičním souboru. Ukázka: `WordCount`
Argumenty příkazového řádku	Argumenty příkazového řádku můžete přidat kliknutím na tlačítko Nový . Je třeba poznamenat, že přidání argumentů příkazového řádku přepíše argumenty příkazového řádku definované definicí úlohy Sparku. Ukázka: `abfss://…/path/to/shakespeare.txtabfss://…/path/to/result`
Fond Apache Sparku	Ze seznamu můžete vybrat fond Apache Sparku.
Referenční informace ke kódu Pythonu	Další soubory kódu Pythonu používané pro referenci v hlavním definičním souboru Podporuje předávání souborů (.py, .py3, .zip) do vlastnosti "pyFiles". Přepíše vlastnost pyFiles definovanou v definici úlohy Sparku.
Referenční soubory	Další soubory použité pro referenci v hlavním definičním souboru.
Dynamické přidělování exekutorů	Toto nastavení se mapuje na vlastnost dynamického přidělování v konfiguraci Sparku pro přidělení exekutorů aplikací Spark.
Minimální exekutory	Minimální počet exekutorů, které se mají přidělit v zadaném fondu Sparku pro úlohu.
Maximální počet exekutorů	Maximální počet exekutorů, které se mají přidělit v zadaném fondu Sparku pro úlohu.
Velikost ovladače	Počet jader a paměti, které se mají použít pro ovladač v zadaném fondu Apache Sparku pro danou úlohu
Konfigurace Sparku	Zadejte hodnoty pro vlastnosti konfigurace Sparku uvedené v tématu Konfigurace Sparku – vlastnosti aplikace. Uživatelé můžou použít výchozí a přizpůsobenou konfiguraci.

Nastavení pipline definice úlohy Sparku

Dynamický obsah můžete přidat kliknutím na tlačítko Přidat dynamický obsah nebo stisknutím klávesové zkratky Alt+Shift+D. Na stránce Přidat dynamický obsah můžete k dynamickému obsahu přidat libovolnou kombinaci výrazů, funkcí a systémových proměnných.