Rychlý start: Transformace dat pomocí definice úlohy Apache Sparku
V tomto rychlém startu použijete Azure Synapse Analytics k vytvoření kanálu pomocí definice úlohy Apache Spark.
Požadavky
- Předplatné Azure: Pokud nemáte předplatné Azure, vytvořte si bezplatný účet Azure , než začnete.
- Azure Synapse pracovního prostoru: Vytvořte pracovní prostor Synapse pomocí Azure Portal podle pokynů v tématu Rychlý start: Vytvoření pracovního prostoru Synapse.
- Definice úlohy Apache Spark: V pracovním prostoru Synapse vytvořte definici úlohy Apache Sparku podle pokynů v kurzu Vytvoření definice úlohy Apache Spark v Synapse Studio.
Přejděte na Synapse Studio.
Po vytvoření pracovního prostoru Azure Synapse můžete Synapse Studio otevřít dvěma způsoby:
- Otevřete pracovní prostor Synapse v Azure Portal. Na kartě Otevřít Synapse Studio v části Začínáme vyberte Otevřít.
- Otevřete Azure Synapse Analytics a přihlaste se ke svému pracovnímu prostoru.
V tomto rychlém startu použijeme jako příklad pracovní prostor s názvem "sampletest". Automaticky vás přejde na domovskou stránku Synapse Studio.
Vytvoření kanálu s definicí úlohy Apache Sparku
Kanál obsahuje logický tok pro provádění sady aktivit. V této části vytvoříte kanál, který obsahuje aktivitu definice úlohy Apache Sparku.
Přejděte na kartu Integrace . Vyberte ikonu plus vedle záhlaví kanálů a vyberte Kanál.
Na stránce Nastavení vlastností kanálu zadejte jako Názevukázku.
V části Synapse v podokně Aktivity přetáhněte definici úlohy Sparku na plátno kanálu.
Nastavení plátna definice úlohy Apache Sparku
Jakmile vytvoříte definici úlohy Apache Sparku, budete automaticky odesláni na plátno definice úlohy Sparku.
Obecná nastavení
Na plátně vyberte modul definice úlohy Spark.
Na kartě Obecné zadejte jako Názevukázku.
(Možnost) Můžete také zadat popis.
Časový limit: Maximální doba, po kterou může aktivita běžet. Výchozí hodnota je sedm dní, což je také maximální povolená doba. Formát je v D.HH:MM:SS.
Opakování: Maximální počet opakovaných pokusů.
Interval opakování: Počet sekund mezi jednotlivými pokusy o opakování.
Zabezpečený výstup: Při zaškrtnutí se výstup z aktivity nezachytí do protokolování.
Zabezpečený vstup: Při zaškrtnutí se vstup z aktivity nezachytí do protokolování.
Karta Nastavení
Na tomto panelu můžete odkazovat na definici úlohy Sparku, která se má spustit.
Rozbalte seznam definic úloh Sparku a můžete zvolit existující definici úlohy Apache Sparku. Můžete také vytvořit novou definici úlohy Apache Sparku tak, že vyberete tlačítko Nový a odkazujete na definici úlohy Sparku, která se má spustit.
(Volitelné) Můžete vyplnit informace o definici úlohy Apache Sparku. Pokud jsou následující nastavení prázdná, použijí se ke spuštění nastavení samotné definice úlohy Sparku. Pokud následující nastavení nejsou prázdná, nahradí tato nastavení nastavení nastavení samotné definice úlohy Sparku.
Vlastnost Popis Hlavní definiční soubor Hlavní soubor použitý pro úlohu Vyberte soubor PY/JAR/ZIP z úložiště. Výběrem možnosti Nahrát soubor můžete soubor nahrát do účtu úložiště.
Ukázka:abfss://…/path/to/wordcount.jar
Odkazy z podsložek Skenování podsložek z kořenové složky hlavního definičního souboru, tyto soubory budou přidány jako referenční soubory. Složky s názvem "jars", "pyFiles", "files" nebo "archives" budou zkontrolovány a v názvu složek se rozlišují malá a velká písmena. Název hlavní třídy Plně kvalifikovaný identifikátor nebo hlavní třída, která je v hlavním definičním souboru.
Ukázka:WordCount
Argumenty příkazového řádku Argumenty příkazového řádku můžete přidat kliknutím na tlačítko Nový . Je třeba poznamenat, že přidání argumentů příkazového řádku přepíše argumenty příkazového řádku definované definicí úlohy Sparku.
Ukázka:abfss://…/path/to/shakespeare.txt
abfss://…/path/to/result
Fond Apache Sparku Ze seznamu můžete vybrat fond Apache Sparku. Referenční informace ke kódu Pythonu Další soubory kódu Pythonu používané pro referenci v hlavním definičním souboru
Podporuje předávání souborů (.py, .py3, .zip) do vlastnosti "pyFiles". Přepíše vlastnost pyFiles definovanou v definici úlohy Sparku.Referenční soubory Další soubory použité pro referenci v hlavním definičním souboru. Dynamické přidělování exekutorů Toto nastavení se mapuje na vlastnost dynamického přidělování v konfiguraci Sparku pro přidělení exekutorů aplikací Spark. Minimální exekutory Minimální počet exekutorů, které se mají přidělit v zadaném fondu Sparku pro úlohu. Maximální počet exekutorů Maximální počet exekutorů, které se mají přidělit v zadaném fondu Sparku pro úlohu. Velikost ovladače Počet jader a paměti, které se mají použít pro ovladač v zadaném fondu Apache Sparku pro danou úlohu Konfigurace Sparku Zadejte hodnoty pro vlastnosti konfigurace Sparku uvedené v tématu Konfigurace Sparku – vlastnosti aplikace. Uživatelé můžou použít výchozí a přizpůsobenou konfiguraci. Dynamický obsah můžete přidat kliknutím na tlačítko Přidat dynamický obsah nebo stisknutím klávesové zkratky Alt+Shift+D. Na stránce Přidat dynamický obsah můžete k dynamickému obsahu přidat libovolnou kombinaci výrazů, funkcí a systémových proměnných.
Karta Vlastností uživatele
Na tomto panelu můžete přidat vlastnosti pro aktivitu definice úlohy Apache Sparku.
Další kroky
Informace o podpoře Azure Synapse Analytics najdete v následujících článcích:
Přehled toku datmapování kanálů a aktivit Jazyk výrazů toku dat
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro