Vytvoření definice úlohy Apache Spark v prostředcích infrastruktury

V tomto kurzu se dozvíte, jak vytvořit definici úlohy Sparku v Microsoft Fabric.

Požadavky

Než začnete, budete potřebovat:

Tip

Pokud chcete spustit položku definice úlohy Sparku, musíte mít hlavní definiční soubor a výchozí kontext lakehouse. Pokud nemáte jezerní dům, můžete ho vytvořit pomocí kroků v části Vytvoření jezera.

Vytvoření definice úlohy Sparku

Proces vytváření definic úloh Sparku je rychlý a jednoduchý; existuje několik způsobů, jak začít.

Možnosti vytvoření definice úlohy Sparku

Proces vytváření můžete začít několika způsoby:

  • Domovská stránka přípravy dat: Definici úlohy Sparku můžete snadno vytvořit prostřednictvím karty Definice úlohy Sparku v části Nový na domovské stránce.

    Snímek obrazovky znázorňující, kde vybrat kartu definice úlohy Sparku

  • Zobrazení pracovního prostoru: Definici úlohy Sparku můžete vytvořit také v zobrazení Pracovního prostoru, když jste v prostředí Datoví technici pomocí rozevírací nabídky Nový.

    Snímek obrazovky znázorňující, kde vybrat definici úlohy Spark v nabídce Nový

  • Vytvoření zobrazení: Dalším vstupním bodem pro vytvoření definice úlohy Sparku je stránka Vytvořit v části Datoví technici ing.

    Snímek obrazovky znázorňující, kde vybrat definici úlohy Sparku v centru pro vytvoření

Při vytváření musíte definici úlohy Sparku pojmenovat. Název musí být v aktuálním pracovním prostoru jedinečný. Nová definice úlohy Sparku se vytvoří v aktuálním pracovním prostoru.

Vytvoření definice úlohy Sparku pro PySpark (Python)

Vytvoření definice úlohy Spark pro PySpark:

  1. Stáhněte si ukázkový soubor CSV yellow_tripdata_2022_01.csv a nahrajte ho do části soubory v jezeře.

  2. Vytvořte novou definici úlohy Sparku.

  3. V rozevíracím seznamu Jazyk vyberte PySpark (Python).

  4. Stáhněte si ukázku createTablefromCSV.py a nahrajte ji jako hlavní definiční soubor. Hlavní definiční soubor (úloha). Main) je soubor, který obsahuje logiku aplikace a je povinný ke spuštění úlohy Spark. Pro každou definici úlohy Sparku můžete nahrát jenom jeden hlavní definiční soubor.

    Hlavní definiční soubor můžete nahrát z místní plochy nebo můžete nahrát z existující služby Azure Data Lake Storage (ADLS) Gen2 tak, že poskytnete úplnou cestu k souboru ABFSS. Například abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.

  5. Nahrajte referenční soubory jako .py soubory. Referenční soubory jsou moduly Pythonu, které jsou importovány hlavním definičním souborem. Stejně jako hlavní definiční soubor můžete nahrát z plochy nebo z existujícího souboru ADLS Gen2. Podporuje se více referenčních souborů.

    Tip

    Pokud používáte cestu ADLS Gen2, abyste měli jistotu, že je soubor přístupný, musíte udělit uživatelskému účtu, který spustí úlohu, správné oprávnění k účtu úložiště. Doporučujeme postupovat dvěma různými způsoby:

    • Přiřaďte uživatelskému účtu roli Přispěvatel pro účet úložiště.
    • Udělení oprávnění ke čtení a spuštění pro uživatelský účet souboru prostřednictvím seznamu řízení přístupu ADLS Gen2 (ACL).

    Při ručním spuštění se ke spuštění úlohy použije účet aktuálního přihlašovacího uživatele.

  6. V případě potřeby zadejte argumenty příkazového řádku pro úlohu. K oddělení argumentů použijte mezeru jako rozdělovač.

  7. Přidejte do úlohy odkaz na lakehouse. Musíte mít k úloze přidaný alespoň jeden odkaz na lakehouse. Toto jezero je výchozím kontextem jezera pro úlohu.

    Podporuje se více odkazů na lakehouse. Na stránce Spark Nastavení vyhledejte jiný než výchozí název jezera a úplnou adresu URL OneLake.

    Snímek obrazovky znázorňující příklad vyplněné obrazovky hlavního definičního souboru

Vytvoření definice úlohy Sparku pro Scala/Java

Vytvoření definice úlohy Sparku pro Scala/Java:

  1. Vytvořte novou definici úlohy Sparku.

  2. V rozevíracím seznamu Jazyk vyberte Spark(Scala/Java).

  3. Nahrajte hlavní definiční soubor jako soubor .jar . Hlavní definiční soubor je soubor, který obsahuje logiku aplikace této úlohy a je povinný ke spuštění úlohy Spark. Pro každou definici úlohy Sparku můžete nahrát jenom jeden hlavní definiční soubor. Zadejte název třídy Main.

  4. Nahrajte referenční soubory jako soubory .jar . Referenční soubory jsou soubory, na které odkazuje nebo importuje hlavní definiční soubor.

  5. V případě potřeby zadejte argumenty příkazového řádku pro úlohu.

  6. Přidejte do úlohy odkaz na lakehouse. Musíte mít k úloze přidaný alespoň jeden odkaz na lakehouse. Toto jezero je výchozím kontextem jezera pro úlohu.

Vytvoření definice úlohy Sparku pro R

Vytvoření definice úlohy Sparku pro SparkR(R):

  1. Vytvořte novou definici úlohy Sparku.

  2. V rozevíracím seznamu Jazyk vyberte SparkR(R).

  3. Nahrajte hlavní definiční soubor jako . R soubor. Hlavní definiční soubor je soubor, který obsahuje logiku aplikace této úlohy a je povinný ke spuštění úlohy Spark. Pro každou definici úlohy Sparku můžete nahrát jenom jeden hlavní definiční soubor.

  4. Nahrajte referenční soubory jako . Soubory R . Referenční soubory jsou soubory, na které odkazuje nebo importuje hlavní definiční soubor.

  5. V případě potřeby zadejte argumenty příkazového řádku pro úlohu.

  6. Přidejte do úlohy odkaz na lakehouse. Musíte mít k úloze přidaný alespoň jeden odkaz na lakehouse. Toto jezero je výchozím kontextem jezera pro úlohu.

Poznámka:

Definice úlohy Sparku se vytvoří v aktuálním pracovním prostoru.

Možnosti přizpůsobení definic úloh Sparku

Existuje několik možností, jak dále přizpůsobit spouštění definic úloh Sparku.

  • Spark Compute: Na kartě Výpočty Sparku uvidíte verzi modulu runtime, což je verze Sparku, která se použije ke spuštění úlohy. Můžete se také podívat na nastavení konfigurace Sparku, která se použijí ke spuštění úlohy. Nastavení konfigurace Sparku můžete přizpůsobit kliknutím na tlačítko Přidat .
  • Optimalizace: Na kartě Optimalizace můžete povolit a nastavit zásady opakování pro úlohu. Pokud je tato úloha povolená, opakuje se, pokud selže. Můžete také nastavit maximální počet opakování a interval mezi opakovanými pokusy. U každého pokusu o opakování se úloha restartuje. Ujistěte se, že je úloha idempotentní.

    Snímek obrazovky znázorňující, kde se mají nastavit zásady opakování