Vytvoření definice úlohy Apache Sparku v prostředcích infrastruktury

V tomto kurzu se dozvíte, jak vytvořit definici úlohy Spark v Microsoft Fabric.

Důležité

Microsoft Fabric je v současné době ve verzi PREVIEW. Tyto informace se týkají předběžného vydání produktu, který může být před vydáním podstatně změněn. Společnost Microsoft neposkytuje na zde uvedené informace žádné záruky, ať už vyjádřené nebo předpokládané.

Požadavky

Abyste mohli začít, potřebujete následující požadavky:

Tip

Ke spuštění položky definice úlohy Sparku se vyžaduje hlavní definiční soubor a výchozí kontext Lakehouse. Pokud lakehouse nemáte, můžete ho vytvořit podle kroků v tématu Vytvoření lakehouse.

Vytvoření definice úlohy Sparku

Proces vytvoření definice úlohy Sparku je rychlý a jednoduchý a existuje několik způsobů, jak začít.

Možnosti vytvoření definice úlohy Sparku

S procesem vytváření můžete začít několika způsoby:

  • Domovská stránka pro přípravu dat: Definici úlohy Sparku můžete snadno vytvořit prostřednictvím karty definice úlohy Spark v oddílu Nový na domovské stránce.

Snímek obrazovky znázorňující, kde vybrat kartu definice úlohy Sparku

  • Zobrazení pracovního prostoru: Definici úlohy Sparku můžete také vytvořit prostřednictvím zobrazení Pracovní prostor, když jste v prostředí Datové Inženýrství pomocí rozevíracího seznamu Nový.

Snímek obrazovky znázorňující, kde vybrat definici úlohy Sparku v nabídce Nový

  • Vytvořit centrum: Další vstupní bod pro vytvoření definice úlohy Sparku je na stránce Vytvořit centrumv části Datové Inženýrství.

Snímek obrazovky znázorňující, kde vybrat definici úlohy Sparku v centru Vytvořit

K vytvoření definice úlohy Sparku by se vyžadoval název. Název musí být jedinečný v rámci aktuálního pracovního prostoru. Nově vytvořená definice úlohy Sparku se vytvoří v aktuálním pracovním prostoru, ve které se nacházíte.

Vytvoření definice úlohy Sparku pro PySpark (Python)

Pokud chcete vytvořit definici úlohy Sparku pro PySpark, postupujte takto:

  1. Vytvořte novou definici úlohy Sparku.

  2. V rozevíracím seznamu Jazyk vyberte PySpark (Python).

  3. Nahrajte hlavní definiční soubor jako soubor .py . Hlavní definiční soubor je soubor, který obsahuje aplikační logiku této úlohy. Hlavní definiční soubor je povinný ke spuštění úlohy Sparku. Pro každou definici úlohy Sparku můžete nahrát jenom jeden hlavní definiční soubor.

    Kromě nahrávání z místní plochy můžete také nahrát ze stávajících Azure Data Lake Storage Gen2 tak, že zadáte úplnou cestu abfss k souboru. Například abfss://your-storage-account-name.dfs.core.windows.net/your-file- cesta.

  4. Nahrajte referenční soubory jako soubor .py . Referenční soubory jsou moduly Pythonu, které jsou importovány hlavním definičním souborem. Podobně jako při nahrávání hlavního definičního souboru můžete také nahrát ze stávajících Azure Data Lake Storage Gen2 tak, že zadáte úplnou cestu abfss k souboru. Podporuje se více referenčních souborů.

Tip

Pokud se používá cesta ADLS-gen2, aby byl soubor přístupný, měl by být uživatelský účet, který se používá ke spuštění úlohy, přiřazen se správným oprávněním k účtu úložiště. Existují dva navrhované způsoby:

  • Přiřaďte uživatelský účet jako roli Přispěvatel k účtu úložiště.
  • Udělení oprávnění ke čtení a spouštění uživatelskému účtu v souboru prostřednictvím seznamu Azure Data Lake Storage Gen2 Access Control (ACL)

Pro ruční spuštění by se ke spuštění úlohy použil účet aktuálního uživatele přihlášení.

  1. V případě potřeby zadejte do úlohy argumenty příkazového řádku. K oddělení argumentů použijte mezeru jako rozdělovač.

  2. Přidejte do úlohy odkaz lakehouse. K úloze musíte přidat alespoň jeden odkaz lakehouse. Tento lakehouse je výchozím kontextem lakehouse pro úlohu. Podporuje se několik odkazů na Lakehouse. U jiného než výchozího lakehouse najdete jeho název a úplnou adresu URL OneLake na stránce Nastavení Sparku.

    Snímek obrazovky znázorňující příklad naplněného hlavního definičního souboru

V tomto příkladu jsme provedli toto:

  • Vytvoření definice úlohy Sparku s názvem CSVToDelta pro PySpark
  • Nahrál soubor createTablefromCSV.py jako hlavní definiční soubor.
  • Přidání odkazů lakehouse LH001 a LH002 do úlohy
  • Nastavení LH001 jako výchozího kontextu Lakehouse

Vytvoření definice úlohy Sparku pro Scala nebo Javu

Pokud chcete vytvořit definici úlohy Sparku pro Scala/Java, postupujte takto:

  1. V rozevíracím seznamu Jazyk vyberte Spark(Scala/Java).

  2. Nahrajte hlavní definiční soubor jako soubor JAR. Hlavní definiční soubor je soubor, který obsahuje aplikační logiku této úlohy. Ke spuštění úlohy Sparku je povinný hlavní definiční soubor. Zadejte název třídy Main.

  3. Nahrajte referenční soubory jako soubor JAR. Referenční soubory jsou soubory, na které odkazuje nebo importuje hlavní definiční soubor.

  4. V případě potřeby poskytuje pro úlohu argumenty příkazového řádku.

  5. Přidejte do úlohy odkaz lakehouse. K úloze musíte přidat alespoň jeden odkaz lakehouse. Tento lakehouse je výchozím kontextem lakehouse pro úlohu.

Vytvoření definice úlohy Sparku pro jazyk R

Pokud chcete vytvořit definici úlohy Sparku pro SparkR(R), postupujte takto:

  1. V rozevíracím seznamu Jazyk vyberte SparkR(R).

  2. Nahrajte hlavní definiční soubor jako . R soubor. Hlavní definiční soubor je soubor, který obsahuje aplikační logiku této úlohy. Ke spuštění úlohy Sparku je povinný hlavní definiční soubor.

  3. Nahrajte referenční soubory jako . R soubor. Referenční soubory jsou soubory, na které odkazuje nebo importuje hlavní definiční soubor.

  4. V případě potřeby poskytuje pro úlohu argumenty příkazového řádku.

  5. Přidejte do úlohy odkaz lakehouse. K úloze musíte přidat alespoň jeden odkaz lakehouse. Tento lakehouse je výchozím kontextem lakehouse pro úlohu.

Poznámka

Definice úlohy Sparku se vytvoří v aktuálním pracovním prostoru, ve které se nacházíte.

Možnosti přizpůsobení definice úlohy Sparku

Existuje několik možností, jak dále přizpůsobit provádění definice úlohy Sparku.

  • Spark Compute: Na kartě Výpočetní prostředí Sparku vidíte verzi modulu runtime, což je verze Sparku, která se použije ke spuštění úlohy. Můžete si také prohlédnout nastavení konfigurace Sparku, které se použije ke spuštění úlohy. Nastavení konfigurace Sparku můžete přizpůsobit kliknutím na tlačítko Přidat .

Snímek obrazovky znázorňující, kde upravit konfiguraci Sparku

  • Optimalizace: Na kartě Optimalizace můžete povolit a nastavit zásadu opakování pro úlohu. Pokud je tato úloha povolená, bude se opakovat, pokud selže. Můžete také nastavit maximální počet opakování a interval mezi opakováními. Při každém pokusu o opakování se úloha restartuje. Ujistěte se, že je úloha idempotentní.

Snímek obrazovky znázorňující, kde se mají nastavit zásady opakování

Další kroky