Sdílet prostřednictvím


Integrace Gitu s definicí úlohy Sparku

Tento článek vysvětluje, jak funguje integrace Gitu pro definice úloh Sparku (SJD) v Microsoft Fabric. Zjistěte, jak nastavit připojení úložiště, spravovat změny definic úloh Sparku prostřednictvím správy zdrojového kódu a nasazovat je napříč různými pracovními prostory.

Povolení integrace Gitu pro definice úloh Sparku v Azure DevOps umožňuje sledovat změny prostřednictvím úplné historie gitu. Pokud je vybrán PySpark nebo SparkR, hlavní definiční soubor a referenční soubor jsou zahrnuty jako součást potvrzení. Změny zdrojového kódu v těchto souborech jsou také sledovány.

Důležité

Tato funkce je ve verzi Preview.

Nastavení připojení

V nastavení pracovního prostoru můžete snadno nastavit připojení k úložišti pro potvrzení a synchronizaci změn. Informace o nastavení připojení najdete v článku Začínáme s integrací Gitu. Po připojení se položky, jako jsou definice úloh Sparku, zobrazí na panelu Správa zdrojového kódu .

Snímek obrazovky s panelem správy zdrojového kódu pracovního prostoru

Jakmile potvrdíte definici úlohy Sparku do úložiště Git, zobrazí se v úložišti struktura složek definic úloh.

Reprezentace definice úlohy Sparku v Gitu

Následující obrázek je příkladem struktury souborů každé položky definice úlohy Sparku v úložišti:

Snímek obrazovky se strukturou souborů úložiště sjd Git

Když potvrdíte položku definice úlohy Sparku do úložiště, vytvoří se pro každou položku složka Git s názvem podle tohoto schématu: <Název> položky + SparkJobDefinition. Nepřejmenovávejte složku, protože se používá ke sledování položky v pracovním prostoru. Pokud je například název položky sjd1, název složky Git by byl sjd1SparkJobDefinition.

Ve složce Git jsou dvě podsložky. Jedná se o hlavní a referenční informace. Hlavní složka obsahuje hlavní definiční soubor a referenční složka obsahuje referenční soubor.

Kromě hlavních a referenčních souborů existuje také SparkJobDefinitionV1.json soubor. Obsahuje metadata pro položku definice úlohy Sparku, takže ji neupravujte. Soubor .platform obsahuje informace o platformě související s nastavením> Gitu, které by se neměly upravovat.

Poznámka:

  • Pokud jako jazyk zvolíte Javu nebo Scalu, hlavní a referenční soubory nebudou potvrzeny při nahrání jako soubor .jar.
  • Připojené prostředí se po synchronizaci z úložiště do pracovního prostoru Fabric zachová v definici úlohy Sparku. Referenční prostředí mezi pracovními prostory se v současné době nepodporují. Ke spuštění definice úlohy musíte ručně připojit nové prostředí nebo použít výchozí nastavení pracovního prostoru.
  • Definice úlohy Spark při synchronizaci z úložiště s pracovním prostorem Fabric zachová výchozí ID objektu Lakehouse. Pokud potvrdíte poznámkový blok s výchozím objektem lakehouse, budete muset na nově vytvořenou položku lakehouse odkazovat ručně. Další informace najdete v tématu Integrace Gitu lakehouse.