Integrace Gitu s definicí úlohy Sparku
Tento článek vysvětluje, jak funguje integrace Gitu pro definice úloh Sparku (SJD) v Microsoft Fabric. Zjistěte, jak nastavit připojení úložiště, spravovat změny definic úloh Sparku prostřednictvím správy zdrojového kódu a nasazovat je napříč různými pracovními prostory.
Povolení integrace Gitu pro definice úloh Sparku v Azure DevOps umožňuje sledovat změny prostřednictvím úplné historie gitu. Pokud je vybrán PySpark nebo SparkR, hlavní definiční soubor a referenční soubor jsou zahrnuty jako součást potvrzení. Změny zdrojového kódu v těchto souborech jsou také sledovány.
Důležité
Tato funkce je ve verzi Preview.
Nastavení připojení
V nastavení pracovního prostoru můžete snadno nastavit připojení k úložišti pro potvrzení a synchronizaci změn. Informace o nastavení připojení najdete v článku Začínáme s integrací Gitu. Po připojení se položky, jako jsou definice úloh Sparku, zobrazí na panelu Správa zdrojového kódu .
Jakmile potvrdíte definici úlohy Sparku do úložiště Git, zobrazí se v úložišti struktura složek definic úloh.
Reprezentace definice úlohy Sparku v Gitu
Následující obrázek je příkladem struktury souborů každé položky definice úlohy Sparku v úložišti:
Když potvrdíte položku definice úlohy Sparku do úložiště, vytvoří se pro každou položku složka Git s názvem podle tohoto schématu: <Název> položky + SparkJobDefinition. Nepřejmenovávejte složku, protože se používá ke sledování položky v pracovním prostoru. Pokud je například název položky sjd1, název složky Git by byl sjd1SparkJobDefinition.
Ve složce Git jsou dvě podsložky. Jedná se o hlavní a referenční informace. Hlavní složka obsahuje hlavní definiční soubor a referenční složka obsahuje referenční soubor.
Kromě hlavních a referenčních souborů existuje také SparkJobDefinitionV1.json soubor. Obsahuje metadata pro položku definice úlohy Sparku, takže ji neupravujte. Soubor .platform obsahuje informace o platformě související s nastavením> Gitu, které by se neměly upravovat.
Poznámka:
- Pokud jako jazyk zvolíte Javu nebo Scalu, hlavní a referenční soubory nebudou potvrzeny při nahrání jako soubor .jar.
- Připojené prostředí se po synchronizaci z úložiště do pracovního prostoru Fabric zachová v definici úlohy Sparku. Referenční prostředí mezi pracovními prostory se v současné době nepodporují. Ke spuštění definice úlohy musíte ručně připojit nové prostředí nebo použít výchozí nastavení pracovního prostoru.
- Definice úlohy Spark při synchronizaci z úložiště s pracovním prostorem Fabric zachová výchozí ID objektu Lakehouse. Pokud potvrdíte poznámkový blok s výchozím objektem lakehouse, budete muset na nově vytvořenou položku lakehouse odkazovat ručně. Další informace najdete v tématu Integrace Gitu lakehouse.