Jaa


Spark-työmäärityksen Git-integrointi

Tässä artikkelissa kerrotaan, miten SJD:n (Spark Job Definitions) Git-integrointi toimii Microsoft Fabricissa. Opi määrittämään säilön yhteys, hallitsemaan Spark-työmäärityksen muutoksia lähteen hallinnan avulla ja ottamaan ne käyttöön eri työtiloissa.

Kun otat Git-integroinnin käyttöön Spark-työmääritelmissä Azure DevOpsissa, voit seurata muutoksia koko Git-historian kautta. Jos PySpark tai SparkR on valittuna, päämääritystiedosto ja viitetiedosto sisällytetään osana vahvistusta. Myös näiden tiedostojen lähdekoodin muutoksia seurataan.

Tärkeä

Tämä ominaisuus on esikatselutilassa.

Yhteyden määrittäminen

Työtilan asetuksista voit helposti määrittää yhteyden säilöön vahvistusta ja muutosten synkronointiaksi. Lisätietoja yhteyden määrittämisestä on artikkelissa Git-integroinnin käytön aloittaminen. Kun yhteys on muodostettu, tietosi, kuten Spark-työn määritykset, näkyvät Lähde-ohjauspaneelissa.

Näyttökuva työtilan lähteen ohjauspaneelista.

Kun vahvistat Spark-työn määrityksen Git-säilöön, työn määrityskansion rakenne näkyy säilössä.

Spark-työmääritelmäesitys Gitissä

Seuraavassa kuvassa on esimerkki jokaisen säilön Spark-työn määrityskohteen tiedostorakenteesta:

Näyttökuva sjd Git -säilön tiedostorakenteesta.

Kun vahvistat Spark-työn määrityskohteen säilöön, jokaiselle kohteelle luodaan Git-kansio, joka nimetään tämän rakenteen mukaan: <Kohteen nimi> + "SparkJobDefinition". Älä nimeä kansiota uudelleen, koska sitä käytetään työtilan kohteen seuraamiseen. Jos esimerkiksi kohteen nimi on "sjd1", Git-kansion nimi olisi "sjd1SparkJobDefinition".

Git-kansiossa on kaksi alikansiota. Ne ovat tärkein ja viittaus. Pääkansio sisältää päämääritystiedoston, ja viitekansio sisältää viitetiedoston.

Pää- ja viitetiedostojen lisäksi mukana on myös SparkJobDefinitionV1.json-tiedosto . Se sisältää Spark-työn määrityskohteen metatiedot, joten älä muokkaa sitä. .platform-tiedosto sisältää Git-asetuksiin> liittyvät ympäristötiedot, eikä sitä tule muokata.

Muistiinpano

  • Jos valitset kieleksi Java tai Scala, pää- ja viitetiedostoja ei käytetä, kun ne ladataan .jar tiedostona.
  • Liitetty ympäristö säilyy Spark-työmäärityksessä, kun se on synkronoitu säilöstä Fabric-työtilaan. Tällä hetkellä työtilojen välistä viiteympäristöä ei tueta. Sinun täytyy liittää manuaalisesti uuteen ympäristöön tai käyttää työtilan oletusasetuksia työn määrityksen suorittamiseen.
  • Spark-työmääritelmä säilyttää oletus lakehouse-tunnuksen synkronoitaessa säilöstä Fabric-työtilaan. Jos lähetät muistikirjan, jossa on oletus lakehouse, sinun on viitattava manuaalisesti juuri luotuun Lakehouse-kohteeseen. Lisätietoja on kohdassa Lakehouse Git -integrointi.