Megosztás a következőn keresztül:


Spark-feladatdefiníciós Git-integráció

Ez a cikk bemutatja, hogyan működik a Spark-feladatdefiníciók (SJD) Git-integrációja a Microsoft Fabricben. Megtudhatja, hogyan állíthat be adattárkapcsolatot, hogyan kezelheti a Spark-feladatdefiníció módosításait a forrásvezérlővel, és hogyan helyezheti üzembe őket különböző munkaterületeken.

A Spark-feladatdefiníciók Git-integrációjának engedélyezése az Azure DevOpsban lehetővé teszi a változások nyomon követését teljes Git-előzményeken keresztül. Ha a PySpark vagy a SparkR van kiválasztva, a véglegesítés részeként a fő definíciós fájl és a referenciafájl is szerepel. A fájlon belüli forráskód módosításait is nyomon követi a rendszer.

Fontos

Ez a funkció előzetes verzióban érhető el.

Kapcsolat beállítása

A munkaterület beállításaiból egyszerűen beállíthat egy kapcsolatot az adattárral a módosítások véglegesítéséhez és szinkronizálásához. A kapcsolat beállításához tekintse meg a Git-integráció első lépéseit ismertető cikket. A csatlakozás után az elemek, például a Spark-feladatdefiníciók láthatóak lesznek a Forrás vezérlőpulton .

Képernyőkép a munkaterület forrásvezérlő paneléről.

Miután véglegesíti a Spark-feladatdefiníciót a Git-adattárban, a feladatdefiníció mappastruktúrája megjelenik az adattárban.

Spark-feladatdefiníció ábrázolása a Gitben

Az alábbi kép az adattárban található egyes Spark-feladatdefinícióelemek fájlstruktúráját szemlélteti:

Képernyőkép az sjd Git-adattár fájlszerkezetéről.

Amikor véglegesíti a Spark-feladatdefiníciós elemet az adattárban, minden elemhez létrejön egy Git-mappa, amely a séma szerint lesz elnevezve: <Elem neve> + "SparkJobDefinition". Ne nevezze át a mappát, mert az a munkaterületen található elem nyomon követésére szolgál. Ha például az elem neve "sjd1", akkor a git mappa neve "sjd1SparkJobDefinition".

A Git mappában két almappa található. Ezek a és a referencia. A mappa tartalmazza a fő definíciós fájlt, a referenciamappa pedig a referenciafájlt.

A fő és a referenciafájlok mellett egy SparkJobDefinitionV1.json fájl is található. A Spark-feladatdefiníció elem metaadatait tartalmazza, ezért ne módosítsa. A .platform fájl tartalmazza a Git beállításával> kapcsolatos platforminformációkat, ezért nem kell módosítani.

Feljegyzés

  • Ha a Java vagy a Scala nyelvet választja, a fő és referenciafájlok nem lesznek véglegesítve .jar fájlként való feltöltéskor.
  • A csatolt környezet megmarad egy Spark-feladatdefinícióban, miután az adattárból egy Háló-munkaterületre szinkronizált. A munkaterületek közötti referenciakörnyezetek jelenleg nem támogatottak. Manuálisan kell csatolnia egy új környezethez, vagy a munkaterület alapértelmezett beállításaival kell futtatnia a feladatdefiníciót.
  • A Spark-feladat definíciója megőrzi az alapértelmezett lakehouse-azonosítót az adattárból fabric-munkaterületre való szinkronizáláskor. Ha az alapértelmezett lakehouse-t tartalmazó jegyzetfüzetet véglegesít, manuálisan kell hivatkoznia egy újonnan létrehozott lakehouse-elemre. További információ: Lakehouse Git-integráció.