Spark-feladatdefiníciós Git-integráció
Ez a cikk bemutatja, hogyan működik a Spark-feladatdefiníciók (SJD) Git-integrációja a Microsoft Fabricben. Megtudhatja, hogyan állíthat be adattárkapcsolatot, hogyan kezelheti a Spark-feladatdefiníció módosításait a forrásvezérlővel, és hogyan helyezheti üzembe őket különböző munkaterületeken.
A Spark-feladatdefiníciók Git-integrációjának engedélyezése az Azure DevOpsban lehetővé teszi a változások nyomon követését teljes Git-előzményeken keresztül. Ha a PySpark vagy a SparkR van kiválasztva, a véglegesítés részeként a fő definíciós fájl és a referenciafájl is szerepel. A fájlon belüli forráskód módosításait is nyomon követi a rendszer.
Kapcsolat beállítása
A munkaterület beállításaiból egyszerűen beállíthat egy kapcsolatot az adattárral a módosítások véglegesítéséhez és szinkronizálásához. A kapcsolat beállításához tekintse meg a Git-integráció első lépéseit ismertető cikket. A csatlakozás után az elemek, például a Spark-feladatdefiníciók láthatóak lesznek a Forrás vezérlőpulton .
Miután véglegesíti a Spark-feladatdefiníciót a Git-adattárban, a feladatdefiníció mappastruktúrája megjelenik az adattárban.
Spark-feladatdefiníció ábrázolása a Gitben
Az alábbi kép az adattárban található egyes Spark-feladatdefinícióelemek fájlstruktúráját szemlélteti:
Amikor véglegesíti a Spark-feladatdefiníciós elemet az adattárban, minden elemhez létrejön egy Git-mappa, amely a séma szerint lesz elnevezve: <Elem neve> + "SparkJobDefinition". Ne nevezze át a mappát, mert az a munkaterületen található elem nyomon követésére szolgál. Ha például az elem neve "sjd1", akkor a git mappa neve "sjd1SparkJobDefinition".
A Git mappában két almappa található. Ezek a fő és a referencia. A fő mappa tartalmazza a fő definíciós fájlt, a referenciamappa pedig a referenciafájlt.
A fő és a referenciafájlok mellett egy SparkJobDefinitionV1.json fájl is található. A Spark-feladatdefiníció elem metaadatait tartalmazza, ezért ne módosítsa. A .platform fájl tartalmazza a Git beállításával> kapcsolatos platforminformációkat, ezért nem kell módosítani.
Feljegyzés
- Ha a Java vagy a Scala nyelvet választja, a fő és referenciafájlok nem lesznek véglegesítve .jar fájlként való feltöltéskor.
- A csatolt környezet megmarad egy Spark-feladatdefinícióban, miután az adattárból egy Háló-munkaterületre szinkronizált. A munkaterületek közötti referenciakörnyezetek jelenleg nem támogatottak. Manuálisan kell csatolnia egy új környezethez, vagy a munkaterület alapértelmezett beállításaival kell futtatnia a feladatdefiníciót.
- A Spark-feladat definíciója megőrzi az alapértelmezett lakehouse-azonosítót az adattárból fabric-munkaterületre való szinkronizáláskor. Ha az alapértelmezett lakehouse-t tartalmazó jegyzetfüzetet véglegesít, manuálisan kell hivatkoznia egy újonnan létrehozott lakehouse-elemre. További információ: Lakehouse Git-integráció.
Kapcsolódó tartalom
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: