Apache Spark-feladatdefiníció létrehozása a Hálóban
Ebből az oktatóanyagból megtudhatja, hogyan hozhat létre Spark-feladatdefiníciót a Microsoft Fabricben.
Fontos
A Microsoft Fabric előzetes verzióban érhető el.
Előfeltételek
Első lépésekhez a következő előfeltételekre van szükség:
- Aktív előfizetéssel rendelkező Microsoft Fabric-bérlői fiók. Hozzon létre ingyenes fiókot.
Tipp
A Spark-feladatdefiníciós elem futtatásához a fő definíciós fájlra és az alapértelmezett lakehouse-környezetre van szükség. Ha nem rendelkezik tótárházzal, létrehozhat egyet a Tótárház létrehozása című cikk lépéseit követve.
Spark-feladatdefiníció létrehozása
A Spark-feladatdefiníció létrehozási folyamata gyors és egyszerű, és többféleképpen is elindítható.
Spark-feladatdefiníció létrehozásának lehetőségei
A létrehozási folyamat többféleképpen is elkezdhető:
- Adatfeldolgozás kezdőlapja: Könnyedén létrehozhat Spark-feladatdefiníciót a Kezdőlap Új szakaszában található Spark-feladatdefiníciós kártyán keresztül.
- Munkaterület nézet: Spark-feladatdefiníciót a Munkaterület nézeten keresztül is létrehozhat, ha a adattervezés felületen dolgozik az Új legördülő menü használatával.
- Központ létrehozása: A Spark-feladatdefiníció létrehozásához egy másik belépési pont a Adattervezés alatt található Központ létrehozása lapon található.
Egy Spark-feladat definíciójának létrehozásához névre lenne szükség. A névnek egyedinek kell lennie az aktuális munkaterületen belül. Az újonnan létrehozott Spark-feladat definíciója az aktuális munkaterületen lesz létrehozva.
Spark-feladatdefiníció létrehozása a PySparkhoz (Python)
Ha Spark-feladatdefiníciót szeretne létrehozni a PySparkhoz, kövesse az alábbi lépéseket:
Hozzon létre egy új Spark-feladatdefiníciót.
A Nyelv legördülő menüben válassza a PySpark (Python) lehetőséget.
Töltse fel a fő definíciós fájlt .py fájlként. A fő definíciós fájl a feladat alkalmazáslogikát tartalmazó fájl . A fő definíciós fájl kötelező a Spark-feladatok futtatásához. Minden Spark-feladatdefinícióhoz csak egy fő definíciós fájlt tölthet fel.
A helyi asztalról való feltöltés mellett a meglévő Azure Data Lake Storage Gen2 is feltöltheti a fájl teljes abfss elérési útját megadva. Például abfss://your-storage-account-name.dfs.core.windows.net/your-file- elérési út.
Referenciafájlok feltöltése .py fájlként. A referenciafájlok a fő definíciós fájl által importált Python-modulok. A fő definíciós fájl feltöltéséhez hasonlóan a meglévő Azure Data Lake Storage Gen2 is feltölthető a fájl teljes abfss elérési útjának megadásával. Több referenciafájl is támogatott.
Tipp
Ha ADLS-gen2 elérési utat használ, hogy a fájl elérhető legyen, a feladat futtatásához használt felhasználói fiókot megfelelő engedélyekkel kell hozzárendelni a tárfiókhoz. Ezt kétféleképpen teheti meg:
- Rendelje hozzá a felhasználói fiókot Közreműködő szerepkörként a tárfiókhoz.
- Olvasási és végrehajtási engedély megadása a fájl felhasználói fiókjának Azure Data Lake Storage Gen2 Access Control Listával (ACL)
Manuális futtatás esetén a rendszer az aktuális bejelentkezési felhasználó fiókját használja a feladat futtatásához
Szükség esetén adja meg a feladat parancssori argumentumait. az argumentumok elválasztásához használjon szóközt elválasztóként.
Adja hozzá a lakehouse-hivatkozást a feladathoz. Legalább egy tótárház-hivatkozást hozzá kell adnia a feladathoz. Ez a tótárház a feladat alapértelmezett lakehouse-környezete. Több tótárház-hivatkozás is támogatott. A nem alapértelmezett Lakehouse esetében a Spark-beállítások lapon megtalálhatja annak nevét és teljes OneLake URL-címét.
Ebben a példában a következőket tettük:
- Létrehozott egy CSVToDelta nevű Spark-feladatdefiníciót a PySparkhoz
- Feltöltötte a createTablefromCSV.py fájlt fő definíciós fájlként
- Hozzáadta a lakehouse LH001 és LH002 hivatkozásokat a feladathoz
- Az LH001 lett az alapértelmezett lakehouse-környezet
Spark-feladatdefiníció létrehozása Scalához/Javához
Ha Spark-feladatdefiníciót szeretne létrehozni a Scalához/Javához, kövesse az alábbi lépéseket:
A Nyelv legördülő menüben válassza a Spark(Scala/Java) lehetőséget.
Töltse fel a fő definíciós fájlt .jar fájlként. A fő definíciós fájl a feladat alkalmazáslogikát tartalmazó fájl. A Spark-feladat futtatásához kötelező a fő definíciós fájl. Adja meg a Fő osztály nevét.
Referenciafájlok feltöltése .jar fájlként. A referenciafájlok azok a fájlok, amelyekre a fő definíciós fájl hivatkozik/importál.
Szükség esetén parancssori argumentumokat biztosít a feladathoz.
Adja hozzá a lakehouse-hivatkozást a feladathoz. Legalább egy tótárház-hivatkozást hozzá kell adnia a feladathoz. Ez a tótárház a feladat alapértelmezett lakehouse-környezete.
Spark-feladatdefiníció létrehozása az R-hez
A SparkR(R) Spark-feladatdefiníciójának létrehozásához kövesse az alábbi lépéseket:
A Nyelv legördülő menüben válassza a SparkR(R) lehetőséget.
Töltse fel a fő definíciós fájlt a következőként: . R-fájl. A fő definíciós fájl a feladat alkalmazáslogikát tartalmazó fájl. A Spark-feladat futtatásához kötelező a fő definíciós fájl.
Referenciafájlok feltöltése a fájlként. R-fájl. A referenciafájlok azok a fájlok, amelyekre a fő definíciós fájl hivatkozik/importál.
Szükség esetén parancssori argumentumokat biztosít a feladathoz.
Adja hozzá a lakehouse-hivatkozást a feladathoz. Legalább egy tótárház-hivatkozást hozzá kell adnia a feladathoz. Ez a tótárház a feladat alapértelmezett lakehouse-környezete.
Megjegyzés
A Spark-feladat definíciója az aktuális munkaterületen lesz létrehozva.
A Spark-feladatdefiníció testreszabásának lehetőségei
A Spark-feladatdefiníció végrehajtásának további testreszabására van néhány lehetőség
- Spark Compute: A Spark Compute lapon látható a futtatókörnyezet verziója, amely a Feladat futtatásához használt Spark-verzió. A Feladat futtatásához használt Spark-konfigurációs beállításokat is láthatja. A Spark konfigurációs beállításait a Hozzáadás gombra kattintva szabhatja testre.
- Optimalizálás: Az Optimalizálás lapon engedélyezheti és beállíthatja az újrapróbálkozási szabályzatot a feladathoz. Ha engedélyezve van, a feladat újrapróbálkozott, ha sikertelen. Az újrapróbálkozások maximális számát és az újrapróbálkozások közötti időközt is beállíthatja. Minden újrapróbálkozási kísérletnél a feladat újraindul, győződjön meg arról, hogy a feladat idempotens.