Apache Spark-feladatdefiníció létrehozása a Hálóban

Ebből az oktatóanyagból megtudhatja, hogyan hozhat létre Spark-feladatdefiníciót a Microsoft Fabricben.

Fontos

A Microsoft Fabric előzetes verzióban érhető el.

Előfeltételek

Első lépésekhez a következő előfeltételekre van szükség:

Tipp

A Spark-feladatdefiníciós elem futtatásához a fő definíciós fájlra és az alapértelmezett lakehouse-környezetre van szükség. Ha nem rendelkezik tótárházzal, létrehozhat egyet a Tótárház létrehozása című cikk lépéseit követve.

Spark-feladatdefiníció létrehozása

A Spark-feladatdefiníció létrehozási folyamata gyors és egyszerű, és többféleképpen is elindítható.

Spark-feladatdefiníció létrehozásának lehetőségei

A létrehozási folyamat többféleképpen is elkezdhető:

  • Adatfeldolgozás kezdőlapja: Könnyedén létrehozhat Spark-feladatdefiníciót a Kezdőlap Új szakaszában található Spark-feladatdefiníciós kártyán keresztül.

Képernyőkép a Spark-feladatdefiníciós kártya kiválasztásának helyéről.

  • Munkaterület nézet: Spark-feladatdefiníciót a Munkaterület nézeten keresztül is létrehozhat, ha a adattervezés felületen dolgozik az Új legördülő menü használatával.

Képernyőkép a Spark-feladatdefiníció kiválasztásának helyéről az Új menüben.

  • Központ létrehozása: A Spark-feladatdefiníció létrehozásához egy másik belépési pont a Adattervezés alatt található Központ létrehozása lapon található.

Képernyőkép a Spark-feladatdefiníció kiválasztásának helyéről a Create Hubon.

Egy Spark-feladat definíciójának létrehozásához névre lenne szükség. A névnek egyedinek kell lennie az aktuális munkaterületen belül. Az újonnan létrehozott Spark-feladat definíciója az aktuális munkaterületen lesz létrehozva.

Spark-feladatdefiníció létrehozása a PySparkhoz (Python)

Ha Spark-feladatdefiníciót szeretne létrehozni a PySparkhoz, kövesse az alábbi lépéseket:

  1. Hozzon létre egy új Spark-feladatdefiníciót.

  2. A Nyelv legördülő menüben válassza a PySpark (Python) lehetőséget.

  3. Töltse fel a fő definíciós fájlt .py fájlként. A fő definíciós fájl a feladat alkalmazáslogikát tartalmazó fájl . A fő definíciós fájl kötelező a Spark-feladatok futtatásához. Minden Spark-feladatdefinícióhoz csak egy fő definíciós fájlt tölthet fel.

    A helyi asztalról való feltöltés mellett a meglévő Azure Data Lake Storage Gen2 is feltöltheti a fájl teljes abfss elérési útját megadva. Például abfss://your-storage-account-name.dfs.core.windows.net/your-file- elérési út.

  4. Referenciafájlok feltöltése .py fájlként. A referenciafájlok a fő definíciós fájl által importált Python-modulok. A fő definíciós fájl feltöltéséhez hasonlóan a meglévő Azure Data Lake Storage Gen2 is feltölthető a fájl teljes abfss elérési útjának megadásával. Több referenciafájl is támogatott.

Tipp

Ha ADLS-gen2 elérési utat használ, hogy a fájl elérhető legyen, a feladat futtatásához használt felhasználói fiókot megfelelő engedélyekkel kell hozzárendelni a tárfiókhoz. Ezt kétféleképpen teheti meg:

  • Rendelje hozzá a felhasználói fiókot Közreműködő szerepkörként a tárfiókhoz.
  • Olvasási és végrehajtási engedély megadása a fájl felhasználói fiókjának Azure Data Lake Storage Gen2 Access Control Listával (ACL)

Manuális futtatás esetén a rendszer az aktuális bejelentkezési felhasználó fiókját használja a feladat futtatásához

  1. Szükség esetén adja meg a feladat parancssori argumentumait. az argumentumok elválasztásához használjon szóközt elválasztóként.

  2. Adja hozzá a lakehouse-hivatkozást a feladathoz. Legalább egy tótárház-hivatkozást hozzá kell adnia a feladathoz. Ez a tótárház a feladat alapértelmezett lakehouse-környezete. Több tótárház-hivatkozás is támogatott. A nem alapértelmezett Lakehouse esetében a Spark-beállítások lapon megtalálhatja annak nevét és teljes OneLake URL-címét.

    Képernyőkép egy kitöltött fődefiníciós fájl képernyőről.

Ebben a példában a következőket tettük:

  • Létrehozott egy CSVToDelta nevű Spark-feladatdefiníciót a PySparkhoz
  • Feltöltötte a createTablefromCSV.py fájlt fő definíciós fájlként
  • Hozzáadta a lakehouse LH001 és LH002 hivatkozásokat a feladathoz
  • Az LH001 lett az alapértelmezett lakehouse-környezet

Spark-feladatdefiníció létrehozása Scalához/Javához

Ha Spark-feladatdefiníciót szeretne létrehozni a Scalához/Javához, kövesse az alábbi lépéseket:

  1. A Nyelv legördülő menüben válassza a Spark(Scala/Java) lehetőséget.

  2. Töltse fel a fő definíciós fájlt .jar fájlként. A fő definíciós fájl a feladat alkalmazáslogikát tartalmazó fájl. A Spark-feladat futtatásához kötelező a fő definíciós fájl. Adja meg a Fő osztály nevét.

  3. Referenciafájlok feltöltése .jar fájlként. A referenciafájlok azok a fájlok, amelyekre a fő definíciós fájl hivatkozik/importál.

  4. Szükség esetén parancssori argumentumokat biztosít a feladathoz.

  5. Adja hozzá a lakehouse-hivatkozást a feladathoz. Legalább egy tótárház-hivatkozást hozzá kell adnia a feladathoz. Ez a tótárház a feladat alapértelmezett lakehouse-környezete.

Spark-feladatdefiníció létrehozása az R-hez

A SparkR(R) Spark-feladatdefiníciójának létrehozásához kövesse az alábbi lépéseket:

  1. A Nyelv legördülő menüben válassza a SparkR(R) lehetőséget.

  2. Töltse fel a fő definíciós fájlt a következőként: . R-fájl. A fő definíciós fájl a feladat alkalmazáslogikát tartalmazó fájl. A Spark-feladat futtatásához kötelező a fő definíciós fájl.

  3. Referenciafájlok feltöltése a fájlként. R-fájl. A referenciafájlok azok a fájlok, amelyekre a fő definíciós fájl hivatkozik/importál.

  4. Szükség esetén parancssori argumentumokat biztosít a feladathoz.

  5. Adja hozzá a lakehouse-hivatkozást a feladathoz. Legalább egy tótárház-hivatkozást hozzá kell adnia a feladathoz. Ez a tótárház a feladat alapértelmezett lakehouse-környezete.

Megjegyzés

A Spark-feladat definíciója az aktuális munkaterületen lesz létrehozva.

A Spark-feladatdefiníció testreszabásának lehetőségei

A Spark-feladatdefiníció végrehajtásának további testreszabására van néhány lehetőség

  • Spark Compute: A Spark Compute lapon látható a futtatókörnyezet verziója, amely a Feladat futtatásához használt Spark-verzió. A Feladat futtatásához használt Spark-konfigurációs beállításokat is láthatja. A Spark konfigurációs beállításait a Hozzáadás gombra kattintva szabhatja testre.

Képernyőkép a Spark-konfiguráció szerkesztésének helyről.

  • Optimalizálás: Az Optimalizálás lapon engedélyezheti és beállíthatja az újrapróbálkozási szabályzatot a feladathoz. Ha engedélyezve van, a feladat újrapróbálkozott, ha sikertelen. Az újrapróbálkozások maximális számát és az újrapróbálkozások közötti időközt is beállíthatja. Minden újrapróbálkozási kísérletnél a feladat újraindul, győződjön meg arról, hogy a feladat idempotens.

Képernyőkép az újrapróbálkozési szabályzat beállításának helyről.

Következő lépések