Apache Spark-feladatdefiníció létrehozása a Fabricben

Ebben az oktatóanyagban megtudhatja, hogyan hozhat létre Spark-feladatdefiníciót a Microsoft Fabricben.

Előfeltételek

A kezdés előtt a következőkre lesz szüksége:

Tipp.

A Spark-feladatdefiníciós elem futtatásához rendelkeznie kell egy fődefiníciós fájllal és az alapértelmezett lakehouse-környezettel. Ha nem rendelkezik tóházzal, létrehozhat egyet a Tóház létrehozása című témakörben leírt lépéseket követve.

Spark-feladatdefiníció létrehozása

A Spark-feladatdefiníció létrehozásának folyamata gyors és egyszerű; az első lépések többféleképpen is elérhetők.

Spark-feladatdefiníció létrehozásának lehetőségei

A létrehozási folyamat többféleképpen is elkezdhető:

  • Adatmérnöki kezdőlap: Egyszerűen létrehozhat Spark-feladatdefiníciót a Spark-feladatdefiníciós kártyán keresztül a kezdőlap Új szakaszában.

    Képernyőkép a Spark-feladatdefiníciós kártya kiválasztásának helyével.

  • Munkaterület nézet: A Spark-feladatdefiníciót a Munkaterület nézetben is létrehozhatja, ha adatmérnök az Új legördülő menüvel.

    Képernyőkép arról, hogy hol válassza a Spark-feladatdefiníciót az Új menüben.

  • Létrehozási nézet: Egy Spark-feladatdefiníció létrehozásához egy másik belépési pont a Létrehozás lap adatmérnök alatt.

    Képernyőkép arról, hogy hol válassza ki a Spark-feladatdefiníciót a Létrehozási központban.

A Létrehozáskor nevet kell adnia a Spark-feladatdefiníciónak. A névnek egyedinek kell lennie az aktuális munkaterületen belül. Az új Spark-feladatdefiníció az aktuális munkaterületen jön létre.

Spark-feladatdefiníció létrehozása a PySparkhoz (Python)

Spark-feladatdefiníció létrehozása a PySparkhoz:

  1. Töltse le a minta CSV-fájlt yellow_tripdata_2022_01.csv , és töltse fel a lakehouse fájlszakaszába.

  2. Hozzon létre egy új Spark-feladatdefiníciót.

  3. Válassza a PySpark (Python) lehetőséget a Nyelv legördülő listából.

  4. Töltse le a createTablefromCSV.py mintát, és töltse fel fő definíciós fájlként. A fő definíciós fájl (feladat. Fő) az alkalmazáslogikát tartalmazó fájl, amely kötelező a Spark-feladatok futtatásához. Minden Spark-feladatdefinícióhoz csak egy fő definíciós fájlt tölthet fel.

    Feltöltheti a fő definíciós fájlt a helyi asztalról, vagy feltöltheti egy meglévő Azure Data Lake Storage (ADLS) Gen2-ből a fájl teljes ABFSS-elérési útjának megadásával. Például: abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.

  5. Referenciafájlok feltöltése .py fájlokként. A referenciafájlok a fő definíciós fájl által importált Python-modulok. A fő definíciós fájlhoz hasonlóan az asztalról vagy egy meglévő ADLS Gen2-ből is feltölthet. Több referenciafájl is támogatott.

    Tipp.

    Ha ADLS Gen2 elérési utat használ, hogy a fájl elérhető legyen, a feladatot futtató felhasználói fióknak megfelelő engedélyt kell adnia a tárfióknak. Ennek két különböző módját javasoljuk:

    • A felhasználói fiók hozzárendelése közreműködői szerepkörhöz a tárfiókhoz.
    • Adjon olvasási és végrehajtási engedélyt a fájl felhasználói fiókjának az ADLS Gen2 hozzáférés-vezérlési listáján (ACL) keresztül.

    Manuális futtatás esetén a rendszer az aktuális bejelentkezési felhasználó fiókját használja a feladat futtatásához.

  6. Szükség esetén adja meg a feladat parancssori argumentumait. Az argumentumok elválasztásához használjon szóközt osztóként.

  7. Adja hozzá a lakehouse-hivatkozást a feladathoz. A feladathoz legalább egy lakehouse-referenciát hozzá kell adni. Ez a lakehouse a feladat alapértelmezett lakehouse-környezete.

    Több lakehouse-hivatkozás is támogatott. A Spark Gépház lapon keresse meg a nem alapértelmezett lakehouse-nevet és a teljes OneLake URL-címet.

    Képernyőkép egy kitöltött fődefiníciós fájlképernyőről.

Spark-feladatdefiníció létrehozása a Scalához/Java-hoz

Spark-feladatdefiníció létrehozása a Scalához/Java-hoz:

  1. Hozzon létre egy új Spark-feladatdefiníciót.

  2. Válassza a Spark(Scala/Java) lehetőséget a Nyelv legördülő listából.

  3. Töltse fel a fő definíciós fájlt .jar fájlként. A fő definíciós fájl az a fájl, amely tartalmazza a feladat alkalmazáslogikát, és kötelező a Spark-feladat futtatásához. Minden Spark-feladatdefinícióhoz csak egy fő definíciós fájlt tölthet fel. Adja meg a főosztály nevét.

  4. Referenciafájlok feltöltése .jar fájlokként. A referenciafájlok a fő definíciós fájl által hivatkozott/importált fájlok.

  5. Szükség esetén adja meg a feladat parancssori argumentumait.

  6. Adja hozzá a lakehouse-hivatkozást a feladathoz. A feladathoz legalább egy lakehouse-referenciát hozzá kell adni. Ez a lakehouse a feladat alapértelmezett lakehouse-környezete.

Spark-feladatdefiníció létrehozása az R-hez

Spark-feladatdefiníció létrehozása a SparkR(R) számára:

  1. Hozzon létre egy új Spark-feladatdefiníciót.

  2. Válassza a SparkR(R) elemet a Nyelv legördülő listából.

  3. Töltse fel a fő definíciós fájlt . R fájl. A fő definíciós fájl az a fájl, amely tartalmazza a feladat alkalmazáslogikát, és kötelező a Spark-feladat futtatásához. Minden Spark-feladatdefinícióhoz csak egy fő definíciós fájlt tölthet fel.

  4. Referenciafájlok feltöltése a következőként : . R-fájlok . A referenciafájlok a fő definíciós fájl által hivatkozott/importált fájlok.

  5. Szükség esetén adja meg a feladat parancssori argumentumait.

  6. Adja hozzá a lakehouse-hivatkozást a feladathoz. A feladathoz legalább egy lakehouse-referenciát hozzá kell adni. Ez a lakehouse a feladat alapértelmezett lakehouse-környezete.

Feljegyzés

A Spark-feladat definíciója az aktuális munkaterületen jön létre.

A Spark-feladatdefiníciók testreszabásának lehetőségei

A Spark-feladatdefiníciók végrehajtásának további testreszabására is van lehetőség.

  • Spark Compute: A Spark Compute lapon a feladat futtatásához használt Futtatókörnyezet verziója látható. Láthatja a Spark konfigurációs beállításait is, amelyek a feladat futtatásához lesznek használva. A Spark konfigurációs beállításait a Hozzáadás gombra kattintva szabhatja testre.
  • Optimalizálás: Az Optimalizálás lapon engedélyezheti és beállíthatja a feladat újrapróbálkozási szabályzatát . Ha engedélyezve van, a feladat újrapróbálkozott, ha nem sikerül. Az újrapróbálkozések maximális számát és az újrapróbálkozási időközt is beállíthatja. Minden újrapróbálkozási kísérletnél a feladat újraindul. Győződjön meg arról, hogy a feladat idempotens.

    Az újrapróbálkozési szabályzat beállításának helyét bemutató képernyőkép.