Rövid útmutató: Adatok átalakítása Apache Spark-feladatdefinícióval

Ebben a rövid útmutatóban az Azure Synapse Analytics használatával hozhat létre egy folyamatot az Apache Spark-feladatdefiníció használatával.

Előfeltételek

Az Azure Synapse-munkaterület létrehozása után kétféleképpen nyithatja meg a Synapse Studiót:

  • Nyissa meg a Synapse-munkaterületet az Azure Portalon. Válassza a Megnyitás a Synapse Studio-kártyán az Első lépések csoportban.
  • Nyissa meg az Azure Synapse Analyticset , és jelentkezzen be a munkaterületre.

Ebben a rövid útmutatóban példaként a "sampletest" nevű munkaterületet használjuk.

a Synapse Studio kezdőlapja

Folyamat létrehozása Apache Spark-feladatdefinícióval

A folyamatok a tevékenységek egy csoportjának végrehajtásához szükséges logikai folyamatot tartalmazzák. Ebben a szakaszban egy Apache Spark-feladatdefiníciós tevékenységet tartalmazó folyamatot hoz létre.

  1. Lépjen az Integrálás lapra. Válassza a folyamatfejléc melletti plusz ikont, és válassza a Folyamat lehetőséget.

    Új folyamat létrehozása

  2. A folyamat Tulajdonságok beállításai lapján adja meg a név demóját.

  3. A Tevékenységek panel Synapse területén húzza a Spark-feladatdefiníciót a folyamatvászonra.

    spark-feladat definíciójának húzása

Apache Spark-feladatdefiníciós vászon beállítása

Miután létrehozta az Apache Spark-feladatdefiníciót, a rendszer automatikusan elküldi a Spark-feladatdefiníciós vásznon.

Általános beállítások

  1. Válassza ki a spark-feladat definíciós modulját a vásznon.

  2. Az Általános lapon adja meg a név mintáját.

  3. (Beállítás) Leírást is megadhat.

  4. Időtúllépés: Egy tevékenység maximális időtartama. Az alapértelmezett érték hét nap, amely egyben az engedélyezett maximális időmennyiség is. Formátum: D.HH:MM:SS.

  5. Újrapróbálkozás: Az újrapróbálkozási kísérletek maximális száma.

  6. Újrapróbálkozási időköz: Az egyes újrapróbálkozási kísérletek közötti másodpercek száma.

  7. Biztonságos kimenet: Ha be van jelölve, a tevékenység kimenete nem lesz rögzítve a naplózásban.

  8. Biztonságos bemenet: Ha be van jelölve, a tevékenységből származó bemenet nem lesz rögzítve a naplózásban.

    spark-feladat definíciója – általános

Beállítások lap

Ezen a panelen hivatkozhat a futtatandó Spark-feladatdefinícióra.

  • Bontsa ki a Spark-feladatdefiníciók listáját, és válasszon egy meglévő Apache Spark-feladatdefiníciót. Létrehozhat egy új Apache Spark-feladatdefiníciót is, ha az Új gombra kattint a futtatni kívánt Spark-feladatdefinícióra való hivatkozáshoz.

  • (Nem kötelező) Az Apache Spark-feladatdefinícióval kapcsolatos információkat is kitöltheti. Ha a következő beállítások üresek, a spark-feladat definíciójának beállításait használja a rendszer a futtatáshoz; ha a következő beállítások nem üresek, ezek a beállítások maguk a Spark-feladat definíciójának beállításait cserélik le.

    Tulajdonság Leírás
    Fő definíciós fájl A feladathoz használt fő fájl. Válasszon ki egy PY/JAR/ZIP fájlt a tárolóból. A Fájl feltöltése lehetőséget választva feltöltheti a fájlt egy tárfiókba.
    Minta: abfss://…/path/to/wordcount.jar
    Almappák hivatkozásai Az almappákat a fő definíciós fájl gyökérmappájából vizsgálva ezek a fájlok referenciafájlokként lesznek hozzáadva. A rendszer ellenőrzi a "jars", "pyFiles", "files" vagy "archives" nevű mappákat, és a mappák neve megkülönbözteti a kis- és nagybetűket.
    Főosztály neve A teljes azonosító vagy a fő definíciós fájlban található főosztály.
    Minta: WordCount
    Parancssori argumentumok Az Új gombra kattintva parancssori argumentumokat adhat hozzá. Meg kell jegyezni, hogy a parancssori argumentumok hozzáadása felülírja a Spark-feladat definíciója által definiált parancssori argumentumokat.
    Minta: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Apache Spark-készlet A listából kiválaszthatja az Apache Spark-készletet.
    Python-kódhivatkozás A fő definíciós fájlban referenciaként használt egyéb Python-kódfájlok.
    Támogatja a fájlok (.py, .py3, .zip) "pyFiles" tulajdonságba való továbbítását. Felülbírálja a Spark-feladatdefinícióban definiált "pyFiles" tulajdonságot.
    Referenciafájlok A fő definíciós fájlban hivatkozásra használt egyéb fájlok.
    Végrehajtók dinamikus lefoglalása Ez a beállítás a Spark-alkalmazás-végrehajtók lefoglalásának Spark-konfigurációban lévő dinamikus foglalási tulajdonságához lesz megfeleltetve.
    Minimális végrehajtók A feladathoz megadott Spark-készletben lefoglalandó végrehajtók minimális száma.
    Végrehajtók maximális kihasználtság A feladathoz megadott Spark-készletben lefoglalandó végrehajtók maximális száma.
    Illesztőprogram mérete A feladathoz megadott Apache Spark-készletben megadott illesztőprogramhoz használandó magok és memória száma.
    Spark-konfiguráció Adja meg a Spark konfigurációs tulajdonságainak értékeit a következő cikkben: Spark Configuration – Alkalmazástulajdonságok. A felhasználók használhatják az alapértelmezett konfigurációt és a testreszabott konfigurációt.

    spark-feladatdefiníciós folyamat beállításai

  • Dinamikus tartalmak hozzáadásához kattintson a Dinamikus tartalom hozzáadása gombra, vagy nyomja le az AltShift++ billentyűparancsot. A Dinamikus tartalom hozzáadása lapon a kifejezések, függvények és rendszerváltozók bármilyen kombinációját használhatja a dinamikus tartalom hozzáadásához.

    dinamikus tartalom hozzáadása

Felhasználói tulajdonságok lap

Ebben a panelen hozzáadhat tulajdonságokat az Apache Spark-feladatdefiníciós tevékenységhez.

felhasználói tulajdonságok

Az Azure Synapse Analytics támogatásáról a következő cikkekben olvashat: