Megosztás a következőn keresztül:


Oktatóanyag: Apache Spark-feladatdefiníció létrehozása a Synapse Studióban

Ez az oktatóanyag bemutatja, hogyan hozhat létre Apache Spark-feladatdefiníciókat a Synapse Studióval, majd hogyan küldheti el őket egy kiszolgáló nélküli Apache Spark-készletbe.

Ez az oktatóanyag a következő feladatokat mutatja be:

  • Apache Spark-feladatdefiníció létrehozása a PySparkhoz (Python)
  • Apache Spark-feladatdefiníció létrehozása a Sparkhoz (Scala)
  • Apache Spark-feladatdefiníció létrehozása a .NET Sparkhoz (C#/F#)
  • Feladatdefiníció létrehozása JSON-fájl importálásával
  • Apache Spark-feladatdefiníciós fájl exportálása helyire
  • Apache Spark-feladatdefiníció elküldése kötegelt feladatként
  • Apache Spark-feladatdefiníció hozzáadása a folyamathoz

Előfeltételek

Mielőtt nekilát az oktatóanyagnak, ellenőrizze, hogy megfelel-e a következő feltételeknek:

  • Azure Synapse Analytics-munkaterület. Útmutatásért lásd : Azure Synapse Analytics-munkaterület létrehozása.
  • Kiszolgáló nélküli Apache Spark-készlet.
  • Egy ADLS Gen2-tárfiók. A használni kívánt ADLS Gen2 fájlrendszer tárolási blobadat-közreműködőjének kell lennie. Ha nem, manuálisan kell hozzáadnia az engedélyt.
  • Ha nem szeretné használni a munkaterület alapértelmezett tárterületét, kapcsolja össze a szükséges ADLS Gen2 tárfiókot a Synapse Studióban.

Apache Spark-feladatdefiníció létrehozása a PySparkhoz (Python)

Ebben a szakaszban egy Apache Spark-feladatdefiníciót hoz létre a PySparkhoz (Python).

  1. Nyissa meg a Synapse Studiót.

  2. Az Apache Spark-feladatdefiníciók létrehozására szolgáló mintafájlok között letöltheti python.zip mintafájljait, majd kibonthatja a tömörített csomagot, és kinyerheti a wordcount.py és shakespeare.txt fájlokat.

    mintafájlok

  3. Válassza a Data -Linked ->>Azure Data Lake Storage Gen2 lehetőséget, és töltse fel wordcount.py és shakespeare.txt az ADLS Gen2 fájlrendszerbe.

    Python-fájl feltöltése

  4. Válassza a Fejlesztési központ lehetőséget, válassza a "+" ikont, és válassza a Spark-feladatdefiníciót egy új Spark-feladatdefiníció létrehozásához.

    új definíció létrehozása Pythonhoz

  5. Válassza ki a PySparkot (Python) az Apache Spark-feladatdefiníció főablakának Nyelv legördülő listájából.

    python kiválasztása

  6. Töltse ki az Apache Spark-feladatdefiníció adatait.

    Tulajdonság Leírás
    Feladatdefiníció neve Adja meg az Apache Spark-feladatdefiníció nevét. Ez a név bármikor frissíthető a közzétételig.
    Minta: job definition sample
    Fő definíciós fájl A feladathoz használt fő fájl. Válasszon ki egy PY-fájlt a tárolóból. A Fájl feltöltése lehetőséget választva feltöltheti a fájlt egy tárfiókba.
    Minta: abfss://…/path/to/wordcount.py
    Parancssori argumentumok A feladat nem kötelező argumentumai.
    Minta: abfss://…/path/to/shakespeare.txt abfss://…/path/to/result
    Megjegyzés: A mintafeladat-definíció két argumentumát szóköz választja el egymástól.
    Referenciafájlok A fő definíciós fájlban hivatkozásra használt további fájlok. A Fájl feltöltése lehetőséget választva feltöltheti a fájlt egy tárfiókba.
    Spark-készlet A feladat a kiválasztott Apache Spark-készletbe lesz elküldve.
    Szikra változat Az Apache Spark azon verziója, amelyen az Apache Spark-készlet fut.
    Végrehajtók A feladathoz megadott Apache Spark-készletben megadható végrehajtók száma.
    Végrehajtó mérete A feladathoz megadott Apache Spark-készletben megadott végrehajtókhoz használandó magok és memória száma.
    Illesztőprogram mérete A feladathoz megadott Apache Spark-készletben megadott illesztőprogramhoz használandó magok és memória száma.
    Apache Spark-konfiguráció A konfigurációk testreszabása az alábbi tulajdonságok hozzáadásával. Ha nem ad hozzá tulajdonságot, az Azure Synapse szükség esetén az alapértelmezett értéket fogja használni.

    A Python Spark-feladatdefiníció értékének beállítása

  7. Válassza a Közzététel lehetőséget az Apache Spark-feladatdefiníció mentéséhez.

    py-definíció közzététele

Apache Spark-feladatdefiníció létrehozása az Apache Sparkhoz (Scala)

Ebben a szakaszban egy Apache Spark-feladatdefiníciót hoz létre az Apache Sparkhoz (Scala).

  1. Nyissa meg az Azure Synapse Studiót.

  2. Az Apache Spark-feladatdefiníciók létrehozásához megnyithatja a mintafájlokat a scala.zip mintafájljainak letöltéséhez, majd kibonthatja a tömörített csomagot, és kinyerheti a wordcount.jar és shakespeare.txt fájlokat.

    mintafájlok scala

  3. Válassza a Data -Linked ->>Azure Data Lake Storage Gen2 lehetőséget, és töltse fel wordcount.jar és shakespeare.txt az ADLS Gen2 fájlrendszerbe.

    scala-struktúra előkészítése

  4. Válassza a Fejlesztési központ lehetőséget, válassza a "+" ikont, és válassza a Spark-feladatdefiníciót egy új Spark-feladatdefiníció létrehozásához. (A mintakép megegyezik a következő 4. lépésével: Apache Spark-feladatdefiníció (Python) létrehozása a PySparkhoz.)

  5. Válassza a Spark(Scala) elemet az Apache Spark-feladatdefiníció főablakának Nyelv legördülő listájából.

    scala kiválasztása

  6. Töltse ki az Apache Spark-feladatdefiníció adatait. A mintainformációkat átmásolhatja.

    Tulajdonság Leírás
    Feladatdefiníció neve Adja meg az Apache Spark-feladatdefiníció nevét. Ez a név bármikor frissíthető a közzétételig.
    Minta: scala
    Fő definíciós fájl A feladathoz használt fő fájl. Válasszon ki egy JAR-fájlt a tárolóból. A Fájl feltöltése lehetőséget választva feltöltheti a fájlt egy tárfiókba.
    Minta: abfss://…/path/to/wordcount.jar
    Főosztály neve A teljes azonosító vagy a fő definíciós fájlban található főosztály.
    Minta: WordCount
    Parancssori argumentumok A feladat nem kötelező argumentumai.
    Minta: abfss://…/path/to/shakespeare.txt abfss://…/path/to/result
    Megjegyzés: A mintafeladat-definíció két argumentumát szóköz választja el egymástól.
    Referenciafájlok A fő definíciós fájlban hivatkozásra használt további fájlok. A Fájl feltöltése lehetőséget választva feltöltheti a fájlt egy tárfiókba.
    Spark-készlet A feladat a kiválasztott Apache Spark-készletbe lesz elküldve.
    Szikra változat Az Apache Spark azon verziója, amelyen az Apache Spark-készlet fut.
    Végrehajtók A feladathoz megadott Apache Spark-készletben megadható végrehajtók száma.
    Végrehajtó mérete A feladathoz megadott Apache Spark-készletben megadott végrehajtókhoz használandó magok és memória száma.
    Illesztőprogram mérete A feladathoz megadott Apache Spark-készletben megadott illesztőprogramhoz használandó magok és memória száma.
    Apache Spark-konfiguráció A konfigurációk testreszabása az alábbi tulajdonságok hozzáadásával. Ha nem ad hozzá tulajdonságot, az Azure Synapse szükség esetén az alapértelmezett értéket fogja használni.

    A Scala Spark-feladatdefiníció értékének beállítása

  7. Válassza a Közzététel lehetőséget az Apache Spark-feladatdefiníció mentéséhez.

    scala definíció közzététele

Apache Spark-feladatdefiníció létrehozása a .NET Sparkhoz (C#/F#)

Ebben a szakaszban egy Apache Spark-feladatdefiníciót hoz létre a .NET Spark(C#/F#) számára.

  1. Nyissa meg az Azure Synapse Studiót.

  2. Az Apache Spark-feladatdefiníciók létrehozásához megnyithatja a mintafájlokat a dotnet.zip mintafájljainak letöltéséhez, majd kibonthatja a tömörített csomagot, és kinyerheti a wordcount.zip és shakespeare.txt fájlokat.

    minta dotnet

  3. Válassza a Data -Linked ->>Azure Data Lake Storage Gen2 lehetőséget, és töltse fel wordcount.zip és shakespeare.txt az ADLS Gen2 fájlrendszerbe.

    dotnet-struktúra előkészítése

  4. Válassza a Fejlesztési központ lehetőséget, válassza a "+" ikont, és válassza a Spark-feladatdefiníciót egy új Spark-feladatdefiníció létrehozásához. (A mintakép megegyezik a következő 4. lépésével: Apache Spark-feladatdefiníció (Python) létrehozása a PySparkhoz.)

  5. Válassza a .NET Spark(C#/F#) lehetőséget az Apache Spark feladatdefiníció főablakának Nyelv legördülő listájából.

    dotnet kiválasztása

  6. Töltse ki az Apache Spark-feladatdefinícióval kapcsolatos információkat. A mintainformációkat átmásolhatja.

    Tulajdonság Leírás
    Feladatdefiníció neve Adja meg az Apache Spark-feladatdefiníció nevét. Ez a név bármikor frissíthető a közzétételig.
    Minta: dotnet
    Fő definíciós fájl A feladathoz használt fő fájl. Válasszon ki egy zip-fájlt, amely tartalmazza az Apache Spark-alkalmazáshoz készült .NET-et (azaz a fő végrehajtható fájlt, a felhasználó által definiált függvényeket tartalmazó DLL-eket és egyéb szükséges fájlokat) a tárolóból. A Fájl feltöltése lehetőséget választva feltöltheti a fájlt egy tárfiókba.
    Minta: abfss://…/path/to/wordcount.zip
    Fő végrehajtható fájl A fő végrehajtható fájl a fő definíciós ZIP-fájlban.
    Minta: WordCount
    Parancssori argumentumok A feladat nem kötelező argumentumai.
    Minta: abfss://…/path/to/shakespeare.txt abfss://…/path/to/result
    Megjegyzés: A mintafeladat-definíció két argumentumát szóköz választja el egymástól.
    Referenciafájlok A feldolgozó csomópontok további fájlokat igényelnek az Apache Spark-alkalmazás .NET-hez való végrehajtásához, amelyek nem szerepelnek a fődefiníciós ZIP-fájlban (azaz függő jarok, további felhasználó által definiált függvény DLL-jei és egyéb konfigurációs fájlok). A Fájl feltöltése lehetőséget választva feltöltheti a fájlt egy tárfiókba.
    Spark-készlet A feladat a kiválasztott Apache Spark-készletbe lesz elküldve.
    Szikra változat Az Apache Spark azon verziója, amelyen az Apache Spark-készlet fut.
    Végrehajtók A feladathoz megadott Apache Spark-készletben megadható végrehajtók száma.
    Végrehajtó mérete A feladathoz megadott Apache Spark-készletben megadott végrehajtókhoz használandó magok és memória száma.
    Illesztőprogram mérete A feladathoz megadott Apache Spark-készletben megadott illesztőprogramhoz használandó magok és memória száma.
    Apache Spark-konfiguráció A konfigurációk testreszabása az alábbi tulajdonságok hozzáadásával. Ha nem ad hozzá tulajdonságot, az Azure Synapse szükség esetén az alapértelmezett értéket fogja használni.

    A Dotnet Spark-feladatdefiníciójának értékének beállítása

  7. Válassza a Közzététel lehetőséget az Apache Spark-feladatdefiníció mentéséhez.

    dotnet definíció közzététele

Feljegyzés

Az Apache Spark-konfiguráció esetében, ha az Apache Spark-konfiguráció Apache Spark-feladatdefiníciója nem végez különleges műveletet, a feladat futtatásakor az alapértelmezett konfiguráció lesz használva.

Apache Spark-feladatdefiníció létrehozása JSON-fájl importálásával

Egy meglévő helyi JSON-fájlt importálhat az Azure Synapse-munkaterületre az Apache Spark-feladatdefiníció-kezelő Műveletek (...) menüjéből egy új Apache Spark-feladatdefiníció létrehozásához.

importálási definíció létrehozása

A Spark-feladatdefiníció teljes mértékben kompatibilis a Livy API-val. A helyi JSON-fájlban további paramétereket is hozzáadhat más Livy-tulajdonságokhoz (Livy Docs – REST API (apache.org). A Spark konfigurációval kapcsolatos paramétereit is megadhatja a konfigurációs tulajdonságban az alább látható módon. Ezután importálhatja a JSON-fájlt, hogy létrehozzon egy új Apache Spark-feladatdefiníciót a kötegelt feladathoz. Példa JSON értékre a Spark-definíció importálásához:

   {
  "targetBigDataPool": {
    "referenceName": "socdemolarge",
    "type": "BigDataPoolReference"
  },
  "requiredSparkVersion": "2.3",
  "language": "scala",
  "jobProperties": {
    "name": "robinSparkDefinitiontest",
    "file": "adl://socdemo-c14.azuredatalakestore.net/users/robinyao/wordcount.jar",
    "className": "WordCount",
    "args": [
      "adl://socdemo-c14.azuredatalakestore.net/users/robinyao/shakespeare.txt"
    ],
    "jars": [],
    "files": [],
    "conf": {
      "spark.dynamicAllocation.enabled": "false",
      "spark.dynamicAllocation.minExecutors": "2",
      "spark.dynamicAllocation.maxExecutors": "2"
    },
    "numExecutors": 2,
    "executorCores": 8,
    "executorMemory": "24g",
    "driverCores": 8,
    "driverMemory": "24g"
  }
}

egyéb livy tulajdonságok

Meglévő Apache Spark-feladatdefiníciós fájl exportálása

A meglévő Apache Spark-feladatdefiníciós fájlokat exportálhatja a helyi fájlba a Fájlkezelő Műveletek (...) menüjéből. A JSON-fájlt további Livy-tulajdonságokhoz is frissítheti, és szükség esetén újra importálhatja, hogy új feladatdefiníciót hozzon létre.

exportálási definíció létrehozása

exportálási definíció létrehozása 2

Apache Spark-feladatdefiníció elküldése kötegelt feladatként

Az Apache Spark-feladatdefiníció létrehozása után elküldheti azt egy Apache Spark-készletbe. Győződjön meg arról, hogy Ön a használni kívánt ADLS Gen2 fájlrendszer tárolási blobadat-közreműködője . Ha nem, manuálisan kell hozzáadnia az engedélyt.

1. forgatókönyv: Apache Spark-feladatdefiníció elküldése

  1. Nyisson meg egy Apache Spark-feladatdefiníciós ablakot a kijelölésével.

    Spark-feladatdefiníció megnyitása elküldendő

  2. A Küldés gombra kattintva elküldheti a projektet a kiválasztott Apache Spark-készletbe. Az Apache Spark-alkalmazás LogQuery-jének megtekintéséhez válassza a Spark monitorozási URL-címét .

    A Küldés gomb kiválasztása spark-feladat definíciójának elküldéséhez

    A Spark beküldése párbeszédpanel

2. forgatókönyv: Az Apache Spark-feladat futási folyamatának megtekintése

  1. Válassza a Monitorozás, majd az Apache Spark-alkalmazások lehetőséget. Megtalálhatja a beküldött Apache Spark-alkalmazást.

    Spark-alkalmazás megtekintése

  2. Ezután válasszon ki egy Apache Spark-alkalmazást, és megjelenik a SparkJobDefinition feladat ablaka. A feladat végrehajtásának előrehaladását innen tekintheti meg.

    Spark-alkalmazás LogQuery-jának megtekintése

3. forgatókönyv: Kimeneti fájl ellenőrzése

  1. Válassza a Data -Linked ->>Azure Data Lake Storage Gen2 (hozhaobdbj) lehetőséget, nyissa meg a korábban létrehozott eredménymappát, nyissa meg az eredménymappát, és ellenőrizze, hogy létrejött-e a kimenet.

    Kimeneti fájl megtekintése

Apache Spark-feladatdefiníció hozzáadása a folyamathoz

Ebben a szakaszban egy Apache Spark-feladatdefiníciót ad hozzá a folyamathoz.

  1. Nyisson meg egy meglévő Apache Spark-feladatdefiníciót.

  2. Válassza az Apache Spark-feladatdefiníció jobb felső részén található ikont, válassza a Meglévő folyamat vagy az Új folyamat lehetőséget. További információkért tekintse meg a Folyamat lapot.

    hozzáadás a folyamathoz1

    hozzáadás a folyamathoz2

Következő lépések

Ezután az Azure Synapse Studióval Power BI-adatkészleteket hozhat létre és kezelheti a Power BI-adatokat. További információ: Power BI-munkaterület csatolása Synapse-munkaterülethez .