Apache Spark-készletkonfigurációk az Azure Synapse Analyticsben
A Spark-készlet metaadatok készlete, amely meghatározza a számítási erőforrás követelményeit és a kapcsolódó viselkedési jellemzőket a Spark-példányok példányosításakor. Ezek a jellemzők magukban foglalják a nevet, a csomópontok számát, a csomópont méretét, a skálázási viselkedést és az élettartamot. A Spark-készletek önmagukban nem használnak fel erőforrásokat. A Spark-készletek létrehozásával kapcsolatban nem merülnek fel költségek. A díjak csak akkor merülnek fel, ha a Spark-feladat végrehajtása a cél Spark-készleten történik, és a Spark-példány igény szerint példányosítva lesz.
Megtudhatja, hogyan hozhat létre Spark-készletet, és itt tekintheti meg az összes tulajdonságukat – Ismerkedés a Spark-készletekkel a Synapse Analyticsben
Izolált számítás
Az Izolált számítás lehetőség nagyobb biztonságot nyújt a Spark számítási erőforrásai számára a nem megbízható szolgáltatásokból azáltal, hogy a fizikai számítási erőforrást egyetlen ügyfélnek szenteli. Az izolált számítási lehetőség olyan számítási feladatokhoz ideális, amelyek magas fokú elkülönítést igényelnek más ügyfelek számítási feladataitól a megfelelőségi és szabályozási követelményeknek való megfelelés érdekében. A Számítás elkülönítése lehetőség csak a XXXLarge (80 vCPU / 504 GB) csomópontmérettel érhető el, és csak a következő régiókban érhető el. Az izolált számítási lehetőség a készlet létrehozása után engedélyezhető vagy letiltható, bár előfordulhat, hogy a példányt újra kell indítani. Ha a jövőben engedélyezni szeretné ezt a funkciót, győződjön meg arról, hogy a Synapse-munkaterület egy elkülönített, számítással támogatott régióban jön létre.
- USA keleti régiója
- USA 2. nyugati régiója
- USA déli középső régiója
- USA-beli államigazgatás – Arizona
- USA-beli államigazgatás – Virginia
Csomópontok
Az Apache Spark-készletpéldány egy fő csomópontból és két vagy több munkavégző csomópontból áll, legalább három csomóponttal egy Spark-példányban. A fő csomópont további felügyeleti szolgáltatásokat futtat, például a Livyt, a Yarn Resource Managert, a Zookeepert és a Spark-illesztőprogramot. Minden csomópont olyan szolgáltatásokat futtat, mint a Node Agent és a Yarn Node Manager. Minden munkavégző csomópont futtatja a Spark-végrehajtó szolgáltatást.
Csomópontméretek
A Spark-készlet olyan csomópontméretekkel határozható meg, amelyek egy 4 virtuális magot és 32 GB memóriát tartalmazó kis számítási csomóponttól a 64 virtuális maggal rendelkező XXLarge számítási csomópontig és csomópontonként 432 GB memóriával rendelkező XXLarge számítási csomópontig terjednek. A csomópontméretek a készlet létrehozása után módosíthatók, de előfordulhat, hogy a példányt újra kell indítani.
Méret | virtuális mag | Memory (Memória) |
---|---|---|
Small | 4 | 32 GB |
Közepes | 8 | 64 GB |
Nagy | 16 | 128 GB |
XLarge | 32 | 256 GB |
XXLarge | 64 | 432 GB |
XXX Large (izolált számítás) | 80 | 504 GB |
Automatikus méretezés
Az Apache Spark-készletek automatikus méretezése lehetővé teszi a számítási erőforrások automatikus fel- és leskálázását a tevékenység mennyisége alapján. Ha az automatikus skálázási funkció engedélyezve van, meg kell adnia a skálázható csomópontok minimális és maximális számát. Ha az automatikus skálázási funkció le van tiltva, a beállított csomópontok száma változatlan marad. Ez a beállítás a készlet létrehozása után módosítható, bár előfordulhat, hogy a példányt újra kell indítani.
Rugalmas készlettároló
Az Apache Spark-készletek mostantól támogatják a rugalmas készlettárolást. A rugalmas készlettároló lehetővé teszi, hogy a Spark-motor figyelje a feldolgozó csomópont ideiglenes tárolását, és szükség esetén további lemezeket csatoljon. Az Apache Spark-készletek ideiglenes lemeztárolót használnak a készlet példányosítása közben. A Spark-feladatok shuffle map-kimeneteket írnak, adatokat kevernek és kiömlött adatokat a helyi virtuálisgép-lemezekre. A helyi lemezeket hasznosító műveletek például a rendezés, a gyorsítótár és a megőrzés. Ha elfogy az ideiglenes virtuálisgép-lemezterület, a Spark-feladatok a "Lemezterületen kívül" hiba miatt meghiúsulhatnak (java.io.IOException: Nincs szabad hely az eszközön). A "Lemezterületen kívül" hibák esetén a feladatok nagy része ne váltsa át az ügyfelet a Spark-feladatok újrakonfigurálásához (például a partíciók számának finomhangolásához) vagy fürtökhöz (például adjon hozzá több csomópontot a fürthöz). Előfordulhat, hogy ezek a hibák nem konzisztensek, és előfordulhat, hogy a felhasználó éles feladatok futtatásával nagy mértékben kísérletezik. Ez a folyamat több dimenzióban is költséges lehet a felhasználó számára:
- Elpazarolt idő. Az ügyfeleknek próbaidőszakon és hibán keresztül nagy mértékben ki kell kísérletezniük a feladatkonfigurációkkal, és a Spark belső metrikáit a megfelelő döntés érdekében ismerniük kell.
- Elpazarolt erőforrások. Mivel az éles feladatok különböző mennyiségű adatot képesek feldolgozni, a Spark-feladatok nem determinisztikus módon meghiúsulhatnak, ha az erőforrások nincsenek túl kiépítve. Vegyük például az adateltérés problémáját, ami azt eredményezheti, hogy néhány csomópont több lemezterületet igényel, mint mások. Jelenleg a Synapse-ban a fürt minden csomópontja ugyanolyan méretű lemezterületet kap, és a lemezterület növelése az összes csomóponton nem ideális megoldás, és óriási pazarláshoz vezet.
- A feladat végrehajtásának lassulása. Abban a hipotetikus forgatókönyvben, amikor a problémát csomópontok automatikus skálázásával oldjuk meg (feltételezve, hogy a költségek nem a végfelhasználó számára jelentenek problémát), a számítási csomópont hozzáadása még mindig költséges (néhány percet vesz igénybe), szemben a tárterület hozzáadásával (néhány másodpercet vesz igénybe).
Önnek nincs szükség műveletre, ezért kevesebb feladathibát kell látnia.
Feljegyzés
Az Azure Synapse Elastic Pool Storage jelenleg nyilvános előzetes verzióban érhető el. A nyilvános előzetes verzióban a rugalmas készlettároló használata díjmentes.
Automatikus szüneteltetés
Az automatikus szüneteltetési funkció egy beállított tétlenségi időszak után bocsátja ki az erőforrásokat, csökkentve az Apache Spark-készlet teljes költségét. A funkció engedélyezése után beállítható az inaktív percek száma. Az automatikus szüneteltetés funkció független az automatikus skálázási funkciótól. Az erőforrások szüneteltethetők, függetlenül attól, hogy az automatikus skálázás engedélyezve van vagy le van tiltva. Ez a beállítás a készlet létrehozása után módosítható, de az aktív munkameneteket újra kell indítani.