Egyidejűségi korlátok és várakozási sorba helyezése a Microsoft Fabrichez készült Apache Sparkban
A következőkre vonatkozik:✅ adatmérnök és Adattudomány a Microsoft Fabricben
A Microsoft Fabric lehetővé teszi a számítási egységek kapacitáson keresztüli lefoglalását, amely egy dedikált erőforráskészlet, amely egy adott időpontban használható. A kapacitás határozza meg, hogy egy erőforrás képes-e tevékenység elvégzésére vagy kimenet létrehozására. A különböző elemek egy adott időpontban eltérő kapacitást használnak fel. A Microsoft Fabric kapacitást kínál a Fabric termékváltozatain és próbaverzióin keresztül. További információ: Mi a kapacitás?
Amikor a felhasználók Microsoft Fabric-kapacitást hoznak létre az Azure-ban, az elemzési számítási feladatok mérete alapján választják ki a kapacitás méretét. Az Apache Sparkban a felhasználók két Apache Spark virtuális magot kapnak minden olyan kapacitásegységhez, amit a termékváltozat részeként lefoglalnak.
Egy kapacitásegység = két Spark virtuális mag
Miután megvásárolták a kapacitást, a rendszergazdák munkaterületeket hozhatnak létre a kapacitáson belül a Microsoft Fabricben. A kapacitáshoz társított Spark virtuális magok meg vannak osztva az Összes Apache Spark-alapú elem, például a jegyzetfüzetek, az Apache Spark-feladatdefiníciók és az ezekben a munkaterületeken létrehozott lakehouse-k között.
Egyidejűség szabályozása és várólistára helyezése
A Spark for Fabric egy magalapú szabályozási és üzenetsor-kezelési mechanizmust kényszerít ki, amelyben a felhasználók a megvásárolt Fabric-kapacitás-termékváltozatok alapján küldhetnek be feladatokat. Az üzenetsor-kezelési mechanizmus egy egyszerű FIFO-alapú üzenetsor, amely ellenőrzi a rendelkezésre álló feladathelyeket, és automatikusan újrapróbálkozza a feladatokat a kapacitás elérhetővé válása után. Amikor a felhasználók olyan jegyzetfüzet- vagy lakehouse-feladatokat küldenek, mint például a Load to Table, ha kapacitásuk a maximális kihasználtságon van, mert egyidejűleg futnak a megvásárolt Fabric-kapacitás termékváltozatához elérhető Spark virtuális magok, akkor az üzenet szabályozza őket
430-es HTTP-válaszkód: Ez a Spark-feladat nem futtatható, mert elérte a Spark számítási vagy API-sebességkorlátját. A Spark-feladat futtatásához szakítsa meg az aktív Spark-feladatot a Monitorozási központon keresztül, vagy válasszon egy nagyobb kapacitás-termékváltozatot, vagy próbálkozzon újra később.
Ha engedélyezve van az üzenetsor-készítés, a folyamatból aktivált jegyzetfüzet-feladatok, valamint a feladatütemező és a Spark-feladatdefiníciók bekerülnek az üzenetsorba, és automatikusan újrapróbálkozásra kerülnek a kapacitás felszabadításakor. Az üzenetsor lejárata a feladat beküldési időpontjától számított 24 órára van beállítva. Ezt követően a feladatokat újra el kell küldeni.
A hálókapacitások kipukkanással engedélyezve vannak, ami lehetővé teszi a számítási feladatok végrehajtásának felgyorsítása érdekében vásároltnál több számítási mag használatát. Az Apache Spark-számítási feladatok kipukkadása lehetővé teszi a felhasználók számára, hogy összesen 3X-tal küldjenek el feladatokat a megvásárolt Spark virtuális magokkal.
Feljegyzés
A kipukkadási tényező csak a Spark virtuális magok teljes számát növeli az egyidejűség érdekében, de nem növeli a maximális magokat feladatonként. A felhasználók nem küldhetnek be olyan feladatot, amely több magot igényel, mint amit a Fabric-kapacitás kínál.
Az alábbi szakasz a Microsoft Fabric kapacitás-termékváltozatokon alapuló Spark-számítási feladatok különböző magalapú korlátait sorolja fel:
Hálókapacitás termékváltozata | Egyenértékű Power BI-termékváltozat | Spark virtuális magok | Spark virtuális magok maximális száma a Burst Factor használatával | Várólista korlátja |
---|---|---|---|---|
F2 | - | 4 | 20 | 4 |
F4 | - | 8 | 24 | 4 |
F8 | - | 16 | 48 | 8 |
F16 | - | 32 | 96 | 16 |
F32 | - | 64 | 192 | 32 |
F64 | P1 | 128 | 384 | 64 |
F128 | P2 | 256 | 768 | 128 |
F256 | P3 | 512 | 1536 | 256 |
F512 | P4 | 1024 | 3072 | 512 |
F1024 | - | 2048 | 6144 | 1024 |
F2048 | - | 4096 | 12288 | 2048 |
Próbakapacitás | P1 | 128 | 128 | N.a. |
Példaszámítás: Az F64 termékváltozat 128 Spark virtuális magot kínál. Az F64 SKU-hoz alkalmazott kipukkadási tényező 3, amely összesen 384 Spark virtuális magot ad. A kipukkadási tényező csak az egyidejűség elősegítésére van alkalmazva, és nem növeli az egyetlen Spark-feladathoz elérhető maximális magokat. Ez azt jelenti, hogy egyetlen Jegyzetfüzet- vagy Spark-feladatdefiníció vagy lakehouse-feladat legfeljebb 128 virtuális mag készletkonfigurációját használhatja, és egyidejűleg 3, azonos konfigurációval rendelkező feladat is futtatható. Ha a jegyzetfüzetek kisebb számítási konfigurációt használnak, egyidejűleg futtathatók, amíg a maximális kihasználtság eléri a 384 SparkVcore-korlátot.
Feljegyzés
A feladatok várólistája 24 órás lejárati idővel rendelkezik, amely után a rendszer törli őket, és a felhasználóknak újra el kell küldeniük őket a feladatok végrehajtásához.
A Spark for Fabric szabályozása nem kényszerített tetszőleges feladatalapú korlátozásokat, és a szabályozás csak a megvásárolt Fabric-kapacitás termékváltozathoz engedélyezett magok számán alapul. A feladatbeléptetés alapértelmezés szerint optimista belépés-vezérlés lesz, ahol a feladatokat a minimális alapkövetelmények alapján fogadják el. További információ az optimista feladatbeléptetési feladatbeléptetésről és -kezelésről , ha az alapértelmezett készlet (kezdőkészlet) beállítás van kiválasztva a munkaterületen, az alábbi táblázat a maximális egyidejűségi feladatkorlátokat sorolja fel.
További információ az alapkészlet alapértelmezett konfigurációiról a Hálókapacitás termékváltozata alapján, a kezdőkészletek konfigurálásával.
Feladatszint-kipukkadás
A rendszergazdák az Apache Spark-készleteiket úgy konfigurálhatják, hogy a maximális Spark-magokat kihasználják a teljes kapacitáshoz elérhető kipukkadási tényezővel. Például egy munkaterület rendszergazdája, amelynek munkaterülete egy F64 Fabric-kapacitáshoz van csatlakoztatva, most már 384 Spark virtuális magra konfigurálhatja a Spark-készletet (kezdőkészlet vagy egyéni készlet), ahol a Starter-készletek maximális csomópontjai 48-ra állíthatók be, vagy a rendszergazdák beállíthatnak egy XX nagy csomópontméretű készletet 6 maximális csomóponttal.
Kapcsolódó tartalom
- Ismerkedés az Apache Spark-munkaterület felügyeleti beállításaival a Microsoft Fabricben.
- Ismerje meg a Fabric-alapú Apache Spark-számításokat és az adatelemzési szolgáltatásokat.