Megosztás a következőn keresztül:


Egyidejűségi korlátok és várakozási sorba helyezése a Microsoft Fabrichez készült Apache Sparkban

A következőkre vonatkozik:✅ adatmérnök és Adattudomány a Microsoft Fabricben

A Microsoft Fabric lehetővé teszi a számítási egységek kapacitáson keresztüli lefoglalását, amely egy dedikált erőforráskészlet, amely egy adott időpontban használható. A kapacitás határozza meg, hogy egy erőforrás képes-e tevékenység elvégzésére vagy kimenet létrehozására. A különböző elemek egy adott időpontban eltérő kapacitást használnak fel. A Microsoft Fabric kapacitást kínál a Fabric termékváltozatain és próbaverzióin keresztül. További információ: Mi a kapacitás?

Amikor a felhasználók Microsoft Fabric-kapacitást hoznak létre az Azure-ban, az elemzési számítási feladatok mérete alapján választják ki a kapacitás méretét. Az Apache Sparkban a felhasználók két Apache Spark virtuális magot kapnak minden olyan kapacitásegységhez, amit a termékváltozat részeként lefoglalnak.

Egy kapacitásegység = két Spark virtuális mag

Miután megvásárolták a kapacitást, a rendszergazdák munkaterületeket hozhatnak létre a kapacitáson belül a Microsoft Fabricben. A kapacitáshoz társított Spark virtuális magok meg vannak osztva az Összes Apache Spark-alapú elem, például a jegyzetfüzetek, az Apache Spark-feladatdefiníciók és az ezekben a munkaterületeken létrehozott lakehouse-k között.

Egyidejűség szabályozása és várólistára helyezése

A Spark for Fabric egy magalapú szabályozási és üzenetsor-kezelési mechanizmust kényszerít ki, amelyben a felhasználók a megvásárolt Fabric-kapacitás-termékváltozatok alapján küldhetnek be feladatokat. Az üzenetsor-kezelési mechanizmus egy egyszerű FIFO-alapú üzenetsor, amely ellenőrzi a rendelkezésre álló feladathelyeket, és automatikusan újrapróbálkozza a feladatokat a kapacitás elérhetővé válása után. Amikor a felhasználók olyan jegyzetfüzet- vagy lakehouse-feladatokat küldenek, mint például a Load to Table, ha kapacitásuk a maximális kihasználtságon van, mert egyidejűleg futnak a megvásárolt Fabric-kapacitás termékváltozatához elérhető Spark virtuális magok, akkor az üzenet szabályozza őket

430-es HTTP-válaszkód: Ez a Spark-feladat nem futtatható, mert elérte a Spark számítási vagy API-sebességkorlátját. A Spark-feladat futtatásához szakítsa meg az aktív Spark-feladatot a Monitorozási központon keresztül, vagy válasszon egy nagyobb kapacitás-termékváltozatot, vagy próbálkozzon újra később.

Ha engedélyezve van az üzenetsor-készítés, a folyamatból aktivált jegyzetfüzet-feladatok, valamint a feladatütemező és a Spark-feladatdefiníciók bekerülnek az üzenetsorba, és automatikusan újrapróbálkozásra kerülnek a kapacitás felszabadításakor. Az üzenetsor lejárata a feladat beküldési időpontjától számított 24 órára van beállítva. Ezt követően a feladatokat újra el kell küldeni.

A hálókapacitások kipukkanással engedélyezve vannak, ami lehetővé teszi a számítási feladatok végrehajtásának felgyorsítása érdekében vásároltnál több számítási mag használatát. Az Apache Spark-számítási feladatok kipukkadása lehetővé teszi a felhasználók számára, hogy összesen 3X-tal küldjenek el feladatokat a megvásárolt Spark virtuális magokkal.

Feljegyzés

A kipukkadási tényező csak a Spark virtuális magok teljes számát növeli az egyidejűség érdekében, de nem növeli a maximális magokat feladatonként. A felhasználók nem küldhetnek be olyan feladatot, amely több magot igényel, mint amit a Fabric-kapacitás kínál.

Az alábbi szakasz a Microsoft Fabric kapacitás-termékváltozatokon alapuló Spark-számítási feladatok különböző magalapú korlátait sorolja fel:

Hálókapacitás termékváltozata Egyenértékű Power BI-termékváltozat Spark virtuális magok Spark virtuális magok maximális száma a Burst Factor használatával Várólista korlátja
F2 - 4 20 4
F4 - 8 24 4
F8 - 16 48 8
F16 - 32 96 16
F32 - 64 192 32
F64 P1 128 384 64
F128 P2 256 768 128
F256 P3 512 1536 256
F512 P4 1024 3072 512
F1024 - 2048 6144 1024
F2048 - 4096 12288 2048
Próbakapacitás P1 128 128 N.a.

Példaszámítás: Az F64 termékváltozat 128 Spark virtuális magot kínál. Az F64 SKU-hoz alkalmazott kipukkadási tényező 3, amely összesen 384 Spark virtuális magot ad. A kipukkadási tényező csak az egyidejűség elősegítésére van alkalmazva, és nem növeli az egyetlen Spark-feladathoz elérhető maximális magokat. Ez azt jelenti, hogy egyetlen Jegyzetfüzet- vagy Spark-feladatdefiníció vagy lakehouse-feladat legfeljebb 128 virtuális mag készletkonfigurációját használhatja, és egyidejűleg 3, azonos konfigurációval rendelkező feladat is futtatható. Ha a jegyzetfüzetek kisebb számítási konfigurációt használnak, egyidejűleg futtathatók, amíg a maximális kihasználtság eléri a 384 SparkVcore-korlátot.

Feljegyzés

A feladatok várólistája 24 órás lejárati idővel rendelkezik, amely után a rendszer törli őket, és a felhasználóknak újra el kell küldeniük őket a feladatok végrehajtásához.

A Spark for Fabric szabályozása nem kényszerített tetszőleges feladatalapú korlátozásokat, és a szabályozás csak a megvásárolt Fabric-kapacitás termékváltozathoz engedélyezett magok számán alapul. A feladatbeléptetés alapértelmezés szerint optimista belépés-vezérlés lesz, ahol a feladatokat a minimális alapkövetelmények alapján fogadják el. További információ az optimista feladatbeléptetési feladatbeléptetésről és -kezelésről , ha az alapértelmezett készlet (kezdőkészlet) beállítás van kiválasztva a munkaterületen, az alábbi táblázat a maximális egyidejűségi feladatkorlátokat sorolja fel.

További információ az alapkészlet alapértelmezett konfigurációiról a Hálókapacitás termékváltozata alapján, a kezdőkészletek konfigurálásával.

Feladatszint-kipukkadás

A rendszergazdák az Apache Spark-készleteiket úgy konfigurálhatják, hogy a maximális Spark-magokat kihasználják a teljes kapacitáshoz elérhető kipukkadási tényezővel. Például egy munkaterület rendszergazdája, amelynek munkaterülete egy F64 Fabric-kapacitáshoz van csatlakoztatva, most már 384 Spark virtuális magra konfigurálhatja a Spark-készletet (kezdőkészlet vagy egyéni készlet), ahol a Starter-készletek maximális csomópontjai 48-ra állíthatók be, vagy a rendszergazdák beállíthatnak egy XX nagy csomópontméretű készletet 6 maximális csomóponttal.

  • Ismerkedés az Apache Spark-munkaterület felügyeleti beállításaival a Microsoft Fabricben.
  • Ismerje meg a Fabric-alapú Apache Spark-számításokat és az adatelemzési szolgáltatásokat.