A Fabric adatmérnök ing és az Azure Synapse Spark összehasonlítása

Cikk
11/15/2023

A Fabric adatmérnök ing és az Azure Synapse Spark összehasonlítása összefoglalja a főbb funkciókat, és részletes elemzést nyújt különböző kategóriákban, például Spark-készleteket, konfigurációkat, kódtárakat, jegyzetfüzeteket és Spark-feladatdefiníciókat.

Az alábbi táblázat az Azure Synapse Sparkot és a Fabric Sparkot hasonlítja össze különböző kategóriákban:

Kategória	Azure Synapse Spark	Háló Spark
Spark-készletek	Spark-készlet - -	Kezdőkészlet / egyéni készlete V-Order Magas egyidejűség
Spark-konfigurációk	Készletszint Jegyzetfüzet vagy Spark-feladat definíciójának szintje	Környezeti szint Jegyzetfüzet vagy Spark-feladat definíciójának szintje
Spark-kódtárak	Munkaterületszintű csomagok Készletszintű csomagok Beágyazott csomagok	- Környezeti kódtárak Beágyazott kódtárak
Források	Jegyzetfüzet (Python, Scala, Spark SQL, R, .NET) Spark-feladatdefiníció (Python, Scala, .NET) Synapse-adatfolyamok Folyamattevékenységek (jegyzetfüzet, SJD)	Notebook (Python, Scala, Spark SQL, R) Spark-feladatdefiníció (Python, Scala, R) Data Factory-adatfolyamok Folyamattevékenységek (jegyzetfüzet, SJD)
Adatok	Elsődleges tároló (ADLS Gen2) Adattárolás (fürt-/régióalapú)	Elsődleges tároló (OneLake) Adattárolás (kapacitás/régióalapú)
Metaadatok	Belső Hive-metaadattár (HMS) Külső HMS (az Azure SQL DB használatával)	Belső HMS (lakehouse) -
Kapcsolatok	Összekötő típusa (társított szolgáltatások) Adatforrások Adatforrás-conn. munkaterületi identitással	Összekötő típusa (DMTS) Adatforrások -
Biztonság	RBAC és hozzáférés-vezérlés Tárolási ACL-ek (ADLS Gen2) Privát hivatkozások Felügyelt virtuális hálózat (hálózati elkülönítés) Synapse-munkaterület identitása Adatszűrés elleni védelem (DEP) Szolgáltatáscímkék Key Vault (mssparkutils/ társított szolgáltatáson keresztül)	RBAC és hozzáférés-vezérlés OneLake RBAC Privát hivatkozások Felügyelt virtuális hálózat Munkaterület identitása - Szolgáltatáscímkék Key Vault (mssparkutils használatával)
DevOps	Azure DevOps-integráció CI/CD (nincs beépített támogatás)	Azure DevOps-integráció Üzembehelyezési folyamatok
Fejlesztői felület	IDE-integráció (IntelliJ) Synapse Studio felhasználói felület Együttműködés (munkaterületek) Livy API API/SDK mssparkutils	IDE-integráció (VS Code) Háló felhasználói felülete Együttműködés (munkaterületek és megosztás) - API/SDK mssparkutils
Naplózás és figyelés	Spark Advisor Beépített monitorozási készletek és feladatok (a Synapse Studióval) Spark-előzménykiszolgáló Prometheus/Grafana Log Analytics Tárfiók Event Hubs	Spark Advisor Beépített monitorozási készletek és feladatok (a Monitoring Hubon keresztül) Spark-előzménykiszolgáló - - - -
Üzletmenet-folytonosság és vészhelyreállítás (BCDR)	BCDR (data) ADLS Gen2	BCDR (data) OneLake

Szempontok és korlátozások:

DMTS-integráció: A DMTS nem használható jegyzetfüzeteken és Spark-feladatdefiníciókon keresztül.
Számítási feladatszintű RBAC: A háló négy különböző munkaterületi szerepkört támogat. További információ: Szerepkörök a Munkaterületeken a Microsoft Fabricben.
Felügyelt identitás: A Fabric jelenleg nem támogatja a jegyzetfüzetek és Spark-feladatdefiníciók futtatását a jegyzetfüzetekben lévő Azure KeyVault munkaterületi identitásának vagy felügyelt identitásának használatával.
CI/CD: Használhatja a Fabric API/SDK-t és az üzembehelyezési folyamatokat.
A Livy API és a Spark-feladatok beküldése és kezelése: A Livy API az ütemterv része, de még nem érhető el a Fabricben. A Háló felhasználói felületén jegyzetfüzeteket és Spark-feladatdefiníciókat kell létrehoznia.
Spark-naplók és metrikák: Az Azure Synapse-ban Spark-naplókat és metrikákat bocsáthat ki a saját tárolójába, például a Log Analyticsbe, a blobba és az Event Hubsba. A munkaterülethez tartozó Spark-alkalmazások listáját az API-ból is lekérheti. Jelenleg mindkét képesség nem érhető el a Fabricben.
Egyéb szempontok:
- JDBC: A JDBC-kapcsolat támogatása jelenleg nem érhető el a Fabricben.

Spark-készlet összehasonlítása

Az alábbi táblázat az Azure Synapse Spark- és Fabric Spark-készleteket hasonlítja össze.

Spark-beállítás	Azure Synapse Spark	Háló Spark
Élő készlet (előmeleg példányok)	-	Igen, Kezdőkészletek
Egyéni készlet	Igen	Igen
Spark-verziók (futtatókörnyezet)	2.4, 3.1, 3.2, 3.3, 3.4	3.3, 3.4, 3.5
Automatikus méretezés	Igen	Igen
Végrehajtók dinamikus lefoglalása	Igen, legfeljebb 200	Igen, kapacitás alapján
Állítható csomópontméretek	Igen, 3-200	Igen, 1-alapú kapacitás
Minimális csomópontkonfiguráció	3 csomópont	1 csomópont
Csomópontméret család	Memóriaoptimalizált, GPU gyorsított	Memóriaoptimalizált
Csomópont mérete	Small-XXXLarge	Small-XXLarge
Automatikus fóliázás	Igen, testreszabható legalább 5 perc	Igen, nemcustomizable 2 perc
Magas egyidejűség	Nem	Igen
V-Order	Nem	Igen
Spark autotune	Nem	Igen
Natív végrehajtási motor	Nem	Igen
Egyidejűségi korlátok	Rögzített méretű lemez	Kapacitáson alapuló változó
Több Spark-készlet	Igen	Igen (környezetek)
Intelligens gyorsítótár	Igen	Igen
API/SDK-támogatás	Igen	Igen

Futtatókörnyezet: A Fabric nem támogatja a Spark 2.4, 3.1 és 3.2 verziót. A Fabric Spark támogatja a Spark 3.3-at a Delta 2.2-vel az 1.1-s futtatókörnyezetben, a Spark 3.4-et a Delta 2.4-et az 1.2-ben, a Spark 3.5-öt pedig a Delta 3.0-val a Futtatókörnyezet 1.3-on belül.

Automatikus skálázás: Az Azure Synapse Sparkban a készlet a csomópont méretétől függetlenül akár 200 csomópontot is skálázhat. A Hálóban a csomópontok maximális száma csomópontméretnek és kiépített kapacitásnak van kitéve. Lásd a következő példát az F64 termékváltozathoz.

Spark-készlet mérete	Azure Synapse Spark	Fabric Spark (egyéni készlet, termékváltozat F64)
Small	Min: 3, Max: 200	Min: 1, Max: 32
Közepes	Min: 3, Max: 200	Min: 1, Max: 16
Nagy	Min: 3, Max: 200	Min: 1, Max: 8
X-Nagy	Min: 3, Max: 200	Min: 1, Max: 4
XX-nagy	Min: 3, Max: 200	Min: 1, Max: 2

Állítható csomópontméretek: Az Azure Synapse Sparkban legfeljebb 200 csomópontot használhat. A Fabricben az egyéni Spark-készletben elérhető csomópontok száma a csomópont méretétől és a Háló kapacitásától függ. A kapacitás annak mértéke, hogy mennyi számítási teljesítményt használhat az Azure-ban. Ennek egyik módja, hogy két Spark virtuális mag (a Spark számítási teljesítménye) egy kapacitásegységnek felel meg. Egy Hálókapacitás termékváltozat F64-ben például 64 kapacitásegység található, ami 128 Spark virtuális magnak felel meg. Ha tehát kis csomópontméretet választ, legfeljebb 32 csomópont lehet a készletben (128/4 = 32). Ezután a kapacitásban/virtuális magokban lévő virtuális magok száma csomópontméretenként = az elérhető csomópontok teljes száma. További információ: Spark Compute.
Csomópontméret család: A Fabric Spark-készletek egyelőre csak a memóriaoptimalizált csomópontméretcsaládot támogatják. Ha GPU-val felgyorsított SKU Spark-készletet használ az Azure Synapse-ban, azok nem érhetők el a Fabricben.
Csomópontméret: Az xx-nagy csomópont mérete 432 GB memóriával rendelkezik az Azure Synapse-ban, míg ugyanez a csomópontméret 512 GB a Hálóban, beleértve a 64 virtuális magot. A többi csomópontméret (kis és x-nagy) ugyanazokkal a virtuális magokkal és memóriával rendelkezik az Azure Synapse-ban és a Fabricben is.
Automatikus szüneteltetés: Ha engedélyezi az Azure Synapse Sparkban, az Apache Spark-készlet automatikusan szünetel egy megadott mennyiségű tétlenségi idő után. Ez a beállítás az Azure Synapse-ban konfigurálható (legalább 5 perc), de az egyéni készletek nem módosítható alapértelmezett automatikus 2 perces automatikus megőrzési időtartamúak a Fabricben a munkamenet lejárta után. Az alapértelmezett munkamenet-lejárat 20 percre van beállítva a Fabricben.
Magas egyidejűség: A Háló támogatja a jegyzetfüzetekben a magas egyidejűséget. További információ: Magas egyidejűségi mód a Fabric Sparkban.
Egyidejűségi korlátok: Az egyidejűség szempontjából az Azure Synapse Spark legfeljebb 50 egyidejűleg futó feladatot futtat Spark-készletenként, és Spark-készletenként 200 várólistás feladatot. Az aktív feladatok maximális száma Spark-készletenként 250, munkaterületenként 1000. A Microsoft Fabric Sparkban a kapacitás-termékváltozatok határozzák meg az egyidejűségi korlátokat. Az SKU-k eltérő korlátozásokkal rendelkeznek az egyidejű feladatok maximális száma 1 és 512 között. Emellett a Fabric Spark dinamikus tartalékalapú szabályozási rendszerrel rendelkezik az egyidejűség kezelésére, és zökkenőmentes működést biztosít még a csúcsidőszakokban is. További információ: Egyidejűségi korlátok és várakozási sorok a Microsoft Fabric Spark és a Fabric kapacitásaiban.
Több Spark-készlet: Ha több Spark-készletet szeretne használni, a Fabric-környezetek használatával válasszon ki egy készletet jegyzetfüzet vagy Spark-feladatdefiníció alapján. További információ: Környezet létrehozása, konfigurálása és használata a Microsoft Fabricben.

Feljegyzés

Megtudhatja, hogyan migrálhatja az Azure Synapse Spark-készleteket a Fabricbe.

Spark-konfigurációk összehasonlítása

A Spark-konfigurációk különböző szinteken alkalmazhatók:

Környezeti szint: Ezeket a konfigurációkat használja a rendszer a környezet összes Spark-feladatának alapértelmezett konfigurációjaként.
Beágyazott szint: Spark-konfigurációk beágyazott beállítása jegyzetfüzetek és Spark-feladatdefiníciók használatával.

Bár mindkét lehetőség támogatott az Azure Synapse Sparkban és a Fabricben, van néhány szempont:

Spark-konfiguráció	Azure Synapse Spark	Háló Spark
Környezeti szint	Igen, készletek	Igen, környezetek
Beágyazott	Igen	Igen
Importálás és exportálás	Igen	Igen (.yml környezetekből)
API/SDK-támogatás	Igen	Igen

Környezeti szint: Az Azure Synapse-ban több Spark-konfigurációt is meghatározhat, és hozzárendelheti őket különböző Spark-készletekhez. Ezt a Fabricben környezetek használatával teheti meg.
Beágyazott: Az Azure Synapse-ban a jegyzetfüzetek és a Spark-feladatok is támogatják a különböző Spark-konfigurációk csatolását. A Fabricben a munkamenetszintű konfigurációk a beállítással spark.conf.set(<conf_name>, <conf_value>) vannak testre szabva. Kötegelt feladatok esetén a SparkConfon keresztül is alkalmazhat konfigurációkat.
Importálás/exportálás: Ez a Lehetőség a Spark-konfigurációkhoz a Fabric-környezetekben érhető el.
Egyéb szempontok:
- Nem módosítható Spark-konfigurációk: Egyes Spark-konfigurációk nem módosíthatók. Ha megjelenik az üzenet AnalysisException: Can't modify the value of a Spark config: <config_name>, a kérdéses tulajdonság nem módosítható.
- FAIR scheduler: A FAIR schedulert magas egyidejűségi módban használják.
- V-Order: A V-Order a Fabric Spark-készletekben alapértelmezés szerint engedélyezett parquet-fájlokra alkalmazott írási időoptimalizálás.
- Optimalizált írás: Az optimalizált írás alapértelmezés szerint le van tiltva az Azure Synapse-ban, de alapértelmezés szerint engedélyezve van a Fabric Spark esetében.

Feljegyzés

Megtudhatja, hogyan migrálhatja a Spark-konfigurációkat az Azure Synapse-ból a Fabricbe.

Spark-kódtárak összehasonlítása

A Spark-kódtárakat különböző szinteken alkalmazhatja:

Munkaterület szintje: Ezeket a kódtárakat nem töltheti fel/telepítheti a munkaterületre, és később hozzárendelheti őket egy adott Spark-készlethez az Azure Synapse-ban.
Környezeti szint: Tárakat feltölthet vagy telepíthet egy környezetbe. A környezetszintű kódtárak a környezetben futó összes jegyzetfüzet és Spark-feladatdefiníció számára elérhetők.
Beágyazott: A környezeti szintű kódtárak mellett beágyazott kódtárakat is megadhat. Például egy jegyzetfüzet-munkamenet elején.

Szempontok:

Spark-kódtár	Azure Synapse Spark	Háló Spark
Munkaterület szintje	Igen	Nem
Környezeti szint	Igen, készletek	Igen, környezetek
Beágyazott	Igen	Igen
Importálás és exportálás	Igen	Igen
API/SDK-támogatás	Igen	Igen

Egyéb szempontok:
- Beépített kódtárak: A Fabric és az Azure Synapse közös maggal rendelkezik a Sparkban, de némileg eltérhetnek a futtatókörnyezeti kódtárak különböző támogatásától. A kód használata általában kompatibilis néhány kivétellel. Ebben az esetben előfordulhat, hogy a felhasználóknak fordításra, egyéni kódtárak hozzáadására és a szintaxis módosítására van szükségük. A beépített Fabric Spark-futtatókörnyezeti kódtárakat itt találja.

Feljegyzés

Megtudhatja, hogyan migrálhatja az Azure Synapse Spark-kódtárakat a Fabricbe.

Jegyzetfüzetek összehasonlítása

A jegyzetfüzetek és a Spark-feladatdefiníciók az Apache Spark-feladatok fabricbeli fejlesztésének elsődleges kódelemei. Van néhány különbség az Azure Synapse Spark-jegyzetfüzetek és a Fabric Spark-jegyzetfüzetek között:

Jegyzetfüzet-képesség	Azure Synapse Spark	Háló Spark
Importálás és exportálás	Igen	Igen
Munkamenet-konfiguráció	Igen, felhasználói felület és beágyazott	Igen, felhasználói felület (környezet) és beágyazott
IntelliSense	Igen	Igen
mssparkutils	Igen	Igen
Jegyzetfüzet-erőforrások	Nem	Igen
Együttműködés	Nem	Igen
Magas egyidejűség	Nem	Igen
.NET a Spark C-hez#	Igen	Nem
Folyamattevékenység támogatása	Igen	Igen
Beépített ütemezett futtatás támogatása	Nem	Igen
API/SDK-támogatás	Igen	Igen

mssparkutils: Mivel a DMTS-kapcsolatok még nem támogatottak a Fabricben, csak getToken a getSecret Fabric mssparkutils.credentialsfor .
Jegyzetfüzet-erőforrások: A hálójegyzetfüzetek Unix-szerű fájlrendszert biztosítanak a mappák és fájlok kezeléséhez. További információ: Microsoft Fabric-jegyzetfüzetek használata.
Együttműködés: A Háló jegyzetfüzet egy együttműködési elem, amely támogatja, hogy több felhasználó szerkessze ugyanazt a jegyzetfüzetet. További információ: Microsoft Fabric-jegyzetfüzetek használata.
Magas egyidejűség: Az In Fabricben jegyzetfüzeteket csatolhat egy magas egyidejűségi munkamenethez. Ez a lehetőség alternatíva a ThreadPoolExecutort használó felhasználók számára az Azure Synapse-ban. További információt a Fabric-jegyzetfüzetek magas egyidejűségi módjának konfigurálása című témakörben talál.
A Spark C#-hoz készült .NET: A Háló nem támogatja a .NET Sparkot (C#). Javasoljuk azonban, hogy a C# vagy F# nyelven írt meglévő számítási feladatokkal rendelkező felhasználók áttelepüljenek a Pythonba vagy a Scalába.
Beépített ütemezett futtatás támogatása: A Háló támogatja a jegyzetfüzetek ütemezett futtatását.
Egyéb szempontok:
- A jegyzetfüzetek olyan funkcióit is használhatja, amelyek csak a Spark egy adott verziójában támogatottak. Ne feledje, hogy a Spark 2.4 és 3.1 nem támogatott a Fabricben.
- Ha a jegyzetfüzet vagy a Spark-feladat különböző adatforrás-kapcsolatokkal vagy csatlakoztatási pontokkal rendelkező társított szolgáltatást használ, a Spark-feladatokat úgy kell módosítania, hogy alternatív módszereket használjon a külső adatforrásokhoz és fogadókhoz való kapcsolatok kezeléséhez. A Spark-kód használatával csatlakozhat adatforrásokhoz az elérhető Spark-kódtárak használatával.

Feljegyzés

Megtudhatja, hogyan migrálhatja a jegyzetfüzeteket az Azure Synapse-ból a Fabricbe.

Spark-feladatdefiníciók összehasonlítása

Fontos Spark-feladatdefiníciós szempontok:

Spark-feladat képessége	Azure Synapse Spark	Háló Spark
PySpark	Igen	Igen
Scala	Igen	Igen
.NET a Spark C-hez#	Igen	Nem
SparkR	Nem	Igen
Importálás és exportálás	Igen (felhasználói felület)	Nem
Folyamattevékenység támogatása	Igen	Igen
Beépített ütemezett futtatás támogatása	Nem	Igen
Újrapróbálkozási szabályzatok	Nem	Igen
API/SDK-támogatás	Igen	Igen

Spark-feladatok: A .py/. R/jar fájlok. A Fabric támogatja a SparkR-t. A Spark-feladatok definíciója támogatja a referenciafájlokat, a parancssori argumentumokat, a Spark-konfigurációkat és a lakehouse-hivatkozásokat.
Importálás/exportálás: Az Azure Synapse-ban json-alapú Spark-feladatdefiníciókat importálhat/exportálhat a felhasználói felületről. Ez a funkció még nem érhető el a Hálóban.
A Spark C#-hoz készült .NET: A Háló nem támogatja a .NET Sparkot (C#). A javaslat azonban az, hogy a C# vagy F# nyelven írt meglévő számítási feladatokkal rendelkező felhasználók áttelepüljenek a Pythonba vagy a Scalába.
Folyamattevékenység támogatása: A Hálóban lévő adatfolyamok még nem tartalmazzák a Spark-feladatdefiníciós tevékenységet. Ütemezett futtatásokat is használhat, ha rendszeresen futtatni szeretné a Spark-feladatot.
Beépített ütemezett futtatás támogatása: A Háló támogatja a Spark-feladatok definíciójához tartozó ütemezett futtatásokat.
Újrapróbálkozási szabályzatok: Ezzel a beállítással a felhasználók korlátlan ideig futtathatnak Spark-strukturált streamelési feladatokat.

Feljegyzés

Megtudhatja, hogyan migrálhatja a Spark-feladatdefiníciókat az Azure Synapse-ból a Fabricbe.

Hive Metastore (HMS) összehasonlítása

A Hive MetaStore (HMS) eltérései és szempontjai:

HMS-típus	Azure Synapse Spark	Háló Spark
Belső HMS	Igen	Igen (lakehouse)
Külső HMS	Igen	Nem

Külső HMS: A Fabric jelenleg nem támogatja a katalógus API-t és a külső Hive Metastore (HMS) elérését.

Feljegyzés

Megtudhatja, hogyan migrálhatja az Azure Synapse Spark-katalógus HMS-metaadatait a Fabricbe.

További információ a Spark-készletek, konfigurációk , tárak, jegyzetfüzetek és Spark-feladatdefiníciók áttelepítési lehetőségeiről
Adatok és folyamatok migrálása
Hive metaadattár metaadatainak migrálása

Megosztás a következőn keresztül:

A Fabric adatmérnök ing és az Azure Synapse Spark összehasonlítása

Spark-készlet összehasonlítása

Spark-konfigurációk összehasonlítása

Spark-kódtárak összehasonlítása

Jegyzetfüzetek összehasonlítása

Spark-feladatdefiníciók összehasonlítása

Hive Metastore (HMS) összehasonlítása

Visszajelzés

Visszajelzés

További források

Megosztás a következőn keresztül:

A Fabric adatmérnök ing és az Azure Synapse Spark összehasonlítása

Spark-készlet összehasonlítása

Spark-konfigurációk összehasonlítása

Spark-kódtárak összehasonlítása

Jegyzetfüzetek összehasonlítása

Spark-feladatdefiníciók összehasonlítása

Hive Metastore (HMS) összehasonlítása

Kapcsolódó tartalom

Visszajelzés

Visszajelzés

További források