Megosztás a következőn keresztül:


A Fabric adatmérnök ing és az Azure Synapse Spark összehasonlítása

A Fabric adatmérnök ing és az Azure Synapse Spark összehasonlítása összefoglalja a főbb funkciókat, és részletes elemzést nyújt különböző kategóriákban, például Spark-készleteket, konfigurációkat, kódtárakat, jegyzetfüzeteket és Spark-feladatdefiníciókat.

Az alábbi táblázat az Azure Synapse Sparkot és a Fabric Sparkot hasonlítja össze különböző kategóriákban:

Kategória Azure Synapse Spark Háló Spark
Spark-készletek Spark-készlet
-
-
Kezdőkészlet / egyéni készlete
V-Order
Magas egyidejűség
Spark-konfigurációk Készletszint
Jegyzetfüzet vagy Spark-feladat definíciójának szintje
Környezeti szint
Jegyzetfüzet vagy Spark-feladat definíciójának szintje
Spark-kódtárak Munkaterületszintű csomagok
Készletszintű csomagok
Beágyazott csomagok
-
Környezeti kódtárak
Beágyazott kódtárak
Források Jegyzetfüzet (Python, Scala, Spark SQL, R, .NET)
Spark-feladatdefiníció (Python, Scala, .NET)
Synapse-adatfolyamok
Folyamattevékenységek (jegyzetfüzet, SJD)
Notebook (Python, Scala, Spark SQL, R)
Spark-feladatdefiníció (Python, Scala, R)
Data Factory-adatfolyamok
Folyamattevékenységek (jegyzetfüzet, SJD)
Adatok Elsődleges tároló (ADLS Gen2)
Adattárolás (fürt-/régióalapú)
Elsődleges tároló (OneLake)
Adattárolás (kapacitás/régióalapú)
Metaadatok Belső Hive-metaadattár (HMS)
Külső HMS (az Azure SQL DB használatával)
Belső HMS (lakehouse)
-
Kapcsolatok Összekötő típusa (társított szolgáltatások)
Adatforrások
Adatforrás-conn. munkaterületi identitással
Összekötő típusa (DMTS)
Adatforrások
-
Biztonság RBAC és hozzáférés-vezérlés
Tárolási ACL-ek (ADLS Gen2)
Privát hivatkozások
Felügyelt virtuális hálózat (hálózati elkülönítés)
Synapse-munkaterület identitása
Adatszűrés elleni védelem (DEP)
Szolgáltatáscímkék
Key Vault (mssparkutils/ társított szolgáltatáson keresztül)
RBAC és hozzáférés-vezérlés
OneLake RBAC
Privát hivatkozások
Felügyelt virtuális hálózat
Munkaterület identitása
-
Szolgáltatáscímkék
Key Vault (mssparkutils használatával)
DevOps Azure DevOps-integráció
CI/CD (nincs beépített támogatás)
Azure DevOps-integráció
Üzembehelyezési folyamatok
Fejlesztői felület IDE-integráció (IntelliJ)
Synapse Studio felhasználói felület
Együttműködés (munkaterületek)
Livy API
API/SDK
mssparkutils
IDE-integráció (VS Code)
Háló felhasználói felülete
Együttműködés (munkaterületek és megosztás)
-
API/SDK
mssparkutils
Naplózás és figyelés Spark Advisor
Beépített monitorozási készletek és feladatok (a Synapse Studióval)
Spark-előzménykiszolgáló
Prometheus/Grafana
Log Analytics
Tárfiók
Event Hubs
Spark Advisor
Beépített monitorozási készletek és feladatok (a Monitoring Hubon keresztül)
Spark-előzménykiszolgáló
-
-
-
-
Üzletmenet-folytonosság és vészhelyreállítás (BCDR) BCDR (data) ADLS Gen2 BCDR (data) OneLake

Szempontok és korlátozások:

  • DMTS-integráció: A DMTS nem használható jegyzetfüzeteken és Spark-feladatdefiníciókon keresztül.

  • Számítási feladatszintű RBAC: A háló négy különböző munkaterületi szerepkört támogat. További információ: Szerepkörök a Munkaterületeken a Microsoft Fabricben.

  • Felügyelt identitás: A Fabric jelenleg nem támogatja a jegyzetfüzetek és Spark-feladatdefiníciók futtatását a jegyzetfüzetekben lévő Azure KeyVault munkaterületi identitásának vagy felügyelt identitásának használatával.

  • CI/CD: Használhatja a Fabric API/SDK-t és az üzembehelyezési folyamatokat.

  • A Livy API és a Spark-feladatok beküldése és kezelése: A Livy API az ütemterv része, de még nem érhető el a Fabricben. A Háló felhasználói felületén jegyzetfüzeteket és Spark-feladatdefiníciókat kell létrehoznia.

  • Spark-naplók és metrikák: Az Azure Synapse-ban Spark-naplókat és metrikákat bocsáthat ki a saját tárolójába, például a Log Analyticsbe, a blobba és az Event Hubsba. A munkaterülethez tartozó Spark-alkalmazások listáját az API-ból is lekérheti. Jelenleg mindkét képesség nem érhető el a Fabricben.

  • Egyéb szempontok:

    • JDBC: A JDBC-kapcsolat támogatása jelenleg nem érhető el a Fabricben.

Spark-készlet összehasonlítása

Az alábbi táblázat az Azure Synapse Spark- és Fabric Spark-készleteket hasonlítja össze.

Spark-beállítás Azure Synapse Spark Háló Spark
Élő készlet (előmeleg példányok) - Igen, Kezdőkészletek
Egyéni készlet Igen Igen
Spark-verziók (futtatókörnyezet) 2.4, 3.1, 3.2, 3.3, 3.4 3.3, 3.4, 3.5
Automatikus méretezés Igen Igen
Végrehajtók dinamikus lefoglalása Igen, legfeljebb 200 Igen, kapacitás alapján
Állítható csomópontméretek Igen, 3-200 Igen, 1-alapú kapacitás
Minimális csomópontkonfiguráció 3 csomópont 1 csomópont
Csomópontméret család Memóriaoptimalizált, GPU gyorsított Memóriaoptimalizált
Csomópont mérete Small-XXXLarge Small-XXLarge
Automatikus fóliázás Igen, testreszabható legalább 5 perc Igen, nemcustomizable 2 perc
Magas egyidejűség Nem Igen
V-Order Nem Igen
Spark autotune Nem Igen
Natív végrehajtási motor Nem Igen
Egyidejűségi korlátok Rögzített méretű lemez Kapacitáson alapuló változó
Több Spark-készlet Igen Igen (környezetek)
Intelligens gyorsítótár Igen Igen
API/SDK-támogatás Igen Igen
  • Futtatókörnyezet: A Fabric nem támogatja a Spark 2.4, 3.1 és 3.2 verziót. A Fabric Spark támogatja a Spark 3.3-at a Delta 2.2-vel az 1.1-s futtatókörnyezetben, a Spark 3.4-et a Delta 2.4-et az 1.2-ben, a Spark 3.5-öt pedig a Delta 3.0-val a Futtatókörnyezet 1.3-on belül.

  • Automatikus skálázás: Az Azure Synapse Sparkban a készlet a csomópont méretétől függetlenül akár 200 csomópontot is skálázhat. A Hálóban a csomópontok maximális száma csomópontméretnek és kiépített kapacitásnak van kitéve. Lásd a következő példát az F64 termékváltozathoz.

    Spark-készlet mérete Azure Synapse Spark Fabric Spark (egyéni készlet, termékváltozat F64)
    Small Min: 3, Max: 200 Min: 1, Max: 32
    Közepes Min: 3, Max: 200 Min: 1, Max: 16
    Nagy Min: 3, Max: 200 Min: 1, Max: 8
    X-Nagy Min: 3, Max: 200 Min: 1, Max: 4
    XX-nagy Min: 3, Max: 200 Min: 1, Max: 2
  • Állítható csomópontméretek: Az Azure Synapse Sparkban legfeljebb 200 csomópontot használhat. A Fabricben az egyéni Spark-készletben elérhető csomópontok száma a csomópont méretétől és a Háló kapacitásától függ. A kapacitás annak mértéke, hogy mennyi számítási teljesítményt használhat az Azure-ban. Ennek egyik módja, hogy két Spark virtuális mag (a Spark számítási teljesítménye) egy kapacitásegységnek felel meg. Egy Hálókapacitás termékváltozat F64-ben például 64 kapacitásegység található, ami 128 Spark virtuális magnak felel meg. Ha tehát kis csomópontméretet választ, legfeljebb 32 csomópont lehet a készletben (128/4 = 32). Ezután a kapacitásban/virtuális magokban lévő virtuális magok száma csomópontméretenként = az elérhető csomópontok teljes száma. További információ: Spark Compute.

  • Csomópontméret család: A Fabric Spark-készletek egyelőre csak a memóriaoptimalizált csomópontméretcsaládot támogatják. Ha GPU-val felgyorsított SKU Spark-készletet használ az Azure Synapse-ban, azok nem érhetők el a Fabricben.

  • Csomópontméret: Az xx-nagy csomópont mérete 432 GB memóriával rendelkezik az Azure Synapse-ban, míg ugyanez a csomópontméret 512 GB a Hálóban, beleértve a 64 virtuális magot. A többi csomópontméret (kis és x-nagy) ugyanazokkal a virtuális magokkal és memóriával rendelkezik az Azure Synapse-ban és a Fabricben is.

  • Automatikus szüneteltetés: Ha engedélyezi az Azure Synapse Sparkban, az Apache Spark-készlet automatikusan szünetel egy megadott mennyiségű tétlenségi idő után. Ez a beállítás az Azure Synapse-ban konfigurálható (legalább 5 perc), de az egyéni készletek nem módosítható alapértelmezett automatikus 2 perces automatikus megőrzési időtartamúak a Fabricben a munkamenet lejárta után. Az alapértelmezett munkamenet-lejárat 20 percre van beállítva a Fabricben.

  • Magas egyidejűség: A Háló támogatja a jegyzetfüzetekben a magas egyidejűséget. További információ: Magas egyidejűségi mód a Fabric Sparkban.

  • Egyidejűségi korlátok: Az egyidejűség szempontjából az Azure Synapse Spark legfeljebb 50 egyidejűleg futó feladatot futtat Spark-készletenként, és Spark-készletenként 200 várólistás feladatot. Az aktív feladatok maximális száma Spark-készletenként 250, munkaterületenként 1000. A Microsoft Fabric Sparkban a kapacitás-termékváltozatok határozzák meg az egyidejűségi korlátokat. Az SKU-k eltérő korlátozásokkal rendelkeznek az egyidejű feladatok maximális száma 1 és 512 között. Emellett a Fabric Spark dinamikus tartalékalapú szabályozási rendszerrel rendelkezik az egyidejűség kezelésére, és zökkenőmentes működést biztosít még a csúcsidőszakokban is. További információ: Egyidejűségi korlátok és várakozási sorok a Microsoft Fabric Spark és a Fabric kapacitásaiban.

  • Több Spark-készlet: Ha több Spark-készletet szeretne használni, a Fabric-környezetek használatával válasszon ki egy készletet jegyzetfüzet vagy Spark-feladatdefiníció alapján. További információ: Környezet létrehozása, konfigurálása és használata a Microsoft Fabricben.

Feljegyzés

Megtudhatja, hogyan migrálhatja az Azure Synapse Spark-készleteket a Fabricbe.

Spark-konfigurációk összehasonlítása

A Spark-konfigurációk különböző szinteken alkalmazhatók:

  • Környezeti szint: Ezeket a konfigurációkat használja a rendszer a környezet összes Spark-feladatának alapértelmezett konfigurációjaként.
  • Beágyazott szint: Spark-konfigurációk beágyazott beállítása jegyzetfüzetek és Spark-feladatdefiníciók használatával.

Bár mindkét lehetőség támogatott az Azure Synapse Sparkban és a Fabricben, van néhány szempont:

Spark-konfiguráció Azure Synapse Spark Háló Spark
Környezeti szint Igen, készletek Igen, környezetek
Beágyazott Igen Igen
Importálás és exportálás Igen Igen (.yml környezetekből)
API/SDK-támogatás Igen Igen
  • Környezeti szint: Az Azure Synapse-ban több Spark-konfigurációt is meghatározhat, és hozzárendelheti őket különböző Spark-készletekhez. Ezt a Fabricben környezetek használatával teheti meg.

  • Beágyazott: Az Azure Synapse-ban a jegyzetfüzetek és a Spark-feladatok is támogatják a különböző Spark-konfigurációk csatolását. A Fabricben a munkamenetszintű konfigurációk a beállítással spark.conf.set(<conf_name>, <conf_value>) vannak testre szabva. Kötegelt feladatok esetén a SparkConfon keresztül is alkalmazhat konfigurációkat.

  • Importálás/exportálás: Ez a Lehetőség a Spark-konfigurációkhoz a Fabric-környezetekben érhető el.

  • Egyéb szempontok:

    • Nem módosítható Spark-konfigurációk: Egyes Spark-konfigurációk nem módosíthatók. Ha megjelenik az üzenet AnalysisException: Can't modify the value of a Spark config: <config_name>, a kérdéses tulajdonság nem módosítható.
    • FAIR scheduler: A FAIR schedulert magas egyidejűségi módban használják.
    • V-Order: A V-Order a Fabric Spark-készletekben alapértelmezés szerint engedélyezett parquet-fájlokra alkalmazott írási időoptimalizálás.
    • Optimalizált írás: Az optimalizált írás alapértelmezés szerint le van tiltva az Azure Synapse-ban, de alapértelmezés szerint engedélyezve van a Fabric Spark esetében.

Feljegyzés

Megtudhatja, hogyan migrálhatja a Spark-konfigurációkat az Azure Synapse-ból a Fabricbe.

Spark-kódtárak összehasonlítása

A Spark-kódtárakat különböző szinteken alkalmazhatja:

  • Munkaterület szintje: Ezeket a kódtárakat nem töltheti fel/telepítheti a munkaterületre, és később hozzárendelheti őket egy adott Spark-készlethez az Azure Synapse-ban.
  • Környezeti szint: Tárakat feltölthet vagy telepíthet egy környezetbe. A környezetszintű kódtárak a környezetben futó összes jegyzetfüzet és Spark-feladatdefiníció számára elérhetők.
  • Beágyazott: A környezeti szintű kódtárak mellett beágyazott kódtárakat is megadhat. Például egy jegyzetfüzet-munkamenet elején.

Szempontok:

Spark-kódtár Azure Synapse Spark Háló Spark
Munkaterület szintje Igen Nem
Környezeti szint Igen, készletek Igen, környezetek
Beágyazott Igen Igen
Importálás és exportálás Igen Igen
API/SDK-támogatás Igen Igen
  • Egyéb szempontok:
    • Beépített kódtárak: A Fabric és az Azure Synapse közös maggal rendelkezik a Sparkban, de némileg eltérhetnek a futtatókörnyezeti kódtárak különböző támogatásától. A kód használata általában kompatibilis néhány kivétellel. Ebben az esetben előfordulhat, hogy a felhasználóknak fordításra, egyéni kódtárak hozzáadására és a szintaxis módosítására van szükségük. A beépített Fabric Spark-futtatókörnyezeti kódtárakat itt találja.

Feljegyzés

Megtudhatja, hogyan migrálhatja az Azure Synapse Spark-kódtárakat a Fabricbe.

Jegyzetfüzetek összehasonlítása

A jegyzetfüzetek és a Spark-feladatdefiníciók az Apache Spark-feladatok fabricbeli fejlesztésének elsődleges kódelemei. Van néhány különbség az Azure Synapse Spark-jegyzetfüzetek és a Fabric Spark-jegyzetfüzetek között:

Jegyzetfüzet-képesség Azure Synapse Spark Háló Spark
Importálás és exportálás Igen Igen
Munkamenet-konfiguráció Igen, felhasználói felület és beágyazott Igen, felhasználói felület (környezet) és beágyazott
IntelliSense Igen Igen
mssparkutils Igen Igen
Jegyzetfüzet-erőforrások Nem Igen
Együttműködés Nem Igen
Magas egyidejűség Nem Igen
.NET a Spark C-hez# Igen Nem
Folyamattevékenység támogatása Igen Igen
Beépített ütemezett futtatás támogatása Nem Igen
API/SDK-támogatás Igen Igen
  • mssparkutils: Mivel a DMTS-kapcsolatok még nem támogatottak a Fabricben, csak getToken a getSecret Fabric mssparkutils.credentialsfor .

  • Jegyzetfüzet-erőforrások: A hálójegyzetfüzetek Unix-szerű fájlrendszert biztosítanak a mappák és fájlok kezeléséhez. További információ: Microsoft Fabric-jegyzetfüzetek használata.

  • Együttműködés: A Háló jegyzetfüzet egy együttműködési elem, amely támogatja, hogy több felhasználó szerkessze ugyanazt a jegyzetfüzetet. További információ: Microsoft Fabric-jegyzetfüzetek használata.

  • Magas egyidejűség: Az In Fabricben jegyzetfüzeteket csatolhat egy magas egyidejűségi munkamenethez. Ez a lehetőség alternatíva a ThreadPoolExecutort használó felhasználók számára az Azure Synapse-ban. További információt a Fabric-jegyzetfüzetek magas egyidejűségi módjának konfigurálása című témakörben talál.

  • A Spark C#-hoz készült .NET: A Háló nem támogatja a .NET Sparkot (C#). Javasoljuk azonban, hogy a C# vagy F# nyelven írt meglévő számítási feladatokkal rendelkező felhasználók áttelepüljenek a Pythonba vagy a Scalába.

  • Beépített ütemezett futtatás támogatása: A Háló támogatja a jegyzetfüzetek ütemezett futtatását.

  • Egyéb szempontok:

    • A jegyzetfüzetek olyan funkcióit is használhatja, amelyek csak a Spark egy adott verziójában támogatottak. Ne feledje, hogy a Spark 2.4 és 3.1 nem támogatott a Fabricben.
    • Ha a jegyzetfüzet vagy a Spark-feladat különböző adatforrás-kapcsolatokkal vagy csatlakoztatási pontokkal rendelkező társított szolgáltatást használ, a Spark-feladatokat úgy kell módosítania, hogy alternatív módszereket használjon a külső adatforrásokhoz és fogadókhoz való kapcsolatok kezeléséhez. A Spark-kód használatával csatlakozhat adatforrásokhoz az elérhető Spark-kódtárak használatával.

Feljegyzés

Megtudhatja, hogyan migrálhatja a jegyzetfüzeteket az Azure Synapse-ból a Fabricbe.

Spark-feladatdefiníciók összehasonlítása

Fontos Spark-feladatdefiníciós szempontok:

Spark-feladat képessége Azure Synapse Spark Háló Spark
PySpark Igen Igen
Scala Igen Igen
.NET a Spark C-hez# Igen Nem
SparkR Nem Igen
Importálás és exportálás Igen (felhasználói felület) Nem
Folyamattevékenység támogatása Igen Igen
Beépített ütemezett futtatás támogatása Nem Igen
Újrapróbálkozási szabályzatok Nem Igen
API/SDK-támogatás Igen Igen
  • Spark-feladatok: A .py/. R/jar fájlok. A Fabric támogatja a SparkR-t. A Spark-feladatok definíciója támogatja a referenciafájlokat, a parancssori argumentumokat, a Spark-konfigurációkat és a lakehouse-hivatkozásokat.

  • Importálás/exportálás: Az Azure Synapse-ban json-alapú Spark-feladatdefiníciókat importálhat/exportálhat a felhasználói felületről. Ez a funkció még nem érhető el a Hálóban.

  • A Spark C#-hoz készült .NET: A Háló nem támogatja a .NET Sparkot (C#). A javaslat azonban az, hogy a C# vagy F# nyelven írt meglévő számítási feladatokkal rendelkező felhasználók áttelepüljenek a Pythonba vagy a Scalába.

  • Folyamattevékenység támogatása: A Hálóban lévő adatfolyamok még nem tartalmazzák a Spark-feladatdefiníciós tevékenységet. Ütemezett futtatásokat is használhat, ha rendszeresen futtatni szeretné a Spark-feladatot.

  • Beépített ütemezett futtatás támogatása: A Háló támogatja a Spark-feladatok definíciójához tartozó ütemezett futtatásokat.

  • Újrapróbálkozási szabályzatok: Ezzel a beállítással a felhasználók korlátlan ideig futtathatnak Spark-strukturált streamelési feladatokat.

Feljegyzés

Megtudhatja, hogyan migrálhatja a Spark-feladatdefiníciókat az Azure Synapse-ból a Fabricbe.

Hive Metastore (HMS) összehasonlítása

A Hive MetaStore (HMS) eltérései és szempontjai:

HMS-típus Azure Synapse Spark Háló Spark
Belső HMS Igen Igen (lakehouse)
Külső HMS Igen Nem
  • Külső HMS: A Fabric jelenleg nem támogatja a katalógus API-t és a külső Hive Metastore (HMS) elérését.

Feljegyzés

Megtudhatja, hogyan migrálhatja az Azure Synapse Spark-katalógus HMS-metaadatait a Fabricbe.