A Fabric adatmérnök ing és az Azure Synapse Spark összehasonlítása
A Fabric adatmérnök ing és az Azure Synapse Spark összehasonlítása összefoglalja a főbb funkciókat, és részletes elemzést nyújt különböző kategóriákban, például Spark-készleteket, konfigurációkat, kódtárakat, jegyzetfüzeteket és Spark-feladatdefiníciókat.
Az alábbi táblázat az Azure Synapse Sparkot és a Fabric Sparkot hasonlítja össze különböző kategóriákban:
Kategória | Azure Synapse Spark | Háló Spark |
---|---|---|
Spark-készletek | Spark-készlet - - |
Kezdőkészlet / egyéni készlete V-Order Magas egyidejűség |
Spark-konfigurációk | Készletszint Jegyzetfüzet vagy Spark-feladat definíciójának szintje |
Környezeti szint Jegyzetfüzet vagy Spark-feladat definíciójának szintje |
Spark-kódtárak | Munkaterületszintű csomagok Készletszintű csomagok Beágyazott csomagok |
- Környezeti kódtárak Beágyazott kódtárak |
Források | Jegyzetfüzet (Python, Scala, Spark SQL, R, .NET) Spark-feladatdefiníció (Python, Scala, .NET) Synapse-adatfolyamok Folyamattevékenységek (jegyzetfüzet, SJD) |
Notebook (Python, Scala, Spark SQL, R) Spark-feladatdefiníció (Python, Scala, R) Data Factory-adatfolyamok Folyamattevékenységek (jegyzetfüzet, SJD) |
Adatok | Elsődleges tároló (ADLS Gen2) Adattárolás (fürt-/régióalapú) |
Elsődleges tároló (OneLake) Adattárolás (kapacitás/régióalapú) |
Metaadatok | Belső Hive-metaadattár (HMS) Külső HMS (az Azure SQL DB használatával) |
Belső HMS (lakehouse) - |
Kapcsolatok | Összekötő típusa (társított szolgáltatások) Adatforrások Adatforrás-conn. munkaterületi identitással |
Összekötő típusa (DMTS) Adatforrások - |
Biztonság | RBAC és hozzáférés-vezérlés Tárolási ACL-ek (ADLS Gen2) Privát hivatkozások Felügyelt virtuális hálózat (hálózati elkülönítés) Synapse-munkaterület identitása Adatszűrés elleni védelem (DEP) Szolgáltatáscímkék Key Vault (mssparkutils/ társított szolgáltatáson keresztül) |
RBAC és hozzáférés-vezérlés OneLake RBAC Privát hivatkozások Felügyelt virtuális hálózat Munkaterület identitása - Szolgáltatáscímkék Key Vault (mssparkutils használatával) |
DevOps | Azure DevOps-integráció CI/CD (nincs beépített támogatás) |
Azure DevOps-integráció Üzembehelyezési folyamatok |
Fejlesztői felület | IDE-integráció (IntelliJ) Synapse Studio felhasználói felület Együttműködés (munkaterületek) Livy API API/SDK mssparkutils |
IDE-integráció (VS Code) Háló felhasználói felülete Együttműködés (munkaterületek és megosztás) - API/SDK mssparkutils |
Naplózás és figyelés | Spark Advisor Beépített monitorozási készletek és feladatok (a Synapse Studióval) Spark-előzménykiszolgáló Prometheus/Grafana Log Analytics Tárfiók Event Hubs |
Spark Advisor Beépített monitorozási készletek és feladatok (a Monitoring Hubon keresztül) Spark-előzménykiszolgáló - - - - |
Üzletmenet-folytonosság és vészhelyreállítás (BCDR) | BCDR (data) ADLS Gen2 | BCDR (data) OneLake |
Szempontok és korlátozások:
DMTS-integráció: A DMTS nem használható jegyzetfüzeteken és Spark-feladatdefiníciókon keresztül.
Számítási feladatszintű RBAC: A háló négy különböző munkaterületi szerepkört támogat. További információ: Szerepkörök a Munkaterületeken a Microsoft Fabricben.
Felügyelt identitás: A Fabric jelenleg nem támogatja a jegyzetfüzetek és Spark-feladatdefiníciók futtatását a jegyzetfüzetekben lévő Azure KeyVault munkaterületi identitásának vagy felügyelt identitásának használatával.
CI/CD: Használhatja a Fabric API/SDK-t és az üzembehelyezési folyamatokat.
A Livy API és a Spark-feladatok beküldése és kezelése: A Livy API az ütemterv része, de még nem érhető el a Fabricben. A Háló felhasználói felületén jegyzetfüzeteket és Spark-feladatdefiníciókat kell létrehoznia.
Spark-naplók és metrikák: Az Azure Synapse-ban Spark-naplókat és metrikákat bocsáthat ki a saját tárolójába, például a Log Analyticsbe, a blobba és az Event Hubsba. A munkaterülethez tartozó Spark-alkalmazások listáját az API-ból is lekérheti. Jelenleg mindkét képesség nem érhető el a Fabricben.
Egyéb szempontok:
- JDBC: A JDBC-kapcsolat támogatása jelenleg nem érhető el a Fabricben.
Spark-készlet összehasonlítása
Az alábbi táblázat az Azure Synapse Spark- és Fabric Spark-készleteket hasonlítja össze.
Spark-beállítás | Azure Synapse Spark | Háló Spark |
---|---|---|
Élő készlet (előmeleg példányok) | - | Igen, Kezdőkészletek |
Egyéni készlet | Igen | Igen |
Spark-verziók (futtatókörnyezet) | 2.4, 3.1, 3.2, 3.3, 3.4 | 3.3, 3.4, 3.5 |
Automatikus méretezés | Igen | Igen |
Végrehajtók dinamikus lefoglalása | Igen, legfeljebb 200 | Igen, kapacitás alapján |
Állítható csomópontméretek | Igen, 3-200 | Igen, 1-alapú kapacitás |
Minimális csomópontkonfiguráció | 3 csomópont | 1 csomópont |
Csomópontméret család | Memóriaoptimalizált, GPU gyorsított | Memóriaoptimalizált |
Csomópont mérete | Small-XXXLarge | Small-XXLarge |
Automatikus fóliázás | Igen, testreszabható legalább 5 perc | Igen, nemcustomizable 2 perc |
Magas egyidejűség | Nem | Igen |
V-Order | Nem | Igen |
Spark autotune | Nem | Igen |
Natív végrehajtási motor | Nem | Igen |
Egyidejűségi korlátok | Rögzített méretű lemez | Kapacitáson alapuló változó |
Több Spark-készlet | Igen | Igen (környezetek) |
Intelligens gyorsítótár | Igen | Igen |
API/SDK-támogatás | Igen | Igen |
Futtatókörnyezet: A Fabric nem támogatja a Spark 2.4, 3.1 és 3.2 verziót. A Fabric Spark támogatja a Spark 3.3-at a Delta 2.2-vel az 1.1-s futtatókörnyezetben, a Spark 3.4-et a Delta 2.4-et az 1.2-ben, a Spark 3.5-öt pedig a Delta 3.0-val a Futtatókörnyezet 1.3-on belül.
Automatikus skálázás: Az Azure Synapse Sparkban a készlet a csomópont méretétől függetlenül akár 200 csomópontot is skálázhat. A Hálóban a csomópontok maximális száma csomópontméretnek és kiépített kapacitásnak van kitéve. Lásd a következő példát az F64 termékváltozathoz.
Spark-készlet mérete Azure Synapse Spark Fabric Spark (egyéni készlet, termékváltozat F64) Small Min: 3, Max: 200 Min: 1, Max: 32 Közepes Min: 3, Max: 200 Min: 1, Max: 16 Nagy Min: 3, Max: 200 Min: 1, Max: 8 X-Nagy Min: 3, Max: 200 Min: 1, Max: 4 XX-nagy Min: 3, Max: 200 Min: 1, Max: 2 Állítható csomópontméretek: Az Azure Synapse Sparkban legfeljebb 200 csomópontot használhat. A Fabricben az egyéni Spark-készletben elérhető csomópontok száma a csomópont méretétől és a Háló kapacitásától függ. A kapacitás annak mértéke, hogy mennyi számítási teljesítményt használhat az Azure-ban. Ennek egyik módja, hogy két Spark virtuális mag (a Spark számítási teljesítménye) egy kapacitásegységnek felel meg. Egy Hálókapacitás termékváltozat F64-ben például 64 kapacitásegység található, ami 128 Spark virtuális magnak felel meg. Ha tehát kis csomópontméretet választ, legfeljebb 32 csomópont lehet a készletben (128/4 = 32). Ezután a kapacitásban/virtuális magokban lévő virtuális magok száma csomópontméretenként = az elérhető csomópontok teljes száma. További információ: Spark Compute.
Csomópontméret család: A Fabric Spark-készletek egyelőre csak a memóriaoptimalizált csomópontméretcsaládot támogatják. Ha GPU-val felgyorsított SKU Spark-készletet használ az Azure Synapse-ban, azok nem érhetők el a Fabricben.
Csomópontméret: Az xx-nagy csomópont mérete 432 GB memóriával rendelkezik az Azure Synapse-ban, míg ugyanez a csomópontméret 512 GB a Hálóban, beleértve a 64 virtuális magot. A többi csomópontméret (kis és x-nagy) ugyanazokkal a virtuális magokkal és memóriával rendelkezik az Azure Synapse-ban és a Fabricben is.
Automatikus szüneteltetés: Ha engedélyezi az Azure Synapse Sparkban, az Apache Spark-készlet automatikusan szünetel egy megadott mennyiségű tétlenségi idő után. Ez a beállítás az Azure Synapse-ban konfigurálható (legalább 5 perc), de az egyéni készletek nem módosítható alapértelmezett automatikus 2 perces automatikus megőrzési időtartamúak a Fabricben a munkamenet lejárta után. Az alapértelmezett munkamenet-lejárat 20 percre van beállítva a Fabricben.
Magas egyidejűség: A Háló támogatja a jegyzetfüzetekben a magas egyidejűséget. További információ: Magas egyidejűségi mód a Fabric Sparkban.
Egyidejűségi korlátok: Az egyidejűség szempontjából az Azure Synapse Spark legfeljebb 50 egyidejűleg futó feladatot futtat Spark-készletenként, és Spark-készletenként 200 várólistás feladatot. Az aktív feladatok maximális száma Spark-készletenként 250, munkaterületenként 1000. A Microsoft Fabric Sparkban a kapacitás-termékváltozatok határozzák meg az egyidejűségi korlátokat. Az SKU-k eltérő korlátozásokkal rendelkeznek az egyidejű feladatok maximális száma 1 és 512 között. Emellett a Fabric Spark dinamikus tartalékalapú szabályozási rendszerrel rendelkezik az egyidejűség kezelésére, és zökkenőmentes működést biztosít még a csúcsidőszakokban is. További információ: Egyidejűségi korlátok és várakozási sorok a Microsoft Fabric Spark és a Fabric kapacitásaiban.
Több Spark-készlet: Ha több Spark-készletet szeretne használni, a Fabric-környezetek használatával válasszon ki egy készletet jegyzetfüzet vagy Spark-feladatdefiníció alapján. További információ: Környezet létrehozása, konfigurálása és használata a Microsoft Fabricben.
Feljegyzés
Megtudhatja, hogyan migrálhatja az Azure Synapse Spark-készleteket a Fabricbe.
Spark-konfigurációk összehasonlítása
A Spark-konfigurációk különböző szinteken alkalmazhatók:
- Környezeti szint: Ezeket a konfigurációkat használja a rendszer a környezet összes Spark-feladatának alapértelmezett konfigurációjaként.
- Beágyazott szint: Spark-konfigurációk beágyazott beállítása jegyzetfüzetek és Spark-feladatdefiníciók használatával.
Bár mindkét lehetőség támogatott az Azure Synapse Sparkban és a Fabricben, van néhány szempont:
Spark-konfiguráció | Azure Synapse Spark | Háló Spark |
---|---|---|
Környezeti szint | Igen, készletek | Igen, környezetek |
Beágyazott | Igen | Igen |
Importálás és exportálás | Igen | Igen (.yml környezetekből) |
API/SDK-támogatás | Igen | Igen |
Környezeti szint: Az Azure Synapse-ban több Spark-konfigurációt is meghatározhat, és hozzárendelheti őket különböző Spark-készletekhez. Ezt a Fabricben környezetek használatával teheti meg.
Beágyazott: Az Azure Synapse-ban a jegyzetfüzetek és a Spark-feladatok is támogatják a különböző Spark-konfigurációk csatolását. A Fabricben a munkamenetszintű konfigurációk a beállítással
spark.conf.set(<conf_name>, <conf_value>)
vannak testre szabva. Kötegelt feladatok esetén a SparkConfon keresztül is alkalmazhat konfigurációkat.Importálás/exportálás: Ez a Lehetőség a Spark-konfigurációkhoz a Fabric-környezetekben érhető el.
Egyéb szempontok:
- Nem módosítható Spark-konfigurációk: Egyes Spark-konfigurációk nem módosíthatók. Ha megjelenik az üzenet
AnalysisException: Can't modify the value of a Spark config: <config_name>
, a kérdéses tulajdonság nem módosítható. - FAIR scheduler: A FAIR schedulert magas egyidejűségi módban használják.
- V-Order: A V-Order a Fabric Spark-készletekben alapértelmezés szerint engedélyezett parquet-fájlokra alkalmazott írási időoptimalizálás.
- Optimalizált írás: Az optimalizált írás alapértelmezés szerint le van tiltva az Azure Synapse-ban, de alapértelmezés szerint engedélyezve van a Fabric Spark esetében.
- Nem módosítható Spark-konfigurációk: Egyes Spark-konfigurációk nem módosíthatók. Ha megjelenik az üzenet
Feljegyzés
Megtudhatja, hogyan migrálhatja a Spark-konfigurációkat az Azure Synapse-ból a Fabricbe.
Spark-kódtárak összehasonlítása
A Spark-kódtárakat különböző szinteken alkalmazhatja:
- Munkaterület szintje: Ezeket a kódtárakat nem töltheti fel/telepítheti a munkaterületre, és később hozzárendelheti őket egy adott Spark-készlethez az Azure Synapse-ban.
- Környezeti szint: Tárakat feltölthet vagy telepíthet egy környezetbe. A környezetszintű kódtárak a környezetben futó összes jegyzetfüzet és Spark-feladatdefiníció számára elérhetők.
- Beágyazott: A környezeti szintű kódtárak mellett beágyazott kódtárakat is megadhat. Például egy jegyzetfüzet-munkamenet elején.
Szempontok:
Spark-kódtár | Azure Synapse Spark | Háló Spark |
---|---|---|
Munkaterület szintje | Igen | Nem |
Környezeti szint | Igen, készletek | Igen, környezetek |
Beágyazott | Igen | Igen |
Importálás és exportálás | Igen | Igen |
API/SDK-támogatás | Igen | Igen |
- Egyéb szempontok:
- Beépített kódtárak: A Fabric és az Azure Synapse közös maggal rendelkezik a Sparkban, de némileg eltérhetnek a futtatókörnyezeti kódtárak különböző támogatásától. A kód használata általában kompatibilis néhány kivétellel. Ebben az esetben előfordulhat, hogy a felhasználóknak fordításra, egyéni kódtárak hozzáadására és a szintaxis módosítására van szükségük. A beépített Fabric Spark-futtatókörnyezeti kódtárakat itt találja.
Feljegyzés
Megtudhatja, hogyan migrálhatja az Azure Synapse Spark-kódtárakat a Fabricbe.
Jegyzetfüzetek összehasonlítása
A jegyzetfüzetek és a Spark-feladatdefiníciók az Apache Spark-feladatok fabricbeli fejlesztésének elsődleges kódelemei. Van néhány különbség az Azure Synapse Spark-jegyzetfüzetek és a Fabric Spark-jegyzetfüzetek között:
Jegyzetfüzet-képesség | Azure Synapse Spark | Háló Spark |
---|---|---|
Importálás és exportálás | Igen | Igen |
Munkamenet-konfiguráció | Igen, felhasználói felület és beágyazott | Igen, felhasználói felület (környezet) és beágyazott |
IntelliSense | Igen | Igen |
mssparkutils | Igen | Igen |
Jegyzetfüzet-erőforrások | Nem | Igen |
Együttműködés | Nem | Igen |
Magas egyidejűség | Nem | Igen |
.NET a Spark C-hez# | Igen | Nem |
Folyamattevékenység támogatása | Igen | Igen |
Beépített ütemezett futtatás támogatása | Nem | Igen |
API/SDK-támogatás | Igen | Igen |
mssparkutils: Mivel a DMTS-kapcsolatok még nem támogatottak a Fabricben, csak
getToken
agetSecret
Fabricmssparkutils.credentials
for .Jegyzetfüzet-erőforrások: A hálójegyzetfüzetek Unix-szerű fájlrendszert biztosítanak a mappák és fájlok kezeléséhez. További információ: Microsoft Fabric-jegyzetfüzetek használata.
Együttműködés: A Háló jegyzetfüzet egy együttműködési elem, amely támogatja, hogy több felhasználó szerkessze ugyanazt a jegyzetfüzetet. További információ: Microsoft Fabric-jegyzetfüzetek használata.
Magas egyidejűség: Az In Fabricben jegyzetfüzeteket csatolhat egy magas egyidejűségi munkamenethez. Ez a lehetőség alternatíva a ThreadPoolExecutort használó felhasználók számára az Azure Synapse-ban. További információt a Fabric-jegyzetfüzetek magas egyidejűségi módjának konfigurálása című témakörben talál.
A Spark C#-hoz készült .NET: A Háló nem támogatja a .NET Sparkot (C#). Javasoljuk azonban, hogy a C# vagy F# nyelven írt meglévő számítási feladatokkal rendelkező felhasználók áttelepüljenek a Pythonba vagy a Scalába.
Beépített ütemezett futtatás támogatása: A Háló támogatja a jegyzetfüzetek ütemezett futtatását.
Egyéb szempontok:
- A jegyzetfüzetek olyan funkcióit is használhatja, amelyek csak a Spark egy adott verziójában támogatottak. Ne feledje, hogy a Spark 2.4 és 3.1 nem támogatott a Fabricben.
- Ha a jegyzetfüzet vagy a Spark-feladat különböző adatforrás-kapcsolatokkal vagy csatlakoztatási pontokkal rendelkező társított szolgáltatást használ, a Spark-feladatokat úgy kell módosítania, hogy alternatív módszereket használjon a külső adatforrásokhoz és fogadókhoz való kapcsolatok kezeléséhez. A Spark-kód használatával csatlakozhat adatforrásokhoz az elérhető Spark-kódtárak használatával.
Feljegyzés
Megtudhatja, hogyan migrálhatja a jegyzetfüzeteket az Azure Synapse-ból a Fabricbe.
Spark-feladatdefiníciók összehasonlítása
Fontos Spark-feladatdefiníciós szempontok:
Spark-feladat képessége | Azure Synapse Spark | Háló Spark |
---|---|---|
PySpark | Igen | Igen |
Scala | Igen | Igen |
.NET a Spark C-hez# | Igen | Nem |
SparkR | Nem | Igen |
Importálás és exportálás | Igen (felhasználói felület) | Nem |
Folyamattevékenység támogatása | Igen | Igen |
Beépített ütemezett futtatás támogatása | Nem | Igen |
Újrapróbálkozási szabályzatok | Nem | Igen |
API/SDK-támogatás | Igen | Igen |
Spark-feladatok: A .py/. R/jar fájlok. A Fabric támogatja a SparkR-t. A Spark-feladatok definíciója támogatja a referenciafájlokat, a parancssori argumentumokat, a Spark-konfigurációkat és a lakehouse-hivatkozásokat.
Importálás/exportálás: Az Azure Synapse-ban json-alapú Spark-feladatdefiníciókat importálhat/exportálhat a felhasználói felületről. Ez a funkció még nem érhető el a Hálóban.
A Spark C#-hoz készült .NET: A Háló nem támogatja a .NET Sparkot (C#). A javaslat azonban az, hogy a C# vagy F# nyelven írt meglévő számítási feladatokkal rendelkező felhasználók áttelepüljenek a Pythonba vagy a Scalába.
Folyamattevékenység támogatása: A Hálóban lévő adatfolyamok még nem tartalmazzák a Spark-feladatdefiníciós tevékenységet. Ütemezett futtatásokat is használhat, ha rendszeresen futtatni szeretné a Spark-feladatot.
Beépített ütemezett futtatás támogatása: A Háló támogatja a Spark-feladatok definíciójához tartozó ütemezett futtatásokat.
Újrapróbálkozási szabályzatok: Ezzel a beállítással a felhasználók korlátlan ideig futtathatnak Spark-strukturált streamelési feladatokat.
Feljegyzés
Megtudhatja, hogyan migrálhatja a Spark-feladatdefiníciókat az Azure Synapse-ból a Fabricbe.
Hive Metastore (HMS) összehasonlítása
A Hive MetaStore (HMS) eltérései és szempontjai:
HMS-típus | Azure Synapse Spark | Háló Spark |
---|---|---|
Belső HMS | Igen | Igen (lakehouse) |
Külső HMS | Igen | Nem |
- Külső HMS: A Fabric jelenleg nem támogatja a katalógus API-t és a külső Hive Metastore (HMS) elérését.
Feljegyzés
Megtudhatja, hogyan migrálhatja az Azure Synapse Spark-katalógus HMS-metaadatait a Fabricbe.
Kapcsolódó tartalom
- További információ a Spark-készletek, konfigurációk, tárak, jegyzetfüzetek és Spark-feladatdefiníciók áttelepítési lehetőségeiről
- Adatok és folyamatok migrálása
- Hive metaadattár metaadatainak migrálása
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: