Sdílet prostřednictvím


Porovnání Datoví technici prostředků infrastruktury a Azure Synapse Sparku

Toto porovnání mezi prostředky infrastruktury Datoví technici a Azure Synapse Spark poskytuje souhrn klíčových funkcí a podrobnou analýzu napříč různými kategoriemi, mezi které patří fondy Sparku, konfigurace, knihovny, poznámkové bloky a definice úloh Sparku.

Následující tabulka porovnává Azure Synapse Spark a Fabric Spark v různých kategoriích:

Kategorie Azure Synapse Spark Fabric Spark
Fondy úloh Sparku Fond Sparku
-
-
Vlastní fond / Starter
Pořadí V
Vysoká souběžnost
Konfigurace Sparku Úroveň fondu
Úroveň definice úlohy Poznámkový blok nebo Spark
Úroveň prostředí
Úroveň definice úlohy Poznámkový blok nebo Spark
Knihovny Sparku Balíčky na úrovni pracovního prostoru
Balíčky na úrovni fondu
Vložené balíčky
-
Knihovny prostředí
Vložené knihovny
Zdroje informací Poznámkový blok (Python, Scala, Spark SQL, R, .NET)
Definice úlohy Sparku (Python, Scala, .NET)
Datové kanály Synapse
Aktivity kanálu (poznámkový blok, definice úlohy Sparku)
Poznámkový blok (Python, Scala, Spark SQL, R)
Definice úlohy Sparku (Python, Scala, R)
Datové kanály služby Data Factory
Aktivity kanálu (poznámkový blok)
Data Primární úložiště (ADLS Gen2)
Rezidence dat (na základě clusteru nebo oblasti)
Primární úložiště (OneLake)
Rezidence dat (kapacita/oblast)
Metadata Interní metastore Hive (HMS)
Externí HMS (s využitím Azure SQL DB)
Interní HMS (jezero)
-
Propojení typ Připojení oru (propojené služby)
Zdroje dat
Zdroj dat konn. s identitou pracovního prostoru
typ Připojení oru (DMTS)
Zdroje dat
-
Zabezpečení Řízení přístupu na základě role a přístupu
Seznamy ACL úložiště (ADLS Gen2)
Privátní propojení
Spravovaná virtuální síť (izolace sítě)
Identita pracovního prostoru Synapse
Ochrana před exfiltrací dat (DEP)
Značky služeb
Key Vault (prostřednictvím služby mssparkutils/ propojené služby)
Řízení přístupu na základě role a přístupu
OneLake RBAC
Privátní propojení
Spravovaná virtuální síť
Identita pracovního prostoru
-
Značky služeb
Key Vault (prostřednictvím nástroje mssparkutils)
DevOps Integrace Azure DevOps
CI/CD (žádná integrovaná podpora)
Integrace Azure DevOps
Kanály nasazení
Prostředí vývojáře Integrace integrovaného vývojového prostředí (IntelliJ)
Uživatelské rozhraní synapse Studia
Spolupráce (pracovní prostory)
Livy API
ROZHRANÍ API/SADA SDK
mssparkutils
Integrace integrovaného vývojového prostředí (VS Code)
Uživatelské rozhraní Fabric
Spolupráce (pracovní prostory a sdílení)
-
ROZHRANÍ API/SADA SDK
mssparkutils
Protokolování a monitorování Spark Advisor
Integrované fondy a úlohy monitorování (prostřednictvím nástroje Synapse Studio)
Server historie Sparku
Prometheus/Grafana
Log Analytics
Účet úložiště
Event Hubs
Spark Advisor
Integrované fondy a úlohy monitorování (prostřednictvím centra monitorování)
Server historie Sparku
-
-
-
-
Provozní kontinuita a zotavení po havárii (BCDR) BCDR (data) ADLS Gen2 BCDR (data) OneLake

Důležité informace a omezení:

  • Integrace DMTS: DmTS nemůžete používat prostřednictvím poznámkových bloků a definic úloh Sparku.

  • RBAC na úrovni úloh: Prostředky infrastruktury podporují čtyři různé role pracovního prostoru. Další informace najdete v tématu Role v pracovních prostorech v Microsoft Fabric.

  • Spravovaná identita: Prostředky infrastruktury v současné době nepodporují spouštění poznámkových bloků a definic úloh Sparku pomocí identity pracovního prostoru nebo spravované identity pro Azure KeyVault v poznámkových blocích.

  • CI/CD: Můžete použít kanály rozhraní API/ sady SDK a nasazení infrastruktury.

  • Rozhraní Api Livy a způsob odesílání a správy úloh Sparku: Rozhraní API Livy je v plánu, ale zatím není v prostředcích infrastruktury zveřejněné. Pomocí uživatelského rozhraní Fabric musíte vytvořit poznámkové bloky a definice úloh Sparku.

  • Protokoly a metriky Sparku: Ve službě Azure Synapse můžete generovat protokoly Sparku a metriky do vlastního úložiště, jako je Log Analytics, objekt blob a Event Hubs. Seznam aplikací Spark pro pracovní prostor můžete získat také z rozhraní API. V současné době nejsou obě tyto funkce dostupné v prostředcích infrastruktury.

  • Další důležité informace:

    • JDBC: Podpora připojení JDBC není v současné době dostupná v Prostředcích infrastruktury.

Porovnání fondu Sparku

Následující tabulka porovnává fondy Azure Synapse Spark a Fabric Spark.

Nastavení Sparku Azure Synapse Spark Fabric Spark
Živý fond (předhřejné instance) - Ano, úvodní fondy
Vlastní fond Ano Yes
Verze Sparku (modul runtime) 2.4, 3.1, 3.2, 3.3, 3.4 3.3, 3.4, 3.5 (experimentální)
Automatické škálování Ano Yes
Dynamické přidělování exekutorů Ano, až 200 Ano, na základě kapacity
Upravitelné velikosti uzlů Ano, 3–200 Ano, 1 na kapacitě
Minimální konfigurace uzlu 3 uzly 1 uzel
Řada velikostí uzlu Optimalizováno pro paměť, akcelerované GPU Optimalizováno pro paměť
Velikost uzlu Small-XXXLarge Small-XXLarge
Automatické pozastavení Ano, přizpůsobitelné minimum 5 minut Ano, neskuteřitelné 2 minuty
Vysoká souběžnost No Ano
Pořadí V No Ano
Automatické ladění Sparku No Ano
Limity souběžnosti Pevný Proměnná založená na kapacitě
Více fondů Sparku Ano Ano (prostředí)
Inteligentní mezipaměť Ano Yes
Podpora rozhraní API nebo sady SDK Yes No
  • Modul runtime: Prostředky infrastruktury nepodporují verze Spark 2.4, 3.1 a 3.2. Fabric Spark podporuje Spark 3.3 s Delta 2.2 v rámci modulu runtime 1.1, Spark 3.4 s Delta 2.4 v rámci modulu runtime 1.2 a Spark 3.5 s Delta 3.0 v modulu runtime 1.3.

  • Automatické škálování: Ve Službě Azure Synapse Spark může fond škálovat až 200 uzlů bez ohledu na velikost uzlu. V prostředcích infrastruktury se maximální počet uzlů řídí velikostí a zřízenou kapacitou uzlu. Podívejte se na následující příklad skladové položky F64.

    Velikost fondu Sparku Azure Synapse Spark Fabric Spark (vlastní fond, skladová položka F64)
    Malá Minimum: 3, Max: 200 Minimum: 1, Max: 32
    Střední Minimum: 3, Max: 200 Minimum: 1, Max: 16
    Velká Minimum: 3, Max: 200 Minimum: 1, Max: 8
    X -Large Minimum: 3, Max: 200 Minimum: 1, Max: 4
    XX-Large Minimum: 3, Max: 200 Min: 1, Max: 2
  • Upravitelné velikosti uzlů: Ve Službě Azure Synapse Spark můžete přejít až na 200 uzlů. V prostředcích infrastruktury závisí počet uzlů, které můžete mít ve vlastním fondu Sparku, na velikosti uzlu a kapacitě prostředků infrastruktury. Kapacita je míra výpočetního výkonu, který můžete použít v Azure. Jedním ze způsobů, jak si to představit, je, že dvě virtuální jádra Sparku (jednotka výpočetního výkonu Sparku) se rovná jedné kapacitní jednotce. Skladová položka kapacity infrastruktury F64 má například 64 jednotek kapacity, což odpovídá 128 virtuálním jádrům Sparku. Pokud tedy zvolíte malou velikost uzlu, můžete mít ve fondu až 32 uzlů (128/4 = 32). Pak celkový počet virtuálních jader v kapacitě nebo virtuálních jádrech na velikost uzlu = celkový počet dostupných uzlů. Další informace najdete ve výpočetních prostředcích Sparku.

  • Řada velikostí uzlu: Fondy Prostředků Sparku podporují pouze rodinu velikostí uzlů optimalizovaných pro paměť. Pokud ve službě Azure Synapse používáte fond Spark s akcelerovanými gpu, nejsou dostupné v prostředcích infrastruktury.

  • Velikost uzlu: Velikost xx-velkého uzlu se dodává se 432 GB paměti v Azure Synapse, zatímco stejná velikost uzlu má v prostředcích infrastruktury 512 GB včetně 64 virtuálních jader. Zbývající velikosti uzlů (malé až x velké) mají stejné virtuální jádra a paměť v Azure Synapse i Fabric.

  • Automatické pozastavení: Pokud ho povolíte ve službě Azure Synapse Spark, fond Apache Spark se po zadané době nečinnosti automaticky pozastaví. Toto nastavení je možné konfigurovat v Azure Synapse (minimálně 5 minut), ale vlastní fondy mají po vypršení platnosti relace nekonfigurovatelné výchozí automatické pozastavení po dobu 2 minut . Výchozí vypršení platnosti relace je v prostředcích infrastruktury nastaveno na 20 minut.

  • Vysoká souběžnost: Prostředky infrastruktury podporují vysokou souběžnost v poznámkových blocích. Další informace najdete v tématu Režim vysoké souběžnosti v Fabric Sparku.

  • Omezení souběžnosti: Z hlediska souběžnosti má Azure Synapse Spark limit 50 souběžných spuštěných úloh na fond Sparku a 200 úloh ve frontě na fond Sparku. Maximální počet aktivních úloh je 250 na fond Sparku a 1 000 na pracovní prostor. V Microsoft Fabric Sparku definují skladové položky kapacity limity souběžnosti. Skladové položky mají různá omezení maximálního počtu souběžných úloh v rozsahu od 1 do 512. Fabric Spark má také dynamický systém omezování založený na rezervách, který umožňuje spravovat souběžnost a zajistit hladký provoz i v době špičky. Další informace najdete v tématu Omezení souběžnosti a zařazení do fronty v kapacitách Microsoft Fabric Spark a Fabric.

  • Více fondů Sparku: Pokud chcete mít více fondů Sparku, použijte prostředí Prostředků infrastruktury k výběru fondu podle poznámkového bloku nebo definice úlohy Sparku. Další informace najdete v tématu Vytvoření, konfigurace a použití prostředí v Microsoft Fabric.

Poznámka:

Zjistěte, jak migrovat fondy Azure Synapse Spark do prostředků infrastruktury.

Porovnání konfigurací Sparku

Konfigurace Sparku je možné použít na různých úrovních:

  • Úroveň prostředí: Tyto konfigurace se používají jako výchozí konfigurace pro všechny úlohy Sparku v prostředí.
  • Vložená úroveň: Nastavte konfigurace Sparku vložené pomocí poznámkových bloků a definic úloh Sparku.

Obě možnosti jsou sice podporované v Azure Synapse Sparku a prostředcích infrastruktury, ale je potřeba vzít v úvahu některé aspekty:

Konfigurace Sparku Azure Synapse Spark Fabric Spark
Úroveň prostředí Ano, fondy Ano, prostředí
Na řádku Ano Yes
Import/export Ano Ano (.yml z prostředí)
Podpora rozhraní API nebo sady SDK Yes No
  • Úroveň prostředí: Ve službě Azure Synapse můžete definovat více konfigurací Sparku a přiřadit je různým fondům Spark. To můžete udělat v prostředcích infrastruktury pomocí prostředí.

  • Vloženo: V Azure Synapse podporují poznámkové bloky i úlohy Sparku připojení různých konfigurací Sparku. V prostředcích infrastruktury se konfigurace na úrovni relace přizpůsobují nastavením spark.conf.set(<conf_name>, <conf_value>) . Pro dávkové úlohy můžete také použít konfigurace prostřednictvím SparkConf.

  • Import/export: Tato možnost pro konfigurace Sparku je dostupná v prostředích infrastruktury.

  • Další důležité informace:

    • Neměnné konfigurace Sparku: Některé konfigurace Sparku jsou neměnné. Pokud se zobrazí zpráva AnalysisException: Can't modify the value of a Spark config: <config_name>, je daná vlastnost neměnná.
    • PLÁNOVAČ FAIR: Plánovač FAIR se používá v režimu vysoké souběžnosti.
    • V-Order: V-Order je optimalizace času zápisu použitá u souborů parquet povolených ve výchozím nastavení ve fondech Fabric Spark.
    • Optimalizovaný zápis: Optimalizovaný zápis je ve výchozím nastavení v Azure Synapse zakázaný, ale ve výchozím nastavení je povolený pro Fabric Spark.

Porovnání knihoven Sparku

Knihovny Sparku můžete použít na různých úrovních:

  • Úroveň pracovního prostoru: Tyto knihovny nemůžete nahrát nebo nainstalovat do svého pracovního prostoru a později je přiřadit ke konkrétnímu fondu Sparku ve službě Azure Synapse.
  • Úroveň prostředí: Knihovny můžete nahrát nebo nainstalovat do prostředí. Knihovny na úrovni prostředí jsou k dispozici pro všechny poznámkové bloky a definice úloh Sparku spuštěné v prostředí.
  • Vložené: Kromě knihoven na úrovni prostředí můžete také zadat vložené knihovny. Například na začátku relace poznámkového bloku.

Požadavky:

Knihovna Sparku Azure Synapse Spark Fabric Spark
Úroveň pracovního prostoru Yes No
Úroveň prostředí Ano, fondy Ano, prostředí
Na řádku Ano Yes
Import/export Ano Yes
Podpora rozhraní API nebo sady SDK Yes No
  • Další aspekty:
    • Integrované knihovny: Prostředky infrastruktury a Azure Synapse sdílejí společné jádro Sparku, ale můžou se mírně lišit v různých podpůrných knihovnách modulu runtime. Použití kódu je obvykle kompatibilní s některými výjimkami. V takovém případě mohou uživatelé potřebovat kompilaci, přidání vlastních knihoven a úpravu syntaxe. Tady najdete integrované knihovny modulu runtime Fabric Spark.

Porovnání poznámkových bloků

Poznámkové bloky a definice úloh Sparku jsou primárními položkami kódu pro vývoj úloh Apache Sparku v Prostředcích infrastruktury. Mezi poznámkovými bloky Azure Synapse Spark a poznámkovými bloky Spark v prostředcích infrastruktury jsou některé rozdíly:

Funkce poznámkového bloku Azure Synapse Spark Fabric Spark
Import/export Ano Yes
Konfigurace relace Ano, uživatelské rozhraní a vložené Ano, uživatelské rozhraní (prostředí) a vložené
IntelliSense Ano Yes
mssparkutils Ano Yes
Prostředky poznámkového bloku No Ano
Spolupracovat No Ano
Vysoká souběžnost No Ano
.NET pro Spark C# Yes No
Podpora aktivit kanálu Ano Yes
Integrovaná podpora naplánovaného spuštění No Ano
Podpora rozhraní API nebo sady SDK Ano Yes
  • mssparkutils: Vzhledem k tomu, že připojení DMTS nejsou v prostředcích infrastruktury dosud podporována, jsou podporovány pouze getToken a getSecret jsou nyní podporovány v prostředcích Infrastruktury pro mssparkutils.credentials. mssparkutils.env zatím se nepodporuje.

  • Zdroje informací o poznámkových blocích: Poznámkové bloky prostředků infrastruktury poskytují systém souborů podobný systému Unix, který vám pomůže se správou složek a souborů. Další informace najdete v tématu Použití poznámkových bloků Microsoft Fabric.

  • Spolupráce: Poznámkový blok Fabric je položka pro spolupráci, která podporuje více uživatelů, kteří upravují stejný poznámkový blok. Další informace najdete v tématu Použití poznámkových bloků Microsoft Fabric.

  • Vysoká souběžnost: V prostředcích infrastruktury můžete připojit poznámkové bloky k relaci s vysokou souběžností. Tato možnost je alternativou pro uživatele používající ThreadPoolExecutor v Azure Synapse. Další informace najdete v tématu Konfigurace režimu vysoké souběžnosti pro poznámkové bloky Fabric.

  • .NET pro Spark C#: Prostředky infrastruktury nepodporují .NET Spark (C#). Doporučujeme ale uživatelům se stávajícími úlohami napsanými v jazyce C# nebo F# migrovat do Pythonu nebo Scaly.

  • Podpora integrovaných naplánovaných spuštění: Prostředky infrastruktury podporují naplánovaná spuštění pro poznámkové bloky.

  • Další důležité informace:

    • Funkce v poznámkovém bloku, které jsou podporované jenom v konkrétní verzi Sparku, můžete použít. Mějte na paměti, že Fabric nepodporuje Spark 2.4 a 3.1.
    • Pokud váš poznámkový blok nebo úloha Sparku používá propojenou službu s různými připojeními ke zdroji dat nebo přípojnými body, měli byste úlohy Sparku upravit tak, aby používaly alternativní metody pro zpracování připojení k externím zdrojům dat a jímkách. Pomocí kódu Sparku se připojte ke zdrojům dat pomocí dostupných knihoven Sparku.

Porovnání definic úloh Sparku

Důležité aspekty definice úloh Sparku:

Funkce úlohy Sparku Azure Synapse Spark Fabric Spark
PySpark Ano Yes
Scala Ano Yes
.NET pro Spark C# Yes No
SparkR No Ano
Import/export Ano (uživatelské rozhraní) No
Podpora aktivit kanálu Yes No
Integrovaná podpora naplánovaného spuštění No Ano
Zásady opakování pokusů No Ano
Podpora rozhraní API nebo sady SDK Ano Yes
  • Úlohy Sparku: Můžete přenést .py/. Soubory R/JAR. Prostředky infrastruktury podporují SparkR. Definice úlohy Sparku podporuje referenční soubory, argumenty příkazového řádku, konfigurace Sparku a odkazy na lakehouse.

  • Import/export: V Azure Synapse můžete z uživatelského rozhraní importovat a exportovat definice úloh Sparku založené na json. Tato funkce ještě není v prostředcích infrastruktury dostupná.

  • .NET pro Spark C#: Prostředky infrastruktury nepodporují .NET Spark (C#). Doporučuje se ale, aby uživatelé s existujícími úlohami napsanými v jazyce C# nebo F# migrovali do Pythonu nebo Scaly.

  • Podpora aktivit kanálu: Datové kanály v prostředcích infrastruktury zatím neobsahují aktivitu definice úlohy Sparku. Naplánovaná spuštění můžete použít, pokud chcete úlohu Sparku spouštět pravidelně.

  • Podpora předdefinovaných plánovaných spuštění: Prostředky infrastruktury podporují naplánovaná spuštění pro definici úlohy Sparku.

  • Zásady opakování: Tato možnost umožňuje uživatelům spouštět úlohy streamování strukturované ve Sparku na neomezenou dobu.

Porovnání metastoru Hive (HMS)

Rozdíly a aspekty metastoru Hive:

Typ HMS Azure Synapse Spark Fabric Spark
Interní HMS Ano Ano (jezero)
Externí HMS Yes No
  • Externí HMS: Prostředky infrastruktury v současné době nepodporují rozhraní API katalogu a přístup k externímu metastoru Hive (HMS).