Porovnání Datoví technici prostředků infrastruktury a Azure Synapse Sparku

Článek
11/15/2023

Toto porovnání mezi prostředky infrastruktury Datoví technici a Azure Synapse Spark poskytuje souhrn klíčových funkcí a podrobnou analýzu napříč různými kategoriemi, mezi které patří fondy Sparku, konfigurace, knihovny, poznámkové bloky a definice úloh Sparku.

Následující tabulka porovnává Azure Synapse Spark a Fabric Spark v různých kategoriích:

Kategorie	Azure Synapse Spark	Fabric Spark
Fondy úloh Sparku	Fond Sparku - -	Vlastní fond / Starter Pořadí V Vysoká souběžnost
Konfigurace Sparku	Úroveň fondu Úroveň definice úlohy Poznámkový blok nebo Spark	Úroveň prostředí Úroveň definice úlohy Poznámkový blok nebo Spark
Knihovny Sparku	Balíčky na úrovni pracovního prostoru Balíčky na úrovni fondu Vložené balíčky	- Knihovny prostředí Vložené knihovny
Zdroje informací	Poznámkový blok (Python, Scala, Spark SQL, R, .NET) Definice úlohy Sparku (Python, Scala, .NET) Datové kanály Synapse Aktivity kanálu (poznámkový blok, definice úlohy Sparku)	Poznámkový blok (Python, Scala, Spark SQL, R) Definice úlohy Sparku (Python, Scala, R) Datové kanály služby Data Factory Aktivity kanálu (poznámkový blok)
Data	Primární úložiště (ADLS Gen2) Rezidence dat (na základě clusteru nebo oblasti)	Primární úložiště (OneLake) Rezidence dat (kapacita/oblast)
Metadata	Interní metastore Hive (HMS) Externí HMS (s využitím Azure SQL DB)	Interní HMS (jezero) -
Propojení	typ Připojení oru (propojené služby) Zdroje dat Zdroj dat konn. s identitou pracovního prostoru	typ Připojení oru (DMTS) Zdroje dat -
Zabezpečení	Řízení přístupu na základě role a přístupu Seznamy ACL úložiště (ADLS Gen2) Privátní propojení Spravovaná virtuální síť (izolace sítě) Identita pracovního prostoru Synapse Ochrana před exfiltrací dat (DEP) Značky služeb Key Vault (prostřednictvím služby mssparkutils/ propojené služby)	Řízení přístupu na základě role a přístupu OneLake RBAC Privátní propojení Spravovaná virtuální síť Identita pracovního prostoru - Značky služeb Key Vault (prostřednictvím nástroje mssparkutils)
DevOps	Integrace Azure DevOps CI/CD (žádná integrovaná podpora)	Integrace Azure DevOps Kanály nasazení
Prostředí vývojáře	Integrace integrovaného vývojového prostředí (IntelliJ) Uživatelské rozhraní synapse Studia Spolupráce (pracovní prostory) Livy API ROZHRANÍ API/SADA SDK mssparkutils	Integrace integrovaného vývojového prostředí (VS Code) Uživatelské rozhraní Fabric Spolupráce (pracovní prostory a sdílení) - ROZHRANÍ API/SADA SDK mssparkutils
Protokolování a monitorování	Spark Advisor Integrované fondy a úlohy monitorování (prostřednictvím nástroje Synapse Studio) Server historie Sparku Prometheus/Grafana Log Analytics Účet úložiště Event Hubs	Spark Advisor Integrované fondy a úlohy monitorování (prostřednictvím centra monitorování) Server historie Sparku - - - -
Provozní kontinuita a zotavení po havárii (BCDR)	BCDR (data) ADLS Gen2	BCDR (data) OneLake

Důležité informace a omezení:

Integrace DMTS: DmTS nemůžete používat prostřednictvím poznámkových bloků a definic úloh Sparku.
RBAC na úrovni úloh: Prostředky infrastruktury podporují čtyři různé role pracovního prostoru. Další informace najdete v tématu Role v pracovních prostorech v Microsoft Fabric.
Spravovaná identita: Prostředky infrastruktury v současné době nepodporují spouštění poznámkových bloků a definic úloh Sparku pomocí identity pracovního prostoru nebo spravované identity pro Azure KeyVault v poznámkových blocích.
CI/CD: Můžete použít kanály rozhraní API/ sady SDK a nasazení infrastruktury.
Rozhraní Api Livy a způsob odesílání a správy úloh Sparku: Rozhraní API Livy je v plánu, ale zatím není v prostředcích infrastruktury zveřejněné. Pomocí uživatelského rozhraní Fabric musíte vytvořit poznámkové bloky a definice úloh Sparku.
Protokoly a metriky Sparku: Ve službě Azure Synapse můžete generovat protokoly Sparku a metriky do vlastního úložiště, jako je Log Analytics, objekt blob a Event Hubs. Seznam aplikací Spark pro pracovní prostor můžete získat také z rozhraní API. V současné době nejsou obě tyto funkce dostupné v prostředcích infrastruktury.
Další důležité informace:
- JDBC: Podpora připojení JDBC není v současné době dostupná v Prostředcích infrastruktury.

Porovnání fondu Sparku

Následující tabulka porovnává fondy Azure Synapse Spark a Fabric Spark.

Nastavení Sparku	Azure Synapse Spark	Fabric Spark
Živý fond (předhřejné instance)	-	Ano, úvodní fondy
Vlastní fond	Ano	Yes
Verze Sparku (modul runtime)	2.4, 3.1, 3.2, 3.3, 3.4	3.3, 3.4, 3.5 (experimentální)
Automatické škálování	Ano	Yes
Dynamické přidělování exekutorů	Ano, až 200	Ano, na základě kapacity
Upravitelné velikosti uzlů	Ano, 3–200	Ano, 1 na kapacitě
Minimální konfigurace uzlu	3 uzly	1 uzel
Řada velikostí uzlu	Optimalizováno pro paměť, akcelerované GPU	Optimalizováno pro paměť
Velikost uzlu	Small-XXXLarge	Small-XXLarge
Automatické pozastavení	Ano, přizpůsobitelné minimum 5 minut	Ano, neskuteřitelné 2 minuty
Vysoká souběžnost	No	Ano
Pořadí V	No	Ano
Automatické ladění Sparku	No	Ano
Limity souběžnosti	Pevný	Proměnná založená na kapacitě
Více fondů Sparku	Ano	Ano (prostředí)
Inteligentní mezipaměť	Ano	Yes
Podpora rozhraní API nebo sady SDK	Yes	No

Modul runtime: Prostředky infrastruktury nepodporují verze Spark 2.4, 3.1 a 3.2. Fabric Spark podporuje Spark 3.3 s Delta 2.2 v rámci modulu runtime 1.1, Spark 3.4 s Delta 2.4 v rámci modulu runtime 1.2 a Spark 3.5 s Delta 3.0 v modulu runtime 1.3.

Automatické škálování: Ve Službě Azure Synapse Spark může fond škálovat až 200 uzlů bez ohledu na velikost uzlu. V prostředcích infrastruktury se maximální počet uzlů řídí velikostí a zřízenou kapacitou uzlu. Podívejte se na následující příklad skladové položky F64.

Velikost fondu Sparku	Azure Synapse Spark	Fabric Spark (vlastní fond, skladová položka F64)
Malá	Minimum: 3, Max: 200	Minimum: 1, Max: 32
Střední	Minimum: 3, Max: 200	Minimum: 1, Max: 16
Velká	Minimum: 3, Max: 200	Minimum: 1, Max: 8
X -Large	Minimum: 3, Max: 200	Minimum: 1, Max: 4
XX-Large	Minimum: 3, Max: 200	Min: 1, Max: 2

Upravitelné velikosti uzlů: Ve Službě Azure Synapse Spark můžete přejít až na 200 uzlů. V prostředcích infrastruktury závisí počet uzlů, které můžete mít ve vlastním fondu Sparku, na velikosti uzlu a kapacitě prostředků infrastruktury. Kapacita je míra výpočetního výkonu, který můžete použít v Azure. Jedním ze způsobů, jak si to představit, je, že dvě virtuální jádra Sparku (jednotka výpočetního výkonu Sparku) se rovná jedné kapacitní jednotce. Skladová položka kapacity infrastruktury F64 má například 64 jednotek kapacity, což odpovídá 128 virtuálním jádrům Sparku. Pokud tedy zvolíte malou velikost uzlu, můžete mít ve fondu až 32 uzlů (128/4 = 32). Pak celkový počet virtuálních jader v kapacitě nebo virtuálních jádrech na velikost uzlu = celkový počet dostupných uzlů. Další informace najdete ve výpočetních prostředcích Sparku.
Řada velikostí uzlu: Fondy Prostředků Sparku podporují pouze rodinu velikostí uzlů optimalizovaných pro paměť. Pokud ve službě Azure Synapse používáte fond Spark s akcelerovanými gpu, nejsou dostupné v prostředcích infrastruktury.
Velikost uzlu: Velikost xx-velkého uzlu se dodává se 432 GB paměti v Azure Synapse, zatímco stejná velikost uzlu má v prostředcích infrastruktury 512 GB včetně 64 virtuálních jader. Zbývající velikosti uzlů (malé až x velké) mají stejné virtuální jádra a paměť v Azure Synapse i Fabric.
Automatické pozastavení: Pokud ho povolíte ve službě Azure Synapse Spark, fond Apache Spark se po zadané době nečinnosti automaticky pozastaví. Toto nastavení je možné konfigurovat v Azure Synapse (minimálně 5 minut), ale vlastní fondy mají po vypršení platnosti relace nekonfigurovatelné výchozí automatické pozastavení po dobu 2 minut . Výchozí vypršení platnosti relace je v prostředcích infrastruktury nastaveno na 20 minut.
Vysoká souběžnost: Prostředky infrastruktury podporují vysokou souběžnost v poznámkových blocích. Další informace najdete v tématu Režim vysoké souběžnosti v Fabric Sparku.
Omezení souběžnosti: Z hlediska souběžnosti má Azure Synapse Spark limit 50 souběžných spuštěných úloh na fond Sparku a 200 úloh ve frontě na fond Sparku. Maximální počet aktivních úloh je 250 na fond Sparku a 1 000 na pracovní prostor. V Microsoft Fabric Sparku definují skladové položky kapacity limity souběžnosti. Skladové položky mají různá omezení maximálního počtu souběžných úloh v rozsahu od 1 do 512. Fabric Spark má také dynamický systém omezování založený na rezervách, který umožňuje spravovat souběžnost a zajistit hladký provoz i v době špičky. Další informace najdete v tématu Omezení souběžnosti a zařazení do fronty v kapacitách Microsoft Fabric Spark a Fabric.
Více fondů Sparku: Pokud chcete mít více fondů Sparku, použijte prostředí Prostředků infrastruktury k výběru fondu podle poznámkového bloku nebo definice úlohy Sparku. Další informace najdete v tématu Vytvoření, konfigurace a použití prostředí v Microsoft Fabric.

Poznámka:

Zjistěte, jak migrovat fondy Azure Synapse Spark do prostředků infrastruktury.

Porovnání konfigurací Sparku

Konfigurace Sparku je možné použít na různých úrovních:

Úroveň prostředí: Tyto konfigurace se používají jako výchozí konfigurace pro všechny úlohy Sparku v prostředí.
Vložená úroveň: Nastavte konfigurace Sparku vložené pomocí poznámkových bloků a definic úloh Sparku.

Obě možnosti jsou sice podporované v Azure Synapse Sparku a prostředcích infrastruktury, ale je potřeba vzít v úvahu některé aspekty:

Konfigurace Sparku	Azure Synapse Spark	Fabric Spark
Úroveň prostředí	Ano, fondy	Ano, prostředí
Na řádku	Ano	Yes
Import/export	Ano	Ano (.yml z prostředí)
Podpora rozhraní API nebo sady SDK	Yes	No

Úroveň prostředí: Ve službě Azure Synapse můžete definovat více konfigurací Sparku a přiřadit je různým fondům Spark. To můžete udělat v prostředcích infrastruktury pomocí prostředí.
Vloženo: V Azure Synapse podporují poznámkové bloky i úlohy Sparku připojení různých konfigurací Sparku. V prostředcích infrastruktury se konfigurace na úrovni relace přizpůsobují nastavením spark.conf.set(<conf_name>, <conf_value>) . Pro dávkové úlohy můžete také použít konfigurace prostřednictvím SparkConf.
Import/export: Tato možnost pro konfigurace Sparku je dostupná v prostředích infrastruktury.
Další důležité informace:
- Neměnné konfigurace Sparku: Některé konfigurace Sparku jsou neměnné. Pokud se zobrazí zpráva AnalysisException: Can't modify the value of a Spark config: <config_name>, je daná vlastnost neměnná.
- PLÁNOVAČ FAIR: Plánovač FAIR se používá v režimu vysoké souběžnosti.
- V-Order: V-Order je optimalizace času zápisu použitá u souborů parquet povolených ve výchozím nastavení ve fondech Fabric Spark.
- Optimalizovaný zápis: Optimalizovaný zápis je ve výchozím nastavení v Azure Synapse zakázaný, ale ve výchozím nastavení je povolený pro Fabric Spark.

Poznámka:

Zjistěte, jak migrovat konfigurace Sparku z Azure Synapse do prostředků infrastruktury.

Porovnání knihoven Sparku

Knihovny Sparku můžete použít na různých úrovních:

Úroveň pracovního prostoru: Tyto knihovny nemůžete nahrát nebo nainstalovat do svého pracovního prostoru a později je přiřadit ke konkrétnímu fondu Sparku ve službě Azure Synapse.
Úroveň prostředí: Knihovny můžete nahrát nebo nainstalovat do prostředí. Knihovny na úrovni prostředí jsou k dispozici pro všechny poznámkové bloky a definice úloh Sparku spuštěné v prostředí.
Vložené: Kromě knihoven na úrovni prostředí můžete také zadat vložené knihovny. Například na začátku relace poznámkového bloku.

Požadavky:

Knihovna Sparku	Azure Synapse Spark	Fabric Spark
Úroveň pracovního prostoru	Yes	No
Úroveň prostředí	Ano, fondy	Ano, prostředí
Na řádku	Ano	Yes
Import/export	Ano	Yes
Podpora rozhraní API nebo sady SDK	Yes	No

Další aspekty:
- Integrované knihovny: Prostředky infrastruktury a Azure Synapse sdílejí společné jádro Sparku, ale můžou se mírně lišit v různých podpůrných knihovnách modulu runtime. Použití kódu je obvykle kompatibilní s některými výjimkami. V takovém případě mohou uživatelé potřebovat kompilaci, přidání vlastních knihoven a úpravu syntaxe. Tady najdete integrované knihovny modulu runtime Fabric Spark.

Poznámka:

Zjistěte, jak migrovat knihovny Azure Synapse Spark do prostředků infrastruktury.

Porovnání poznámkových bloků

Poznámkové bloky a definice úloh Sparku jsou primárními položkami kódu pro vývoj úloh Apache Sparku v Prostředcích infrastruktury. Mezi poznámkovými bloky Azure Synapse Spark a poznámkovými bloky Spark v prostředcích infrastruktury jsou některé rozdíly:

Funkce poznámkového bloku	Azure Synapse Spark	Fabric Spark
Import/export	Ano	Yes
Konfigurace relace	Ano, uživatelské rozhraní a vložené	Ano, uživatelské rozhraní (prostředí) a vložené
IntelliSense	Ano	Yes
mssparkutils	Ano	Yes
Prostředky poznámkového bloku	No	Ano
Spolupracovat	No	Ano
Vysoká souběžnost	No	Ano
.NET pro Spark C#	Yes	No
Podpora aktivit kanálu	Ano	Yes
Integrovaná podpora naplánovaného spuštění	No	Ano
Podpora rozhraní API nebo sady SDK	Ano	Yes

mssparkutils: Vzhledem k tomu, že připojení DMTS nejsou v prostředcích infrastruktury dosud podporována, jsou podporovány pouze getToken a getSecret jsou nyní podporovány v prostředcích Infrastruktury pro mssparkutils.credentials. mssparkutils.env zatím se nepodporuje.
Zdroje informací o poznámkových blocích: Poznámkové bloky prostředků infrastruktury poskytují systém souborů podobný systému Unix, který vám pomůže se správou složek a souborů. Další informace najdete v tématu Použití poznámkových bloků Microsoft Fabric.
Spolupráce: Poznámkový blok Fabric je položka pro spolupráci, která podporuje více uživatelů, kteří upravují stejný poznámkový blok. Další informace najdete v tématu Použití poznámkových bloků Microsoft Fabric.
Vysoká souběžnost: V prostředcích infrastruktury můžete připojit poznámkové bloky k relaci s vysokou souběžností. Tato možnost je alternativou pro uživatele používající ThreadPoolExecutor v Azure Synapse. Další informace najdete v tématu Konfigurace režimu vysoké souběžnosti pro poznámkové bloky Fabric.
.NET pro Spark C#: Prostředky infrastruktury nepodporují .NET Spark (C#). Doporučujeme ale uživatelům se stávajícími úlohami napsanými v jazyce C# nebo F# migrovat do Pythonu nebo Scaly.
Podpora integrovaných naplánovaných spuštění: Prostředky infrastruktury podporují naplánovaná spuštění pro poznámkové bloky.
Další důležité informace:
- Funkce v poznámkovém bloku, které jsou podporované jenom v konkrétní verzi Sparku, můžete použít. Mějte na paměti, že Fabric nepodporuje Spark 2.4 a 3.1.
- Pokud váš poznámkový blok nebo úloha Sparku používá propojenou službu s různými připojeními ke zdroji dat nebo přípojnými body, měli byste úlohy Sparku upravit tak, aby používaly alternativní metody pro zpracování připojení k externím zdrojům dat a jímkách. Pomocí kódu Sparku se připojte ke zdrojům dat pomocí dostupných knihoven Sparku.

Poznámka:

Zjistěte, jak migrovat poznámkové bloky z Azure Synapse do prostředků infrastruktury.

Porovnání definic úloh Sparku

Důležité aspekty definice úloh Sparku:

Funkce úlohy Sparku	Azure Synapse Spark	Fabric Spark
PySpark	Ano	Yes
Scala	Ano	Yes
.NET pro Spark C#	Yes	No
SparkR	No	Ano
Import/export	Ano (uživatelské rozhraní)	No
Podpora aktivit kanálu	Yes	No
Integrovaná podpora naplánovaného spuštění	No	Ano
Zásady opakování pokusů	No	Ano
Podpora rozhraní API nebo sady SDK	Ano	Yes

Úlohy Sparku: Můžete přenést .py/. Soubory R/JAR. Prostředky infrastruktury podporují SparkR. Definice úlohy Sparku podporuje referenční soubory, argumenty příkazového řádku, konfigurace Sparku a odkazy na lakehouse.
Import/export: V Azure Synapse můžete z uživatelského rozhraní importovat a exportovat definice úloh Sparku založené na json. Tato funkce ještě není v prostředcích infrastruktury dostupná.
.NET pro Spark C#: Prostředky infrastruktury nepodporují .NET Spark (C#). Doporučuje se ale, aby uživatelé s existujícími úlohami napsanými v jazyce C# nebo F# migrovali do Pythonu nebo Scaly.
Podpora aktivit kanálu: Datové kanály v prostředcích infrastruktury zatím neobsahují aktivitu definice úlohy Sparku. Naplánovaná spuštění můžete použít, pokud chcete úlohu Sparku spouštět pravidelně.
Podpora předdefinovaných plánovaných spuštění: Prostředky infrastruktury podporují naplánovaná spuštění pro definici úlohy Sparku.
Zásady opakování: Tato možnost umožňuje uživatelům spouštět úlohy streamování strukturované ve Sparku na neomezenou dobu.

Poznámka:

Zjistěte, jak migrovat definice úloh Sparku z Azure Synapse do prostředků infrastruktury.

Porovnání metastoru Hive (HMS)

Rozdíly a aspekty metastoru Hive:

Typ HMS	Azure Synapse Spark	Fabric Spark
Interní HMS	Ano	Ano (jezero)
Externí HMS	Yes	No

Externí HMS: Prostředky infrastruktury v současné době nepodporují rozhraní API katalogu a přístup k externímu metastoru Hive (HMS).

Poznámka:

Zjistěte, jak migrovat metadata HMS katalogu Azure Synapse Spark do prostředků infrastruktury.

Další informace o možnostech migrace pro fondy, konfigurace, knihovny, poznámkové bloky a definice úloh Sparku
Migrace dat a kanálů
Migrace metadat metastoru Hive

Sdílet prostřednictvím

Porovnání Datoví technici prostředků infrastruktury a Azure Synapse Sparku

Porovnání fondu Sparku

Porovnání konfigurací Sparku

Porovnání knihoven Sparku

Porovnání poznámkových bloků

Porovnání definic úloh Sparku

Porovnání metastoru Hive (HMS)

Váš názor

Váš názor

Další materiály

Sdílet prostřednictvím

Porovnání Datoví technici prostředků infrastruktury a Azure Synapse Sparku

Porovnání fondu Sparku

Porovnání konfigurací Sparku

Porovnání knihoven Sparku

Porovnání poznámkových bloků

Porovnání definic úloh Sparku

Porovnání metastoru Hive (HMS)

Související obsah

Váš názor

Váš názor

Další materiály