Sdílet prostřednictvím


Volba technologie dávkového zpracování v Azure

Řešení pro velké objemy dat se často skládají z samostatných úloh dávkového zpracování, které přispívají k celkovému řešení zpracování dat. Dávkové zpracování můžete použít pro úlohy, které nevyžadují okamžitý přístup k přehledům. Dávkové zpracování může doplňovat požadavky na zpracování v reálném čase. Dávkové zpracování můžete použít také k vyvážení složitosti a snížení nákladů na celkovou implementaci.

Základním požadavkem modulů dávkového zpracování je horizontální navýšení kapacity výpočtů pro zpracování velkého objemu dat. Na rozdíl od zpracování v reálném čase má dávkové zpracování latenci nebo čas mezi příjmem dat a výpočtem výsledku minut nebo hodin.

Volba technologie pro dávkové zpracování

Microsoft nabízí několik služeb, které můžete použít k dávkovému zpracování.

Microsoft Fabric

Microsoft Fabric je univerzální analytická a datová platforma pro organizace. Jedná se o nabídku softwaru jako služby, která zjednodušuje zřizování, správu a řízení komplexního analytického řešení. Prostředky infrastruktury zpracovávají přesun, zpracování, příjem dat, transformaci a vytváření sestav. Funkce prostředků infrastruktury, které používáte pro dávkové zpracování, zahrnují přípravu dat, datové sklady, jezera a zpracování Apache Sparku. Azure Data Factory v Prostředcích infrastruktury také podporuje jezerahouse. Pro zjednodušení a zrychlení vývoje můžete povolit copilot řízený AI.

  • Jazyky: R, Python, Java, Scala a SQL

  • Zabezpečení: Spravovaná virtuální síť a řízení přístupu na základě role oneLake (RBAC)

  • Primární úložiště: OneLake, který má klávesové zkratky a možnosti zrcadlení

  • Spark: Předhydrovaný počáteční fond a vlastní fond Sparku s předdefinovanými velikostmi uzlů

Azure Synapse Analytics

Azure Synapse Analytics je podniková analytická služba, která spojuje technologie SQL i Spark v rámci jediné konstrukce pracovního prostoru. Azure Synapse Analytics zjednodušuje zabezpečení, zásady správného řízení a správu. Každý pracovní prostor má integrované datové kanály, které můžete použít k vytváření kompletních pracovních postupů. Můžete také zřídit vyhrazený fond SQL pro rozsáhlé analýzy, bezserverový koncový bod SQL, který můžete použít k přímému dotazování na jezero a modul runtime Sparku pro distribuované zpracování dat.

  • Jazyky: Python, Java, Scala a SQL

  • Zabezpečení: Spravovaná virtuální síť, řízení přístupu na základě role a řízení přístupu k úložišti a seznamy řízení přístupu k úložišti ve službě Azure Data Lake Storage

  • Primární úložiště: Data Lake Storage a také se integruje s jinými zdroji.

  • Spark: Vlastní nastavení konfigurace Sparku s předdefinovanými velikostmi uzlů

Azure Databricks

Azure Databricks je analytická platforma založená na Sparku. Nabízí bohaté a prémiové funkce Sparku, které jsou postavené na opensourcových sparkech. Azure Databricks je služba Microsoftu, která se integruje se zbývajícími službami Azure. Nabízí další konfigurace pro nasazení clusteru Spark. A Unity Catalog pomáhá zjednodušit zásady správného řízení objektů Sparku v Azure Databricks.

  • Jazyky: R, Python, Java, Scala a Spark SQL.

  • Zabezpečení: Ověřování uživatelů pomocí Microsoft Entra ID.

  • Primární úložiště: Integrovaná integrace se službou Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics a dalšími službami. Další informace najdete v tématu Zdroje dat.

Mezi další výhody patří:

Klíčová kritéria výběru

Pokud chcete zvolit technologii dávkového zpracování, zvažte následující otázky:

  • Chcete spravovanou službu nebo chcete spravovat vlastní servery?

  • Chcete vytvořit logiku dávkového zpracování deklarativní nebo imperativní?

  • Provádíte dávkové zpracování v shlukech? Pokud ano, zvažte možnosti, které umožňují automatické ukončení clusteru nebo cenové modely pro každou dávkovou úlohu.

  • Potřebujete dotazovat relační úložiště dat spolu s dávkovým zpracováním, například k vyhledání referenčních dat? Pokud ano, zvažte možnosti, které umožňují dotazovat se na externí relační úložiště.

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech mezi službami.

Obecné možnosti

Schopnost Fabric Azure Synapse Analytics Azure Databricks
Software jako služba Ano1 No Ne
Spravovaná služba No Ano Yes
Relační úložiště dat Ano Ano Yes
Cenový model Jednotky kapacity Fond SQL nebo hodina clusteru 2. jednotka Azure Databricks a hodina clusteru

[1] Přiřazená kapacita prostředků infrastruktury.

[2] Jednotka Azure Databricks je schopnost zpracování za hodinu.

Další funkce

Schopnost Fabric Azure Synapse Analytics Azure Databricks
Automatické škálování No No Ano
Členitost horizontálního navýšení kapacity Skladová položka Per Fabric Na cluster nebo na fond SQL Na cluster
Ukládání dat do mezipaměti v paměti No Ano Yes
Dotazování z externích relačních úložišť Yes Ne Ano
Ověřování Microsoft Entra ID SQL nebo Microsoft Entra ID Microsoft Entra ID
Auditování Ano Ano Yes
Zabezpečení na úrovni řádků Ano Ano 1 Ano
Podporuje brány firewall. Ano Ano Yes
Dynamické maskování dat Ano Ano Yes

[1] Filtruje pouze predikáty. Další informace najdete v tématu Zabezpečení na úrovni řádků.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autoři:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky