Sdílet prostřednictvím


Volba technologie dávkového zpracování v Azure

Řešení pro velké objemy dat se často skládají z samostatných úloh dávkového zpracování, které přispívají k celkovému řešení zpracování dat. Dávkové zpracování můžete použít pro úlohy, které nevyžadují okamžitý přístup k přehledům. Dávkové zpracování může doplňovat požadavky na zpracování v reálném čase. Dávkové zpracování můžete použít také k vyvážení složitosti a snížení nákladů na celkovou implementaci.

Základním požadavkem modulů dávkového zpracování je horizontální navýšení kapacity výpočtů pro zpracování velkého objemu dat. Na rozdíl od zpracování v reálném čase má dávkové zpracování latenci nebo čas mezi příjmem dat a výpočtem výsledku minut nebo hodin.

Volba technologie pro dávkové zpracování

Microsoft nabízí několik služeb, které můžete použít k dávkovému zpracování.

Microsoft Fabric

Microsoft Fabric je univerzální analytická a datová platforma pro organizace. Jedná se o nabídku softwaru jako služby, která zjednodušuje zřizování, správu a řízení komplexního analytického řešení. Platforma zajišťuje přesun, zpracování, příjem, transformaci a vytváření sestav dat. Funkce platformy Fabric, které používáte pro dávkové zpracování, zahrnují přípravu dat, datové sklady, lakehouse a zpracování pomocí Apache Spark. Azure Data Factory ve službě Fabric také podporuje datová jezera. Pro zjednodušení a zrychlení vývoje můžete povolit copilot řízený AI.

  • Jazyky: R, Python, Java, Scala a SQL

  • Zabezpečení: Spravovaná virtuální síť a OneLake řízení přístupu založené na rolích (RBAC)

  • Primární úložiště: OneLake, který má klávesové zkratky a možnosti zrcadlení

  • Spark: Předhydratovaný startovací fond a vlastní fond Sparku s předdefinovanými velikostmi uzlů

Azure Synapse Analytics

Azure Synapse Analytics je podniková analytická služba, která spojuje technologie SQL i Spark v rámci jediné konstrukce pracovního prostoru. Azure Synapse Analytics zjednodušuje zabezpečení, zásady správného řízení a správu. Každý pracovní prostor má integrované datové kanály, které můžete použít k vytváření kompletních pracovních postupů. Můžete také zřídit vyhrazený fond SQL pro rozsáhlé analýzy, bezserverový koncový bod SQL, který můžete použít k přímému dotazování na jezero a modul runtime Sparku pro distribuované zpracování dat.

  • Jazyky: Python, Java, Scala a SQL

  • Bezpečnost: Spravované virtuální sítě, řízení přístupu na základě role v Azure (Azure RBAC) a seznamy řízení přístupu k úložišti ve službě Azure Data Lake Storage

  • Primární úložiště: Data Lake Storage a také se integruje s jinými zdroji.

  • Spark: Vlastní nastavení konfigurace Sparku s předdefinovanými velikostmi uzlů

Azure Databricks

Azure Databricks je analytická platforma založená na Sparku. Nabízí bohaté a prémiové funkce Sparku, které jsou postavené na open-source Sparku. Azure Databricks je služba Microsoftu, která se integruje se zbývajícími službami Azure. Nabízí další konfigurace pro nasazení clusteru Spark. A Unity Catalog pomáhá zjednodušit zásady správného řízení objektů Sparku v Azure Databricks.

  • Jazyky: R, Python, Java, Scala a Spark SQL.

  • Zabezpečení: Ověřování uživatelů pomocí Microsoft Entra ID.

  • Primární úložiště: Integrovaná integrace se službou Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics a dalšími službami. Další informace najdete v tématu Zdroje dat.

Mezi další výhody patří:

Klíčová kritéria výběru

Pokud chcete zvolit technologii dávkového zpracování, zvažte následující otázky:

  • Chcete spravovanou službu nebo chcete spravovat vlastní servery?

  • Chcete vytvořit logiku dávkového zpracování deklarativní nebo imperativní?

  • Provádíte dávkové zpracování v shlukech? Pokud ano, zvažte možnosti, které umožňují automatické ukončení clusteru nebo cenové modely pro každou dávkovou úlohu.

  • Potřebujete dotazovat relační úložiště dat spolu s dávkovým zpracováním, například k vyhledání referenčních dat? Pokud ano, zvažte možnosti, které umožňují dotazovat se na externí relační úložiště.

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech mezi službami.

Obecné možnosti

Schopnost Textilie Azure Synapse Analytics Azure Databricks
Software jako služba Ano1 Ne Ne
Spravovaná služba Ne Ano Ano
Relační úložiště dat Ano Ano Ano
Cenový model Jednotky kapacity Databázový fond SQL nebo hodina provozu clusteru Jednotka Azure Databricks 2 a hodina clusteru

[1] Přiřazená kapacita síťové vrstvy.

[2] Jednotka Azure Databricks představuje výpočetní kapacitu za hodinu.

Další funkce

Schopnost Textilie Azure Synapse Analytics Azure Databricks
Automatické škálování Ne Ne Ano
Granularita škálování Skladová položka Per Fabric V rámci clusteru nebo fondu SQL Na každý cluster
Ukládání dat do mezipaměti v paměti Ne Ano Ano
Dotazování z externích relačních úložišť Ano Ne Ano
Ověřování Microsoft Entra ID SQL nebo Microsoft Entra ID Microsoft Entra ID
Auditování Ano Ano Ano
Zabezpečení na úrovni řádků Ano Ano 1 Ano
Podporuje brány firewall. Ano Ano Ano
Dynamické maskování dat Ano Ano Ano

[1] Filtruje pouze predikáty. Další informace najdete v tématu Zabezpečení na úrovni řádků.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autoři:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky