Volba technologie dávkového zpracování v Azure

Řešení pro velké objemy dat se často skládají z samostatných úloh dávkového zpracování, které přispívají k celkovému řešení zpracování dat. Dávkové zpracování můžete použít pro úlohy, které nevyžadují okamžitý přístup k přehledům. Dávkové zpracování může doplňovat požadavky na zpracování v reálném čase. Dávkové zpracování můžete použít také k vyvážení složitosti a snížení nákladů na celkovou implementaci.

Základním požadavkem modulů dávkového zpracování je horizontální navýšení kapacity výpočtů pro zpracování velkého objemu dat. Na rozdíl od zpracování v reálném čase má dávkové zpracování latenci nebo čas mezi příjmem dat a výpočtem výsledku minut nebo hodin.

Volba technologie pro dávkové zpracování

Microsoft nabízí několik služeb, které můžete použít k dávkovému zpracování.

Microsoft Fabric

Microsoft Fabric je univerzální analytická a datová platforma pro organizace. Jedná se o nabídku softwaru jako služby, která zjednodušuje zřizování, správu a řízení komplexního analytického řešení. Platforma zajišťuje přesun, zpracování, příjem, transformaci a vytváření sestav dat. Funkce platformy Fabric, které používáte pro dávkové zpracování, zahrnují přípravu dat, datové sklady, lakehouse a zpracování pomocí Apache Spark. Azure Data Factory ve službě Fabric také podporuje datová jezera. Pro zjednodušení a zrychlení vývoje můžete povolit copilot řízený AI.

  • Jazyky: R, Python, Java, Scala a SQL

  • Zabezpečení: Spravovaná virtuální síť a OneLake řízení přístupu založené na rolích (RBAC)

  • Primární úložiště: OneLake, který má klávesové zkratky a možnosti zrcadlení

  • Spark: Předhydratovaný startovací fond a vlastní fond Sparku s předdefinovanými velikostmi uzlů

Azure Databricks

Azure Databricks je analytická platforma založená na Sparku. Nabízí bohaté a prémiové funkce Sparku, které jsou postavené na open-source Sparku. Azure Databricks je služba Microsoftu, která se integruje se zbývajícími službami Azure. Nabízí další konfigurace pro nasazení clusteru Spark. A Unity Catalog pomáhá zjednodušit zásady správného řízení objektů Sparku v Azure Databricks.

  • Jazyky: R, Python, Java, Scala a Spark SQL.

  • Zabezpečení: Ověřování uživatelů pomocí Microsoft Entra ID.

  • Primární úložiště: Integrovaná integrace se službou Azure Blob Storage, Data Lake Storage, Fabric OneLake a dalšími službami. Další informace najdete v tématu Zdroje dat.

Mezi další výhody patří:

Klíčová kritéria výběru

Pokud chcete zvolit technologii dávkového zpracování, zvažte následující otázky:

  • Chcete spravovanou službu nebo chcete spravovat vlastní servery?

  • Chcete vytvořit logiku dávkového zpracování deklarativní nebo imperativní?

  • Provádíte dávkové zpracování v shlukech? Pokud ano, zvažte možnosti, které umožňují automatické ukončení clusteru nebo cenové modely pro každou dávkovou úlohu.

  • Potřebujete dotazovat relační úložiště dat spolu s dávkovým zpracováním, například k vyhledání referenčních dat? Pokud ano, zvažte možnosti, které umožňují dotazovat se na externí relační úložiště.

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech mezi službami.

Obecné možnosti

Schopnost Textilie Azure Databricks
Software jako služba Ano1 Ne
Spravovaná služba Ne Ano
Relační úložiště dat Ano Ano
Cenový model Jednotky kapacity Jednotka Azure Databricks 2 a hodina clusteru

[1] Přiřazená kapacita síťové vrstvy.

[2] Jednotka Azure Databricks představuje výpočetní kapacitu za hodinu.

Další funkce

Schopnost Textilie Azure Databricks
Automatické škálování Ne Ano
Granularita škálování Skladová položka Per Fabric Na každý cluster
Ukládání dat do mezipaměti v paměti Ne Ano
Dotazování z externích relačních úložišť Ano Ano
Ověřování Microsoft Entra ID Microsoft Entra ID
Auditování Ano Ano
Zabezpečení na úrovni řádků Ano Ano
Podporuje brány firewall. Ano Ano
Dynamické maskování dat Ano Ano

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autoři:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky