Volba technologie dávkového zpracování v Azure
Řešení pro velké objemy dat se často skládají z samostatných úloh dávkového zpracování, které přispívají k celkovému řešení zpracování dat. Dávkové zpracování můžete použít pro úlohy, které nevyžadují okamžitý přístup k přehledům. Dávkové zpracování může doplňovat požadavky na zpracování v reálném čase. Dávkové zpracování můžete použít také k vyvážení složitosti a snížení nákladů na celkovou implementaci.
Základním požadavkem modulů dávkového zpracování je horizontální navýšení kapacity výpočtů pro zpracování velkého objemu dat. Na rozdíl od zpracování v reálném čase má dávkové zpracování latenci nebo čas mezi příjmem dat a výpočtem výsledku minut nebo hodin.
Volba technologie pro dávkové zpracování
Microsoft nabízí několik služeb, které můžete použít k dávkovému zpracování.
Microsoft Fabric
Microsoft Fabric je univerzální analytická a datová platforma pro organizace. Jedná se o nabídku softwaru jako služby, která zjednodušuje zřizování, správu a řízení komplexního analytického řešení. Prostředky infrastruktury zpracovávají přesun, zpracování, příjem dat, transformaci a vytváření sestav. Funkce prostředků infrastruktury, které používáte pro dávkové zpracování, zahrnují přípravu dat, datové sklady, jezera a zpracování Apache Sparku. Azure Data Factory v Prostředcích infrastruktury také podporuje jezerahouse. Pro zjednodušení a zrychlení vývoje můžete povolit copilot řízený AI.
Jazyky: R, Python, Java, Scala a SQL
Zabezpečení: Spravovaná virtuální síť a řízení přístupu na základě role oneLake (RBAC)
Primární úložiště: OneLake, který má klávesové zkratky a možnosti zrcadlení
Spark: Předhydrovaný počáteční fond a vlastní fond Sparku s předdefinovanými velikostmi uzlů
Azure Synapse Analytics
Azure Synapse Analytics je podniková analytická služba, která spojuje technologie SQL i Spark v rámci jediné konstrukce pracovního prostoru. Azure Synapse Analytics zjednodušuje zabezpečení, zásady správného řízení a správu. Každý pracovní prostor má integrované datové kanály, které můžete použít k vytváření kompletních pracovních postupů. Můžete také zřídit vyhrazený fond SQL pro rozsáhlé analýzy, bezserverový koncový bod SQL, který můžete použít k přímému dotazování na jezero a modul runtime Sparku pro distribuované zpracování dat.
Jazyky: Python, Java, Scala a SQL
Zabezpečení: Spravovaná virtuální síť, řízení přístupu na základě role a řízení přístupu k úložišti a seznamy řízení přístupu k úložišti ve službě Azure Data Lake Storage
Primární úložiště: Data Lake Storage a také se integruje s jinými zdroji.
Spark: Vlastní nastavení konfigurace Sparku s předdefinovanými velikostmi uzlů
Azure Databricks
Azure Databricks je analytická platforma založená na Sparku. Nabízí bohaté a prémiové funkce Sparku, které jsou postavené na opensourcových sparkech. Azure Databricks je služba Microsoftu, která se integruje se zbývajícími službami Azure. Nabízí další konfigurace pro nasazení clusteru Spark. A Unity Catalog pomáhá zjednodušit zásady správného řízení objektů Sparku v Azure Databricks.
Jazyky: R, Python, Java, Scala a Spark SQL.
Zabezpečení: Ověřování uživatelů pomocí Microsoft Entra ID.
Primární úložiště: Integrovaná integrace se službou Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics a dalšími službami. Další informace najdete v tématu Zdroje dat.
Mezi další výhody patří:
Webové poznámkové bloky pro spolupráci a zkoumání dat
Rychlé časy spuštění clusteru, automatické ukončení a automatické škálování
Podpora clusterů s podporou GPU
Klíčová kritéria výběru
Pokud chcete zvolit technologii dávkového zpracování, zvažte následující otázky:
Chcete spravovanou službu nebo chcete spravovat vlastní servery?
Chcete vytvořit logiku dávkového zpracování deklarativní nebo imperativní?
Provádíte dávkové zpracování v shlukech? Pokud ano, zvažte možnosti, které umožňují automatické ukončení clusteru nebo cenové modely pro každou dávkovou úlohu.
Potřebujete dotazovat relační úložiště dat spolu s dávkovým zpracováním, například k vyhledání referenčních dat? Pokud ano, zvažte možnosti, které umožňují dotazovat se na externí relační úložiště.
Matice schopností
Následující tabulky shrnují klíčové rozdíly v možnostech mezi službami.
Obecné možnosti
Schopnost | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Software jako služba | Ano1 | No | Ne |
Spravovaná služba | No | Ano | Yes |
Relační úložiště dat | Ano | Ano | Yes |
Cenový model | Jednotky kapacity | Fond SQL nebo hodina clusteru | 2. jednotka Azure Databricks a hodina clusteru |
[1] Přiřazená kapacita prostředků infrastruktury.
[2] Jednotka Azure Databricks je schopnost zpracování za hodinu.
Další funkce
Schopnost | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Automatické škálování | No | No | Ano |
Členitost horizontálního navýšení kapacity | Skladová položka Per Fabric | Na cluster nebo na fond SQL | Na cluster |
Ukládání dat do mezipaměti v paměti | No | Ano | Yes |
Dotazování z externích relačních úložišť | Yes | Ne | Ano |
Ověřování | Microsoft Entra ID | SQL nebo Microsoft Entra ID | Microsoft Entra ID |
Auditování | Ano | Ano | Yes |
Zabezpečení na úrovni řádků | Ano | Ano 1 | Ano |
Podporuje brány firewall. | Ano | Ano | Yes |
Dynamické maskování dat | Ano | Ano | Yes |
[1] Filtruje pouze predikáty. Další informace najdete v tématu Zabezpečení na úrovni řádků.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autoři:
- Zoiner Tejada | Generální ředitel a architekt
- Pratima Valavala | Hlavní architekt řešení
Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.
Další kroky
- Co je Fabric?
- Průvodce rozhodováním o prostředcích infrastruktury
- Školení: Úvod do Azure Synapse Analytics
- Co je Azure HDInsight?
- Co je Azure Databricks?