Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Řešení pro velké objemy dat se často skládají z samostatných úloh dávkového zpracování, které přispívají k celkovému řešení zpracování dat. Dávkové zpracování můžete použít pro úlohy, které nevyžadují okamžitý přístup k přehledům. Dávkové zpracování může doplňovat požadavky na zpracování v reálném čase. Dávkové zpracování můžete použít také k vyvážení složitosti a snížení nákladů na celkovou implementaci.
Základním požadavkem modulů dávkového zpracování je horizontální navýšení kapacity výpočtů pro zpracování velkého objemu dat. Na rozdíl od zpracování v reálném čase má dávkové zpracování latenci nebo čas mezi příjmem dat a výpočtem výsledku minut nebo hodin.
Volba technologie pro dávkové zpracování
Microsoft nabízí několik služeb, které můžete použít k dávkovému zpracování.
Microsoft Fabric
Microsoft Fabric je univerzální analytická a datová platforma pro organizace. Jedná se o nabídku softwaru jako služby, která zjednodušuje zřizování, správu a řízení komplexního analytického řešení. Platforma zajišťuje přesun, zpracování, příjem, transformaci a vytváření sestav dat. Funkce platformy Fabric, které používáte pro dávkové zpracování, zahrnují přípravu dat, datové sklady, lakehouse a zpracování pomocí Apache Spark. Azure Data Factory ve službě Fabric také podporuje datová jezera. Pro zjednodušení a zrychlení vývoje můžete povolit copilot řízený AI.
Jazyky: R, Python, Java, Scala a SQL
Zabezpečení: Spravovaná virtuální síť a OneLake řízení přístupu založené na rolích (RBAC)
Primární úložiště: OneLake, který má klávesové zkratky a možnosti zrcadlení
Spark: Předhydratovaný startovací fond a vlastní fond Sparku s předdefinovanými velikostmi uzlů
Azure Synapse Analytics
Azure Synapse Analytics je podniková analytická služba, která spojuje technologie SQL i Spark v rámci jediné konstrukce pracovního prostoru. Azure Synapse Analytics zjednodušuje zabezpečení, zásady správného řízení a správu. Každý pracovní prostor má integrované datové kanály, které můžete použít k vytváření kompletních pracovních postupů. Můžete také zřídit vyhrazený fond SQL pro rozsáhlé analýzy, bezserverový koncový bod SQL, který můžete použít k přímému dotazování na jezero a modul runtime Sparku pro distribuované zpracování dat.
Jazyky: Python, Java, Scala a SQL
Bezpečnost: Spravované virtuální sítě, řízení přístupu na základě role v Azure (Azure RBAC) a seznamy řízení přístupu k úložišti ve službě Azure Data Lake Storage
Primární úložiště: Data Lake Storage a také se integruje s jinými zdroji.
Spark: Vlastní nastavení konfigurace Sparku s předdefinovanými velikostmi uzlů
Azure Databricks
Azure Databricks je analytická platforma založená na Sparku. Nabízí bohaté a prémiové funkce Sparku, které jsou postavené na open-source Sparku. Azure Databricks je služba Microsoftu, která se integruje se zbývajícími službami Azure. Nabízí další konfigurace pro nasazení clusteru Spark. A Unity Catalog pomáhá zjednodušit zásady správného řízení objektů Sparku v Azure Databricks.
Jazyky: R, Python, Java, Scala a Spark SQL.
Zabezpečení: Ověřování uživatelů pomocí Microsoft Entra ID.
Primární úložiště: Integrovaná integrace se službou Azure Blob Storage, Data Lake Storage, Azure Synapse Analytics a dalšími službami. Další informace najdete v tématu Zdroje dat.
Mezi další výhody patří:
Webové poznámkové bloky pro spolupráci a zkoumání dat
Rychlé časy spuštění clusteru, automatické ukončení a automatické škálování
Podpora clusterů s podporou GPU
Klíčová kritéria výběru
Pokud chcete zvolit technologii dávkového zpracování, zvažte následující otázky:
Chcete spravovanou službu nebo chcete spravovat vlastní servery?
Chcete vytvořit logiku dávkového zpracování deklarativní nebo imperativní?
Provádíte dávkové zpracování v shlukech? Pokud ano, zvažte možnosti, které umožňují automatické ukončení clusteru nebo cenové modely pro každou dávkovou úlohu.
Potřebujete dotazovat relační úložiště dat spolu s dávkovým zpracováním, například k vyhledání referenčních dat? Pokud ano, zvažte možnosti, které umožňují dotazovat se na externí relační úložiště.
Matice schopností
Následující tabulky shrnují klíčové rozdíly v možnostech mezi službami.
Obecné možnosti
| Schopnost | Textilie | Azure Synapse Analytics | Azure Databricks |
|---|---|---|---|
| Software jako služba | Ano1 | Ne | Ne |
| Spravovaná služba | Ne | Ano | Ano |
| Relační úložiště dat | Ano | Ano | Ano |
| Cenový model | Jednotky kapacity | Databázový fond SQL nebo hodina provozu clusteru | Jednotka Azure Databricks 2 a hodina clusteru |
[1] Přiřazená kapacita síťové vrstvy.
[2] Jednotka Azure Databricks představuje výpočetní kapacitu za hodinu.
Další funkce
| Schopnost | Textilie | Azure Synapse Analytics | Azure Databricks |
|---|---|---|---|
| Automatické škálování | Ne | Ne | Ano |
| Granularita škálování | Skladová položka Per Fabric | V rámci clusteru nebo fondu SQL | Na každý cluster |
| Ukládání dat do mezipaměti v paměti | Ne | Ano | Ano |
| Dotazování z externích relačních úložišť | Ano | Ne | Ano |
| Ověřování | Microsoft Entra ID | SQL nebo Microsoft Entra ID | Microsoft Entra ID |
| Auditování | Ano | Ano | Ano |
| Zabezpečení na úrovni řádků | Ano | Ano 1 | Ano |
| Podporuje brány firewall. | Ano | Ano | Ano |
| Dynamické maskování dat | Ano | Ano | Ano |
[1] Filtruje pouze predikáty. Další informace najdete v tématu Zabezpečení na úrovni řádků.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autoři:
- Zoiner Tejada | Generální ředitel a architekt
- Pratima Valavala | Hlavní architekt řešení
Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.
Další kroky
- Co je Fabric?
- Průvodce rozhodováním o síťové architektuře
- Školení: Úvod do Azure Synapse Analytics
- Co je Azure HDInsight?
- Co je Azure Databricks?