Volba technologie dávkového zpracování v Azure
Řešení pro velké objemy dat často používají dlouhotrvající dávkové úlohy k filtrování, agregaci a další přípravě dat na analýzu. Tyto úlohy obvykle zahrnují čtení zdrojových souborů ze škálovatelného úložiště (například HDFS, Azure Data Lake Store a Azure Storage), jejich zpracování a zápis výstupu do nových souborů ve škálovatelném úložišti.
Základním požadavkem těchto modulů dávkového zpracování je horizontální navýšení kapacity výpočtů pro zpracování velkého objemu dat. Na rozdíl od zpracování v reálném čase se očekává, že dávkové zpracování bude mít latence (čas mezi příjmem dat a výpočtem výsledku), které měří v minutách do hodin.
Technologické volby pro dávkové zpracování
Azure Synapse Analytics
Azure Synapse je distribuovaný systém navržený k provádění analýz velkých dat. Podporuje výkonné paralelní zpracování umožňující provádět vysoce výkonné analýzy. Zvažte Azure Synapse, pokud máte velké objemy dat (více než 1 TB) a spouštíte analytickou úlohu, která bude těžit z paralelismu.
Azure Data Lake Analytics
Data Lake Analytics je služba analytických úloh na vyžádání. Je optimalizovaná pro distribuované zpracování velkých datových sad uložených v Azure Data Lake Store.
- Jazyky: U-SQL (včetně rozšíření Pythonu, R a C#).
- Integruje se se službou Azure Data Lake Store, objekty blob služby Azure Storage, Azure SQL Database a Azure Synapse.
- Cenový model je pro úlohu.
HDInsight
HDInsight je spravovaná služba Hadoop. Slouží k nasazení a správě clusterů Hadoop v Azure. Pro dávkové zpracování můžete použít Spark, Hive, Hive LLAP, MapReduce.
- Jazyky: R, Python, Java, Scala, SQL
- Ověřování protokolem Kerberos se službou Active Directory, řízením přístupu na základě Apache Rangeru
- Poskytuje úplnou kontrolu nad clusterem Hadoop.
Azure Databricks
Azure Databricks je analytická platforma založená na Apache Sparku. Můžete si to představit jako "Spark jako služba". Je to nejjednodušší způsob, jak používat Spark na platformě Azure.
- Jazyky: R, Python, Java, Scala, Spark SQL
- Rychlé časy spuštění clusteru, automatické škálování a automatické škálování
- Spravuje cluster Spark za vás.
- Integrovaná integrace se službou Azure Blob Storage, Azure Data Lake Storage (ADLS), Azure Synapse a dalšími službami. Viz zdroje dat.
- Ověřování uživatele s ID Microsoft Entra
- Webové poznámkové bloky pro spolupráci a zkoumání dat
- Podporuje clustery s podporou GPU.
Klíčová kritéria výběru
Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:
Chcete místo správy vlastních serverů spravovanou službu?
Chcete vytvořit logiku dávkového zpracování deklarativní nebo imperativní?
Budete provádět dávkové zpracování v nárazech? Pokud ano, zvažte možnosti, které umožňují automatické ukončení clusteru nebo cenového modelu pro každou dávkovou úlohu.
Potřebujete dotazovat relační úložiště dat spolu s dávkovým zpracováním, například k vyhledání referenčních dat? Pokud ano, zvažte možnosti, které umožňují dotazování externích relačních úložišť.
Matice schopností
Následující tabulky shrnují klíčové rozdíly v možnostech.
Obecné možnosti
Schopnost | Azure Data Lake Analytics | Azure Synapse | HDInsight | Azure Databricks |
---|---|---|---|---|
Je spravovaná služba | Ano | Yes | Ano 1 | Ano |
Relační úložiště dat | Ano | Ano | Ne | Ano |
Cenový model | Každou dávkovou úlohu | Podle hodiny clusteru | Podle hodiny clusteru | Hodina clusteru Databricks Unit2 + cluster |
[1] S ruční konfigurací.
[2] Jednotka Databricks (DBU) je jednotka zpracování za hodinu.
Funkce
Schopnost | Azure Data Lake Analytics | Azure Synapse | HDInsight se Sparkem | HDInsight s Hivem | HDInsight s Hivem LLAP | Azure Databricks |
---|---|---|---|---|---|---|
Automatické škálování | No | No | Ano | Ano | Ano | Yes |
Členitost horizontálního navýšení kapacity | Za úlohu | Na cluster | Na cluster | Na cluster | Na cluster | Na cluster |
Ukládání dat do mezipaměti v paměti | No | Ano | Ano | Ne | Ano | Yes |
Dotazování z externích relačních úložišť | Yes | Ne | Ano | No | No | Ano |
Ověřování | Microsoft Entra ID | SQL / Microsoft Entra ID | No | Microsoft Entra ID1 | Microsoft Entra ID1 | Microsoft Entra ID |
Auditování | Ano | Ano | No | Ano 1 | Ano 1 | Ano |
Zabezpečení na úrovni řádků | No | Ano2 | No | Ano 1 | Ano 1 | Ano |
Podporuje brány firewall. | Ano | Ano | Yes | Ano 3 | Ano 3 | Ano |
Dynamické maskování dat | No | Ano | No | Ano 1 | Ano 1 | Ano |
[1] Vyžaduje použití clusteru HDInsight připojeného k doméně.
[2] Filtruje pouze predikáty. Zobrazit zabezpečení na úrovni řádků
[3] Podporuje se při použití ve službě Azure Virtual Network.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Zoiner Tejada | Generální ředitel a architekt
Další kroky
- Vytvoření databáze lake ve službě Azure Synapse Analytics
- Vytvoření pracovního prostoru Azure Databricks
- Prozkoumání Azure Databricks
- Začínáme s Azure Data Lake Analytics pomocí webu Azure Portal
- Úvod do Azure Synapse Analytics
- Co je Azure Databricks?
- Co je Azure Synapse Analytics?
Související prostředky
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro