Volba technologie dávkového zpracování v Azure

Řešení pro velké objemy dat často používají dlouhotrvající dávkové úlohy k filtrování, agregaci a další přípravě dat na analýzu. Tyto úlohy obvykle zahrnují čtení zdrojových souborů ze škálovatelného úložiště (například HDFS, Azure Data Lake Store a Azure Storage), jejich zpracování a zápis výstupu do nových souborů ve škálovatelném úložišti.

Základním požadavkem těchto modulů dávkového zpracování je horizontální navýšení kapacity výpočtů pro zpracování velkého objemu dat. Na rozdíl od zpracování v reálném čase se očekává, že dávkové zpracování bude mít latence (čas mezi příjmem dat a výpočtem výsledku), které měří v minutách do hodin.

Technologické volby pro dávkové zpracování

Azure Synapse Analytics

Azure Synapse je distribuovaný systém navržený k provádění analýz velkých dat. Podporuje výkonné paralelní zpracování umožňující provádět vysoce výkonné analýzy. Zvažte Azure Synapse, pokud máte velké objemy dat (více než 1 TB) a spouštíte analytickou úlohu, která bude těžit z paralelismu.

Azure Data Lake Analytics

Data Lake Analytics je služba analytických úloh na vyžádání. Je optimalizovaná pro distribuované zpracování velkých datových sad uložených v Azure Data Lake Store.

  • Jazyky: U-SQL (včetně rozšíření Pythonu, R a C#).
  • Integruje se se službou Azure Data Lake Store, objekty blob služby Azure Storage, Azure SQL Database a Azure Synapse.
  • Cenový model je pro úlohu.

HDInsight

HDInsight je spravovaná služba Hadoop. Slouží k nasazení a správě clusterů Hadoop v Azure. Pro dávkové zpracování můžete použít Spark, Hive, Hive LLAP, MapReduce.

  • Jazyky: R, Python, Java, Scala, SQL
  • Ověřování protokolem Kerberos se službou Active Directory, řízením přístupu na základě Apache Rangeru
  • Poskytuje úplnou kontrolu nad clusterem Hadoop.

Azure Databricks

Azure Databricks je analytická platforma založená na Apache Sparku. Můžete si to představit jako "Spark jako služba". Je to nejjednodušší způsob, jak používat Spark na platformě Azure.

  • Jazyky: R, Python, Java, Scala, Spark SQL
  • Rychlé časy spuštění clusteru, automatické škálování a automatické škálování
  • Spravuje cluster Spark za vás.
  • Integrovaná integrace se službou Azure Blob Storage, Azure Data Lake Storage (ADLS), Azure Synapse a dalšími službami. Viz zdroje dat.
  • Ověřování uživatele s ID Microsoft Entra
  • Webové poznámkové bloky pro spolupráci a zkoumání dat
  • Podporuje clustery s podporou GPU.

Klíčová kritéria výběru

Pokud chcete zúžit možnosti, začněte zodpovězením těchto otázek:

  • Chcete místo správy vlastních serverů spravovanou službu?

  • Chcete vytvořit logiku dávkového zpracování deklarativní nebo imperativní?

  • Budete provádět dávkové zpracování v nárazech? Pokud ano, zvažte možnosti, které umožňují automatické ukončení clusteru nebo cenového modelu pro každou dávkovou úlohu.

  • Potřebujete dotazovat relační úložiště dat spolu s dávkovým zpracováním, například k vyhledání referenčních dat? Pokud ano, zvažte možnosti, které umožňují dotazování externích relačních úložišť.

Matice schopností

Následující tabulky shrnují klíčové rozdíly v možnostech.

Obecné možnosti

Schopnost Azure Data Lake Analytics Azure Synapse HDInsight Azure Databricks
Je spravovaná služba Ano Yes Ano 1 Ano
Relační úložiště dat Ano Ano Ne Ano
Cenový model Každou dávkovou úlohu Podle hodiny clusteru Podle hodiny clusteru Hodina clusteru Databricks Unit2 + cluster

[1] S ruční konfigurací.

[2] Jednotka Databricks (DBU) je jednotka zpracování za hodinu.

Funkce

Schopnost Azure Data Lake Analytics Azure Synapse HDInsight se Sparkem HDInsight s Hivem HDInsight s Hivem LLAP Azure Databricks
Automatické škálování No No Ano Ano Ano Yes
Členitost horizontálního navýšení kapacity Za úlohu Na cluster Na cluster Na cluster Na cluster Na cluster
Ukládání dat do mezipaměti v paměti No Ano Ano Ne Ano Yes
Dotazování z externích relačních úložišť Yes Ne Ano No No Ano
Ověřování Microsoft Entra ID SQL / Microsoft Entra ID No Microsoft Entra ID1 Microsoft Entra ID1 Microsoft Entra ID
Auditování Ano Ano No Ano 1 Ano 1 Ano
Zabezpečení na úrovni řádků No Ano2 No Ano 1 Ano 1 Ano
Podporuje brány firewall. Ano Ano Yes Ano 3 Ano 3 Ano
Dynamické maskování dat No Ano No Ano 1 Ano 1 Ano

[1] Vyžaduje použití clusteru HDInsight připojeného k doméně.

[2] Filtruje pouze predikáty. Zobrazit zabezpečení na úrovni řádků

[3] Podporuje se při použití ve službě Azure Virtual Network.

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Další kroky