Rozhodovací kritéria pro výběr správné možnosti konfigurace SLUŽBY HDInsight

Dokončeno

Existují různé konfigurace služby HDInsight, které je možné použít pro různé analytické scénáře. HdInsight ve skutečnosti obsahuje tolik analytických technologií operačního systému, může se považovat za jediné místo pro splnění vašich pokročilých analytických potřeb. Všechny dostupné typy clusterů můžou splňovat potřeby obchodních scénářů popsaných níže. S každým typem clusteru máte úplnou kontrolu nad tím, jak jednotlivé scénáře spravujete v prostředí HDInsight. 

Mnoho firem má podobné požadavky, pokud jde o scénáře pro zpracování a analýzu dat, aby odvozovaly obchodní hodnotu. Mezi tyto požadavky patří:

Dávkové zpracování

HDInsight se dá použít k extrakci, transformaci a načítání (ETL) nebo extrakci, načítání a transformaci (ELT) operací s strukturovanými i nestrukturovanými daty pomocí hadoopu nebo Sparku a rozhraní pro zpracování dat, včetně Hive a Sqoopu.  

Datové sklady

Tradičně se provádí místními relačními databázemi, jako je SQL Server, a nedávno se službou Azure SQL Data Warehouse přes strukturovaná data ve velkém měřítku petabajtů. HDInsight umožňuje interaktivní dotazy v petabajtovém měřítku nad strukturovanými nebo nestrukturovanými daty v mnoha formátech. Tato funkce může dobře fungovat, pokud spravujete požadavky na operace dat a vytváření sestav pomocí HDInsight Hadoopu s Hivem. 

Streamování dat

Streamovaná data je možné ingestovat z různých zdrojů pomocí HDInsight prostřednictvím centra událostí nebo IoT Hubu pomocí streamování Sparku.  

Hybridní

Některé organizace už mají místní infrastrukturu pro velké objemy dat. Funkci můžete rozšířit do cloudu pomocí SLUŽBY HDInsight.

Klíčový rozhodovací bod pro výběr správné možnosti konfigurace clusteru HDInsight je založený na úloze, kterou bude cluster HDInsight obsluhovat. Pokud vaše organizace pracuje s více úlohami, není neobvyklé přepnout na různé konfigurace HDInsight tak, aby odpovídaly úlohám, které potřebují zpracování.

Typ úlohy Typ clusteru
Dávkové přesuny dat Apache Hadoop
Datová Věda – Dávkové a streamování Apache Spark
Transakční úlohy HBase
Ad hoc Analýza / Datové sklady Apache Interactive Query
Analýza streamování Apache Kafka

Důležité

Clustery HDInsight jsou k dispozici v různých typech, z nichž každá je určená pro jednu úlohu nebo technologii. Neexistuje žádná podporovaná metoda pro vytvoření clusteru, který kombinuje více typů, jako je Hadoop a HBase v jednom clusteru. Pokud vaše řešení vyžaduje technologie rozložené mezi více typů clusterů HDInsight, může virtuální síť Azure připojit různé požadované typy clusterů.