Co je HDInsight?
Obrovské objemy, rozmanitost a rychlost generování dat dnes přinesly potřebu používat systémy, které mohou efektivně a efektivně pracovat s částečně a nestrukturovanými daty generovanými. Pokusy byly provedeny tradičními systémy pro správu relačních databází (RDBMS) ke zpracování, ukládání a analýze "velkých objemů dat". Ale byl to svět opensourcového softwaru (OSS), který udělal prolomení. OSS používá komoditní hardware distribuovaným způsobem v kombinaci se softwarem k škálování dat a analýz nad rámec limitů uložených na jednotlivých serverech.
OSS je volně dostupný pro organizace i jednotlivce, kteří ho mohou používat. Nedostatek zásad správného řízení a podpory operačního systému v minulosti ztěžoval přijetí některých podniků. S nástupem cloudu hostuje mnoho poskytovatelů cloudu tyto služby a poskytuje spravovanou podporu organizacím, které využívají technologie operačního systému. Tato nabídka je pro organizace přesvědčivá, aby získala výhody operačního systému bez nákladů na správu a podporu. Operační systém je běžný v prostoru velkých objemů dat. V tomto prostoru existuje mnoho technologií nejen ke zpracování a ukládání dat, ale také k provádění analýz. Analýza OSS umožňuje multicloudovou a otevřenou strategii aplikace, která není svázaná s jedním dodavatelem cloudu. Poskytuje přenositelnost bez ohledu na to, jestli potřebujete přesunout řešení z místního prostředí do cloudu nebo mezi různými dodavateli cloudu.
Jednou z základních analytických technologií OSS používaných v řešeních pro velké objemy dat je Hadoop. Obvykle ukládá data v systému SOUBORŮ HDFS (Hadoop Distributed File System) a používá cluster komoditních počítačů s programovacím modelem s názvem MapReduce. Tento programovací model umožňuje distribuované zpracování velkých sad dat v lineárním toku dat. Kvůli lepšímu výkonu vychází Apache Spark nad možnostmi architektury Systému Hadoop, ale nahrazuje paradigma MapReduce odolnými distribuovanými datovými sadami (RDD). Sada RDD poskytuje datový modul v paměti, který je mnohem rychlejší.
Stojí za zmínku, že analýza OSS překročila tradiční použití řešení pro velké objemy dat s Hadoopem a Sparkem. Analýza operačního systému teď zahrnuje širokou škálu softwaru, včetně následujících:
- Kafka a Flink pro scénáře streamování
- Presto a Kylin jako vrstvy abstrakce SQL
- Vrstvy AI přidané s H20.ai a Dataiku
Azure HDInsight je spravovaná opensourcová analytická služba v cloudu, která je určená pro podniky. V Microsoftu se analýzy OSS implementují ve službě Azure HDInsight. Můžete použít opensourcové architektury, jako jsou Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka. Získáte také výhody zabezpečení, možností monitorování a vysoké dostupnosti na podnikové úrovni, které by se očekávaly od služby hostované v Azure. Azure HDInsight je také rozšiřitelný a přizpůsobitelný tak, aby se zabýval celou řadou zákaznických scénářů.