Wat is HDInsight?
De enorme volumes, verscheidenheid en snelheid waarmee gegevens vandaag worden gegenereerd, hebben geleid tot de noodzaak om systemen te gebruiken die effectief en efficiënt kunnen werken met de semi- en ongestructureerde gegevens die worden gegenereerd. Er zijn pogingen gedaan door traditionele relationele databasebeheersystemen (RDBMS) voor het verwerken, opslaan en analyseren van big data. Maar het was de wereld van Open Source Software (OSS) die de break-through maakte. OSS maakt gebruik van basishardware op een gedistribueerde manier, gecombineerd met software om gegevens en analyses te schalen buiten de limieten die zijn opgelegd aan één server.
OSS is vrij beschikbaar voor zowel organisaties als individuen die kunnen worden gebruikt. Het gebrek aan governance en steun voor OSS in het verleden heeft het voor sommige ondernemingen moeilijk gemaakt om te kiezen. Met de komst van de cloud hosten veel cloudproviders deze services en bieden ze beheerde ondersteuning aan organisaties die gebruikmaken van OSS-technologieën. Deze propositie is aantrekkelijk voor organisaties om de voordelen van OSS te profiteren zonder dat hiervoor kosten in rekening worden gebracht voor het beheren en ondersteunen ervan. Het is gebruikelijk om OSS te zien in de ruimte van big data. In deze ruimte bestaan er niet alleen technologieën om gegevens te verwerken en op te slaan, maar ook om analyses uit te voeren. OSS-analyse maakt een open toepassingsstrategie met meerdere clouds mogelijk die niet is gekoppeld aan één cloudleverancier. Het biedt draagbaarheid, ongeacht of u oplossingen moet verplaatsen van on-premises naar de cloud of tussen verschillende cloudleveranciers.
Een van de belangrijkste oss-analytische technologieën die worden gebruikt in big data-oplossingen is Hadoop. Doorgaans worden gegevens opgeslagen in een Hadoop Distributed File System (HDFS) en wordt een cluster van basiscomputers gebruikt, met een programmeermodel met de naam MapReduce. Dit programmeermodel maakt gedistribueerde verwerking van grote gegevenssets in een lineaire gegevensstroom mogelijk. Voor betere prestaties bouwt Apache Spark voort op de architectuurmogelijkheden van Hadoop, maar vervangt het MapReduce-paradigma door RDD (Resilient Distributed Dataset). RDD biedt een in-memory gegevensengine die veel sneller is.
Het is de moeite waard om te vermelden dat OSS-analyses verder zijn gegaan dan de traditionele toepassing van big data-oplossingen met Hadoop en Spark. OSS Analytics bevat nu een breed scala aan software, waaronder de volgende:
- Kafka en Flink voor streamingscenario's
- Presto en Kylin als SQL-abstractielagen
- AI-lagen toegevoegd met H20.ai en Dataiku
Azure HDInsight is een beheerde, zeer uitgebreide opensource-analyseservice in de cloud voor bedrijven. Bij Microsoft wordt OSS-analyse geïmplementeerd in Azure HDInsight. U kunt opensource-frameworks gebruiken, zoals Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka. U krijgt ook de voordelen van beveiliging op ondernemingsniveau, bewakingsmogelijkheden en opties voor hoge beschikbaarheid die worden verwacht van een service die wordt gehost in Azure. Azure HDInsight is ook uitbreidbaar en aanpasbaar voor een reeks klantscenario's.