O que é o HDInsight?

Concluído

Os grandes volumes, a variedade e a velocidade em que os dados são gerados hoje trouxeram a necessidade de usar sistemas que podem trabalhar de modo eficaz e eficiente com os dados semiestruturados e não estruturados gerados. RDBMS (sistemas de gerenciamento de banco de dados relacional) tradicionais fizeram tentativas de processar, armazenar e analisar "Big Data". Porém, foi o mundo do software livre que conseguiu. O software livre usa um hardware de mercadoria de maneira distribuída, combinado ao software para dimensionar dados e análises além dos limites impostos a servidores únicos.

O software livre está disponível gratuitamente para organizações e indivíduos usarem. A falta de governança e suporte para software livre no passado tornou a adoção difícil para algumas empresas. Com o advento da nuvem, muitos provedores de nuvem hospedam esses serviços e fornecem suporte gerenciado para organizações que fazem uso de tecnologias de software livre. Essa proposta é atraente para as organizações aproveitarem os benefícios do software livre sem incorrerem nos custos de gerenciamento e suporte. É comum ver o software livre no espaço de Big Data. Nesse espaço, muitas tecnologias existem não apenas para processar e armazenar dados, mas também para executar análises. A análise de software de código aberto permite uma estratégia de aplicativo aberta multinuvem que não esteja vinculada apenas a um fornecedor de nuvem. Ela fornece portabilidade tanto para mover soluções do local para a nuvem quanto para mover entre diferentes fornecedores de nuvem.

Uma das principais tecnologias de análise de software livre usadas em soluções de Big Data é o Hadoop. Normalmente, ele armazena dados em um HDFS (Sistema de Arquivos Distribuído do Hadoop) e usa um cluster de computadores de mercadoria, com um modelo de programação chamado MapReduce. Esse modelo de programação permite o processamento distribuído de grandes conjuntos de dados em um fluxo de dados linear. Para aprimorar o desempenho, o Apache Spark se baseia nos recursos de arquitetura do Hadoop, mas substitui o paradigma do MapReduce pelo RDD (conjunto de dados distribuído resiliente). O RDD fornece um mecanismo de dados na memória que é muito mais rápido.

Vale observar que a análise de software livre foi além da aplicação tradicional de soluções de Big Data com Hadoop e Spark. A análise de software livre agora incorpora uma ampla gama de programas de software, incluindo:

  • Kafka e Flink para cenários de streaming
  • Presto e Kylin como camadas de abstração de SQL
  • Camadas de ia adicionadas com H20.ai e Dataiku

O Azure HDInsight é um serviço de análise totalmente gerenciado, completo e open-source na nuvem para empresas. Na Microsoft, a análise de software livre é implementada no Azure HDInsight. Use estruturas de software livre como o Hadoop, o Apache Spark, o Apache Hive, o LLAP e o Apache Kafka. Obtenha também os benefícios da segurança em nível empresarial, das funcionalidades de monitoramento e das opções de alta disponibilidade que são esperadas de um serviço hospedado no Azure. O Azure HDInsight também é extensível e personalizável para lidar com uma variedade de cenários de clientes.