O que é o Azure HDInsight?

O Azure HDInsight é um serviço de análise totalmente gerenciado, completo e open-source na nuvem para empresas. Com o HDInsight, você pode usar estruturas de código aberto, como Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka e outros em seu ambiente do Azure.

O que é o HDInsight e a pilha de tecnologias do Hadoop?

O Azure HDInsight é uma distribuição de nuvem dos componentes do Hadoop. O Azure HDInsight torna mais fácil, rápido e econômico processar grandes quantidades de dados em um ambiente personalizável. Você pode usar as estruturas de código aberto mais populares, como Hadoop, Spark, Hive, LLAP, Kafka e muito mais. Com essas estruturas, você pode habilitar uma grande variedade de cenários, como extração, transformação e carregamento (ETL), data warehouse, aprendizado de máquina e IoT.

Para ver os componentes disponíveis da pilha de tecnologia do Hadoop no HDInsight, confira Componentes e versões disponíveis com o HDInsight. Para ler mais sobre o Hadoop no HDInsight, consulte a Página de recursos do Azure para HDInsight.

Por que devo usar o Azure HDInsight?

Funcionalidade Descrição
Nativo de nuvem O Azure HDInsight permite a criação de clusters otimizados para Hadoop, Spark, Consulta interativa (LLAP), Kafka e HBase no Azure. O HDInsight também oferece um SLA de ponta a ponta em todas as suas cargas de trabalho de produção.
De baixo custo e escalonável O HDInsight permite aumentar ou reduzir as cargas de trabalho. É possível reduzir os custos criando clusters sob demanda e pagando apenas pelo que for usado. Você também pode compilar pipelines de dados para operacionalizar seus trabalhos. A computação e o armazenamento desacoplados fornecem melhor desempenho e flexibilidade.
Seguro e em conformidade O HDInsight permite a proteção dos ativos de dados corporativos com a Rede Virtual do Microsoft Azure, criptografia e integração com o Azure Active Directory. O HDInsight também atende aos padrões de conformidade mais populares do setor e do governo.
Monitoramento O Azure HDInsight é integrado aos logs do Azure Monitor para fornecer uma interface única com a qual você pode monitorar todos os seus clusters.
Disponibilidade global O HDInsight está disponível em mais regiões do que qualquer outra oferta de análise de Big Data. O Azure HDInsight também está disponível no Azure Governamental, na China e na Alemanha, o que permite atender às necessidades da sua empresa nas principais áreas soberanas.
Produtividade O Microsoft Azure HDInsight permite que você use ferramentas produtivas avançadas para o Hadoop e o Spark com seus ambientes de desenvolvimento preferidos. Esses ambientes de desenvolvimento incluem suporte a Visual Studio, VSCode, Eclipse e IntelliJ for Scala, Python, Java e .NET.
Extensibilidade Você pode estender os clusters do HDInsight com componentes instalados (Hue, Presto, etc.) usando ações de script, adicionando nós de borda ou integrando outros aplicativos de Big Data certificados. O HDInsight permite a integração perfeita com as soluções de Big Data mais populares com uma implantação com um clique.

O que é big data?

Mais do que nunca, o Big Data está sendo coletado em volumes crescentes, em velocidades mais altas e em uma maior variedade de formatos. Ele pode ser histórico (referente a dados armazenados) ou em tempo real (o que significa que é transmitido da fonte). Consulte Cenários de uso do HDInsight para saber mais sobre os casos de uso mais comuns de Big Data.

Tipos de cluster no HDInsight

O HDInsight inclui tipos específicos de cluster e recursos de personalização do cluster, como a capacidade de adicionar componentes, utilitários e idiomas. O HDInsight oferece os seguintes tipos de cluster:

Tipo de cluster Descrição Começar agora
Apache Hadoop uma estrutura que usa HDFS, gerenciamento de recursos YARN e um modelo de programação MapReduce simples para processar e analisar dados em lote em paralelo. Criar um cluster do Apache Hadoop
Apache Spark uma estrutura de processamento paralelo de software livre que dá suporte ao processamento na memória para melhorar o desempenho dos aplicativos de análise de Big Data. Confira O que é o Apache Spark no HDInsight?. Criar um cluster do Apache Spark
HBase no Apache um banco de dados NoSQL baseado em Hadoop que fornece acesso aleatório e coerência forte para big data não estruturado e semiestruturado (potencialmente, bilhões de linhas vezes milhões de colunas). Confira O que é o HBase em HDInsight? Criar um cluster do Apache HBase
Consulta Interativa do Apache Caching na memória para consultas de Hive interativas e mais rápidas. Veja Usar a consulta interativa no HDInsight. Criar um cluster de Consulta Interativa
Apache Kafka uma plataforma de código-fonte aberto usada para criar aplicativos e pipelines de dados de transmissão. O Kafka também fornece funcionalidade de fila de mensagens, o que permite que você publique e assine fluxos de dados. Consulte Uma introdução ao Apache Kafka no HDInsight. Criar um cluster do Apache Kafka

Cenários de uso do HDInsight

O Azure HDInsight pode ser usado em vários cenários no processamento de Big Data. Podem ser dados históricos (dados que já estão coletados e armazenados) ou dados em tempo real (dados que são transmitidos diretamente da fonte). Os cenários para processar esses dados podem ser resumidos nas seguintes categorias:

Processamento em lotes (ETL)

Extração, transformação e carregamento (ETL) é um processo em que os dados estruturados ou não estruturados são extraídos de fontes de dados heterogêneas. Em seguida, ele é transformado em um formato estruturado e carregado no repositório de dados. Você pode usar os dados transformados para ciência de dados ou data warehousing.

Data warehousing

É possível usar o HDInsight para executar consultas interativas em escalas petabyte sobre dados estruturados ou não estruturados em qualquer formato. Também é possível criar modelos conectando-os a ferramentas de BI.

Arquitetura do HDInsight: data warehousing

Internet das coisas (IoT)

Você pode usar o HDInsight para processar os dados de streaming recebidos em tempo real de diferentes tipos de dispositivos. Para obter mais informações, leia esta postagem de blog do Azure que informa a visualização pública do Apache Kafka no HDInsight com Azure Managed Disks.

Captura de tela da arquitetura do HDInsight: Internet das Coisas.

Híbrido

Você pode usar o HDInsight para estender sua infraestrutura de Big Data local existente ao Azure para aplicar os recursos de análise avançada da nuvem.

Arquitetura do HDInsight: híbrido

Componentes de código aberto no HDInsight

O Azure HDInsight permite que você crie clusters com estruturas de software livre, como Hadoop, Spark, Hive, LLAP, Kafka e HBase. Esses clusters, por padrão, vêm com outros componentes de software livre incluídos no cluster, como Apache Ambari, Avro, Apache Hive3, HCatalog, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie e Apache ZooKeeper.

Linguagens de programação no HDInsight

Os clusters do HDInsight, incluindo Spark, HBase, Kafka, Hadoop e outros, dão suporte a várias linguagens de programação. Algumas linguagens de programação não são instaladas por padrão. No caso de bibliotecas, módulos ou pacotes que não são instalados por padrão, use uma ação de script para instalar o componente.

Linguagem de programação Informações
Suporte padrão à linguagem de programação Por padrão, os clusters HDInsight são compatíveis com:
  • Java
  • Python
  • .NET
  • Go
Linguagens JVM (máquina virtual Java) Muitas linguagens diferentes do Java podem ser executadas em uma máquina virtual do Java (JVM). No entanto, se você executar algumas dessas linguagens, talvez precise instalar mais componentes no cluster. As seguintes linguagens baseadas em JVM são permitidas nos clusters HDInsight:
  • Clojure
  • Jython (Python para Java)
  • Scala
Linguagens específicas do Hadoop Os clusters HDInsight dão suporte às seguintes linguagens que são específicas ao ecossistema da pilha de tecnologias do Hadoop:
  • Pig Latin para trabalhos do Pig
  • HiveQL para trabalhos do Hive e SparkSQL

Ferramentas de desenvolvimento para HDInsight

Você pode usar ferramentas de desenvolvimento do HDInsight, incluindo IntelliJ, Eclipse, Visual Studio Code e Visual Studio, para criar e enviar a consulta de dados do HDInsight e o trabalho com integração perfeita com o Azure.

  • Azure Toolkit for IntelliJ10
  • Azure Toolkit for Eclipse6
  • Ferramentas do Azure HDInsight para VS Code13
  • Ferramentas do Azure Data Lake para Visual Studio9

Business intelligence no HDInsight

As ferramentas familiares de BI (business intelligence) recuperam, analisam e relatam os dados que estão integrados ao HDInsight usando o suplemento Power Query ou o Driver ODBC do Microsoft Hive:

Residência de dados na região

O Spark, o Hadoop e o LLAP não armazenam dados do cliente; portanto, esses serviços atendem automaticamente aos requisitos de residência de dados na região, incluindo aqueles especificados na Central de confiabilidade.

O Kafka e o HBase armazenam dados do cliente. Esses dados são armazenados automaticamente pelo Kafka e pelo HBase em uma única região; portanto, esse serviço atende aos requisitos de residência de dados na região, incluindo aqueles especificados na Central de Confiabilidade.

As ferramentas conhecidas de BI (business intelligence) recuperam, analisam e relatam os dados integrados ao HDInsight usando o suplemento Power Query ou o Driver ODBC do Microsoft Hive.

Próximas etapas