O que é o Azure HDInsight?

Azure HDInsight é um serviço de análise gerido, de todo espectro e de código aberto na nuvem para empresas. Com o HDInsight, pode utilizar estruturas de código aberto como Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, e muito mais, no seu ambiente Azure.

O que é o HDInsight e a pilha de tecnologia do Hadoop?

Azure HDInsight é uma distribuição em nuvem de componentes Hadoop. O Azure HDInsight torna fácil, rápido e rentável processar quantidades massivas de dados num ambiente personalizável. Você pode usar as estruturas de código aberto mais populares como Hadoop, Spark, Hive, LLAP, Kafka e muito mais. Com estas estruturas, pode permitir um vasto leque de cenários como extrair, transformar e carregar (ETL), armazenamento de dados, machine learning e IoT.

Para ver os componentes da pilha tecnológica do Hadoop disponíveis no HDInsight, veja Componentes e versões disponíveis com o HDInsight. Para ler mais sobre o Hadoop no HDInsight, veja a página de funcionalidades do Azure para o HDInsight.

Por que devo usar Azure HDInsight?

Funcionalidade Description
Cloud nativa O Azure HDInsight permite-lhe criar clusters otimizados para Hadoop, Spark, Interactive consultas (LLAP), Kafka, HBase on Azure. O HDInsight também oferece um SLA de ponto a ponto em todas as suas cargas de trabalho de produção.
Baixo custo e dimensionável O HDInsight permite-lhe escalar cargas de trabalho para cima ou para baixo. Pode reduzir os custos criando clusters a pedido e pagando apenas pelo que utiliza. Também pode criar pipelines de dados para operacionalizar as tarefas. A computação e o armazenamento desassociados oferecem um melhor desempenho e flexibilidade.
Seguro e conforme O HDInsight permite-lhe proteger os seus ativos de dados empresariais com a Rede Virtual do Azure, a encriptação e a integração no Azure Active Directory. O HDInsight também cumpre os padrões de conformidade mais populares da indústria e do governo.
Monitorização O Azure HDInsight integra-se com registos do Azure Monitor para fornecer uma única interface com a qual pode monitorizar todos os seus clusters.
Disponibilidade global O HDInsight está disponível em mais regiões do que qualquer outra oferta de big data analytics. O Azure HDInsight também está disponível no Azure Government, na China e na Alemanha, o que lhe permite satisfazer as suas necessidades empresariais nas principais áreas soberanas.
Produtividade O Azure HDInsight permite-lhe utilizar ferramentas produtivas avançadas para o Hadoop e o Spark com os seus ambientes de desenvolvimento preferidos. Estes ambientes de desenvolvimento incluem Visual Studio, VSCode, Eclipse e IntelliJ para scala, Python, Java e suporte .NET.
Extensibilidade Pode alargar os clusters HDInsight com componentes instalados (Hue, Presto, e assim por diante) utilizando ações de script, adicionando nós de borda, ou integrando-se com outras aplicações certificadas por grandes dados . O HDInsight permite uma integração perfeita com as soluções de big data mais populares com uma implementação de um clique.

O que são macrodados?

Os macrodados são recolhidos em volumes cada vez maiores, a velocidades mais rápidas e numa variedade de formatos mais ampla do que nunca. Podem ser históricos (ou seja, armazenados) ou em tempo real (ou seja, transmitidos da origem). Veja Scenarios for using HDInsight (Cenários para utilizar o HDInsight) para saber mais sobre os casos de utilização mais comuns de macrodados.

Tipos de clusters no HDInsight

O HDInsight inclui tipos de clusters específicos e capacidades de personalização de clusters, como a possibilidade de adicionar componentes, utilitários e linguagens. O HDInsight oferece os seguintes tipos de cluster:

Tipo de Cluster Description Começar Agora
Apache Hadoop Uma estrutura que utiliza HDFS, gestão de recursos YARN e um modelo de programação mapReduce simples para processar e analisar dados de lote em paralelo. Criar um aglomerado Apache Hadoop
Apache Spark Um quadro de processamento paralelo de código aberto que suporta o processamento na memória para aumentar o desempenho de aplicações de análise de big data. Veja O que é o Apache Spark no HDInsight? Criar um cluster do Apache Spark
Apache HBase Uma base de dados NoSQL construída sobre Hadoop que fornece acesso aleatório e forte consistência para grandes quantidades de dados não estruturados e semi-estruturados -- potencialmente biliões de linhas vezes milhões de colunas. Veja O que é o HBase no HDInsight? Criar um cluster Apache HBase
Interactive Query De Apache Caching em memória para consultas interativas e mais rápidas da Colmeia. Veja Use Interactive Query in HDInsight (Utilizar o Interactive Query no HDInsight). Criar um cluster Interactive Query
Apache Kafka Uma plataforma de código aberto que é usada para construir pipelines e aplicações de dados de streaming. O Kafka também fornece uma funcionalidade de fila de mensagens que lhe permite publicar e subscrever transmissões de dados. Consulte Introduction to Apache Kafka on HDInsight (Introdução ao Apache Kafka no HDInsight). Criar um cluster do Apache Kafka

Cenários para utilizar o HDInsight

O Azure HDInsight pode ser usado para vários cenários no processamento de big data . Podem ser dados históricos (dados já recolhidos e armazenados) ou dados em tempo real (dados transmitidos diretamente da origem). Os cenários para processar esses dados podem ser resumidos nas seguintes categorias:

Processamento em lotes (ETL)

A extração, transformação e carregamento (ETL) é um processo onde os dados estruturados ou não estruturados são extraídos de origens de dados heterogéneas. Depois, são transformados num formato estruturado e carregados para um arquivo de dados. Pode utilizar os dados transformados para ciência de dados ou armazenamento de dados.

Armazenamento de dados

Pode utilizar o HDInsight para executar consultas interativas em escalas de petabytes sobre dados estruturados ou não estruturados em qualquer formato. Também pode criar modelos ao ligá-las a ferramentas de BI.

Arquitetura do HDInsight: armazenamento de dados

Internet das Coisas (IoT)

Pode utilizar o HDInsight para processar dados de streaming que são recebidos em tempo real a partir de diferentes tipos de dispositivos. Para obter mais informações, leia esta mensagem do blogue do Azure que anuncia a pré-visualização pública do Apache Kafka no HDInsight com os discos geridos do Azure.

Screenshot da arquitetura HDInsight: Internet of Things.

Híbrido

Você pode usar HDInsight para estender a sua infraestrutura de dados grandes existente no local para Azure para aplicar as capacidades de análise avançadas da nuvem.

Arquitetura do HDInsight: híbrido

Componentes de código aberto no HDInsight

O Azure HDInsight permite-lhe criar clusters com estruturas de código aberto tais como Hadoop, Spark, Hive, LLAP, Kafka e HBase. Estes aglomerados, por padrão, vêm com outros componentes de código aberto que estão incluídos no cluster como Apache Ambari, Avro, Apache Hive3, HCatalog, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie e Apache ZooKeeper.

Linguagens de programação no HDInsight

Os clusters do HDInsight, incluindo Spark, HBase, Kafka, Hadoop, entre outros, suportam muitas linguagens de programação. Contudo, algumas não estão instaladas por predefinição. Para bibliotecas, módulos ou pacotes que não sejam instalados por defeito, utilize uma ação de script para instalar o componente.

Linguagem de programação Informações
Suporte de linguagens de programação predefinidas Por predefinição, os clusters do HDInsight suportam:
  • Java
  • Python
  • .NET
  • Ir
Linguagens de máquina virtual de Java (JVM) Podem ser executadas muitas outras linguagens que não Java nas máquinas virtuais Java (JVM). No entanto, se executar algumas destas línguas, poderá ter de instalar mais componentes no cluster. As linguagens baseadas em JVM abaixo são suportadas nos clusters do HDInsight:
  • Clojure
  • Jython (Python para Java)
  • Scala
Linguagens específicas do Hadoop Os clusters do HDInsight suportam as seguintes linguagens que são específicas da pilha de tecnologia do Hadoop:
  • Pig Latin para tarefas do Pig
  • HiveQL para tarefas do Hive e SparkSQL

Ferramentas de desenvolvimento para HDInsight

Pode utilizar as ferramentas de desenvolvimento HDInsight, incluindo IntelliJ, Eclipse, Visual Studio Code e Visual Studio, para criar e submeter tarefas e consultas de dados HDInsight com integração simplificada no Azure.

  • Kit de ferramentas Azure para IntelliJ10
  • Kit de ferramentas Azure para Eclipse6
  • Ferramentas Azure HDInsight para VS Code13
  • Ferramentas do lago de dados Azure para Visual Studio9

Business intelligence no HDInsight

As ferramentas de business intelligence (BI) familiares obtêm, analisam e reportam dados integrados no HDInsight através do suplemento Power Query ou Microsoft Hive ODBC Driver:

Residência de dados na região

Spark, Hadoop e LLAP não armazenam dados de clientes, pelo que estes serviços satisfazem automaticamente os requisitos de residência de dados na região, incluindo os especificados no Trust Center.

Kafka e HBase armazenam os dados dos clientes. Estes dados são automaticamente armazenados pela Kafka e pela HBase numa única região, pelo que este serviço satisfaz os requisitos de residência de dados na região, incluindo os especificados no Trust Center.

Ferramentas familiares de inteligência empresarial (BI) recuperam, analisam e reportam dados que são integrados com HDInsight utilizando o add-in Power Query ou o Controlador ODBC da Microsoft Hive.

Passos seguintes