Configurar clusters no HDInsight com Apache Hadoop, Apache Spark, Apache Kafka e muito mais

Aprenda a configurar e configurar Apache Hadoop, Apache Spark, Apache Kafka, Interactive Query, ou Apache HBase ou em HDInsight. Além disso, aprenda a personalizar clusters e adicione segurança juntando-os a um domínio.

Um cluster Hadoop é composto por várias máquinas virtuais (nós) que são usadas para o processamento distribuído de tarefas. O Azure HDInsight lida com detalhes de implementação da instalação e configuração de nós individuais, pelo que só tem de fornecer informações gerais de configuração.

Importante

A faturação do cluster do HDInsight tem início quando o cluster é criado e termina quando é eliminado. A faturação é rateada por minuto, pelo que deve sempre eliminar o cluster quando deixar de ser utilizado. Aprenda a apagar um cluster.

Se estiver a utilizar vários clusters em conjunto, vai querer criar uma rede virtual, e se estiver a usar um cluster Spark, também vai querer usar o Conector do Armazém da Colmeia. Para obter mais informações, consulte Plan uma rede virtual para Azure HDInsight e Integre Apache Spark e Apache Hive com o Conector do Armazém da Colmeia.

Métodos de configuração do cluster

A tabela a seguir mostra os diferentes métodos que pode utilizar para configurar um cluster HDInsight.

Clusters criados com Browser Linha de comandos API REST SDK
Portal do Azure      
Azure Data Factory
CLI do Azure      
Azure PowerShell      
cURL    
Modelos do Azure Resource Manager      

Este artigo acompanha-o através da configuração no portal do Azure, onde pode criar um cluster HDInsight.

Noções básicas

hdinsight criar opções personalizadas rápido

Detalhes do projeto

A Azure Resource Manager ajuda-o a trabalhar com os recursos da sua aplicação como um grupo, referido como um grupo de recursos Azure. Pode implementar, atualizar, monitorizar ou eliminar todos os recursos da sua aplicação numa única operação coordenada.

Detalhes do cluster

Nome do cluster

Os nomes do cluster HDInsight têm as seguintes restrições:

  • Personagens permitidos: a-z, 0-9, A-Z
  • Comprimento máximo: 59
  • Nomes reservados: apps
  • O cluster naming scope é para todo o Azure, em todas as subscrições. Assim, o nome do cluster deve ser único em todo o mundo.
  • Os primeiros seis caracteres devem ser únicos dentro de uma rede virtual

Região

Não é necessário especificar explicitamente a localização do cluster: O cluster encontra-se no mesmo local que o armazenamento predefinido. Para obter uma lista de regiões apoiadas, selecione a lista de drop-down da Região nos preços hdInsight.

Tipo de cluster

A Azure HDInsight fornece atualmente os seguintes tipos de cluster, cada um com um conjunto de componentes para fornecer certas funcionalidades.

Importante

Os clusters HDInsight estão disponíveis em vários tipos, cada um para uma única carga de trabalho ou tecnologia. Não existe um método suportado para criar um cluster que combine vários tipos, tais como HBase em um cluster. Se a sua solução necessitar de tecnologias que estão espalhadas por vários tipos de cluster HDInsight, uma rede virtual Azure pode ligar os tipos de clusters necessários.

Tipo de cluster Funcionalidade
Hadoop Consulta de lote e análise de dados armazenados
HBase Processamento de grandes quantidades de dados noSQL sem esquemas
Interactive Query Caching in-memory para consultas interativas e mais rápidas da Colmeia
Rio Kafka Uma plataforma de streaming distribuída que pode ser usada para construir oleodutos e aplicações de dados de streaming em tempo real
Spark Processamento em memória, consultas interativas, processamento de fluxo de micro-lotes

Versão

Escolha a versão de HDInsight para este cluster. Para obter mais informações, consulte as versões HDInsight suportadas.

Credenciais de cluster

Com clusters HDInsight, pode configurar duas contas de utilizador durante a criação do cluster:

  • Nome de utilizador de login do cluster: O nome de utilizador predefinido é administrador. Utiliza a configuração básica no portal do Azure. Às vezes chama-se "Utilizador do Cluster", ou "utilizador HTTP".
  • Nome de utilizador Secure Shell (SSH): Usado para ligar ao cluster através de SSH. Para obter mais informações, consulte Use SSH com HDInsight.

O nome de utilizador HTTP tem as seguintes restrições:

  • Personagens especiais permitidos: _ e @
  • Caracteres não são permitidos: #;."'','','!'!*?${}[]<>|& --=+%~^espaço
  • Comprimento máximo: 20

O nome de utilizador SSH tem as seguintes restrições:

  • Personagens especiais permitidos:_ e @
  • Caracteres não são permitidos: #;."'','','!'!*?${}[]<>|& --=+%~^espaço
  • Comprimento máximo: 64
  • Nomes reservados: hadoop, utilizadores, oozie, colmeia, maped, ambari-qa, zookeeper, tez, hdfs, sqoop, fios, hcat, ams, hbase, administrador, administrador, administrador, administração, utilizador, utilizador1, teste, utilizador2, test1, user3, admin1, 1, 123, a, actuser, adm, admin2, aspnet, backup, consola, david, david, convidado, john, proprietário, raiz, servidor, sql, suporte, support_388945a0, sys, test2, test3, user4, user,

Armazenamento

Definições de armazenamento de cluster: pontos finais compatíveis com HDFS

Embora uma instalação no local do Hadoop utilize o Hadoop Distributed File System (HDFS) para armazenamento no cluster, na nuvem utiliza pontos finais de armazenamento ligados ao cluster. A utilização de armazenamento em nuvem significa que pode eliminar com segurança os clusters HDInsight utilizados para a computação, mantendo os seus dados.

Os clusters HDInsight podem utilizar as seguintes opções de armazenamento:

  • Armazenamento do Azure Data Lake Ger2
  • Armazenamento do Azure Data Lake Ger1
  • Azure Storage Fins Gerais v2
  • Azure Storage Fins Gerais v1
  • Bolha do bloco de armazenamento Azure (apenas suportada como armazenamento secundário)

Para obter mais informações sobre as opções de armazenamento com HDInsight, consulte opções de armazenamento compare para utilização com clusters Azure HDInsight.

Aviso

A utilização de uma conta de armazenamento adicional num local diferente do cluster HDInsight não é suportada.

Durante a configuração, para o ponto final de armazenamento predefinido, especifique um recipiente blob de uma conta de Armazenamento Azure ou Data Lake Storage. O armazenamento predefinido contém registos de aplicações e sistemas. Opcionalmente, pode especificar contas adicionais de Armazenamento Azure e Data Lake Storage contas a que o cluster pode aceder. O cluster HDInsight e as contas de armazenamento dependentes devem estar no mesmo local Azure.

Nota

A funcionalidade que requer transferência segura aplica todos os pedidos à sua conta através de uma ligação segura. Apenas a versão 3.6 ou mais recente do cluster HDInsight suporta esta funcionalidade. Para obter mais informações, consulte o cluster Create Apache Hadoop com contas de armazenamento de transferência segura em Azure HDInsight.

Importante

Permitir uma transferência segura de armazenamento após a criação de um cluster pode resultar em erros usando a sua conta de armazenamento e não é recomendado. É melhor criar um novo cluster usando uma conta de armazenamento com transferência segura já ativada.

Nota

O Azure HDInsight não transfere, move ou copia automaticamente os seus dados armazenados no Azure Storage de uma região para outra.

Configurações de metastões

Pode criar metastões opcionais de Hive ou Apache Oozie. No entanto, nem todos os tipos de cluster suportam metastões, e Azure Synapse Analytics não é compatível com metastões.

Para obter mais informações, consulte utilizar lojas de metadados externos em Azure HDInsight.

Importante

Quando criar uma meta-loja personalizada, não utilize traços, hífenes ou espaços no nome da base de dados. Isto pode fazer com que o processo de criação do cluster falhe.

Base de dados SQL para Colmeia

Se pretender reter as suas tabelas Hive depois de eliminar um cluster HDInsight, utilize uma metástase personalizada. Em seguida, pode anexar a meta-loja a outro cluster HDInsight.

Uma metásta de HDInsight criada para uma versão hdInsight cluster não pode ser partilhada em diferentes versões de cluster HDInsight. Para obter uma lista de versões HDInsight, consulte as versões HDInsight suportadas.

Importante

A metástore predefinido fornece uma Base de Dados SQL do Azure com um limite básico de DTU de nível 5 (não atualizável)! Adequado para fins básicos de teste. Para cargas de trabalho grandes ou de produção, recomendamos migrar para uma metastore externa.

Base de dados SQL para Oozie

Para aumentar o desempenho ao utilizar o Oozie, utilize uma metásta personalizada. Uma meta-loja também pode fornecer acesso aos dados de trabalho da Oozie depois de eliminar o seu cluster.

Base de dados SQL para Ambari

O Ambari é usado para monitorizar clusters HDInsight, fazer alterações de configuração e armazenar informações de gestão de clusters, bem como histórico de trabalho. A funcionalidade DB personalizada permite-lhe implementar um novo cluster e configurar o Ambari numa base de dados externa que gere. Para mais informações, consulte o Custom Ambari DB.

Importante

Não é possível reutilizar uma metástase oozie personalizada. Para utilizar uma metástase Oozie personalizada, tem de fornecer uma base de dados SQL do Azure vazia ao criar o cluster HDInsight.

Segurança + networking

hdinsight criar opções escolher pacote de segurança da empresa

Pacote de segurança da empresa

Para hadoop, Spark, HBase, Kafka e Interactive Query tipos de cluster, pode optar por ativar o Pacote de Segurança Empresarial. Este pacote oferece a opção de ter uma configuração de cluster mais segura usando o Apache Ranger e integrando-se com o Azure Ative Directory. Para mais informações, consulte a visão geral da segurança da empresa em Azure HDInsight.

O pacote de segurança da Enterprise permite-lhe integrar o HDInsight com o Ative Directory e o Apache Ranger. Vários utilizadores podem ser criados usando o pacote de segurança Enterprise.

Para obter mais informações sobre a criação de um cluster HDInsight ligado ao domínio, consulte Criar ambiente de caixa de areia HDInsight ligado ao domínio.

TLS

Para mais informações, consulte a Segurança da Camada de Transporte

Rede virtual

Se a sua solução necessitar de tecnologias que estão espalhadas por vários tipos de cluster HDInsight, uma rede virtual Azure pode ligar os tipos de clusters necessários. Esta configuração permite que os clusters, e qualquer código que implemente para eles, se comuniquem diretamente uns com os outros.

Para obter mais informações sobre a utilização de uma rede virtual Azure com HDInsight, consulte Plan a virtual network for HDInsight.

Para um exemplo de utilização de dois tipos de cluster dentro de uma rede virtual Azure, consulte Use Apache Spark Structured Streaming com Apache Kafka. Para obter mais informações sobre a utilização do HDInsight com uma rede virtual, incluindo requisitos específicos de configuração para a rede virtual, consulte Plan uma rede virtual para HDInsight.

Definição de encriptação de disco

Para obter mais informações, consulte a encriptação do disco de chaves gerida pelo Cliente.

Proxy REST do Kafka

Esta definição só está disponível para o tipo de cluster Kafka. Para obter mais informações, consulte utilizando um representante do REST.

Identidade

Para obter mais informações, consulte identidades geridas em Azure HDInsight.

Configuração + preços

HDInsight escolha o tamanho do seu nó

É cobrado para uso de nó enquanto o cluster existir. A faturação começa quando um cluster é criado e para quando o cluster é eliminado. Os agrupamentos não podem ser desatribuidos ou colocados em espera.

Configuração do nó

Cada tipo de cluster tem o seu próprio número de nós, terminologia para nós, e tamanho VM padrão. Na tabela seguinte, o número de nós para cada tipo de nó está nos parênteses.

Tipo Nós Diagrama
Hadoop Nó de cabeça (2), nó do trabalhador (1+) HdInsight Hadoop cluster nosdes
HBase Servidor de cabeça (2), servidor regional (1+), nó master/ZooKeeper (3) Configuração do tipo de cluster HDInsight HBase
Spark Nó de cabeça (2), nó do trabalhador (1+), nó ZooKeeper (3) (grátis para o tamanho VM A1 ZooKeeper) Configuração do tipo de cluster de faíscas HDInsight

Para obter mais informações, consulte a configuração do nó padrão e os tamanhos de máquinas virtuais para clusters em "Quais são os componentes e versões Hadoop em HDInsight?"

O custo dos clusters HDInsight é determinado pelo número de nós e pelos tamanhos das máquinas virtuais para os nós.

Diferentes tipos de aglomerados têm diferentes tipos de nó, números de nó e tamanhos de nó:

  • Padrão do tipo de cluster Hadoop:
    • Dois acenos de cabeça

    • Quatro nódoas operárias

Se está apenas a experimentar o HDInsight, recomendamos que use um nó operário. Para obter mais informações sobre os preços da HDInsight, consulte os preços da HDInsight.

Nota

O limite de tamanho do cluster varia entre as subscrições do Azure. Contacte o suporte de faturação da Azure para aumentar o limite.

Quando utiliza o portal do Azure para configurar o cluster, o tamanho do nó está disponível através do separador Configuração + preços. No portal, também é possível ver o custo associado aos diferentes tamanhos dos nós.

Tamanhos de máquinas virtuais

Quando implementar clusters, escolha recursos computacional com base na solução que pretende implementar. Os seguintes VM são utilizados para clusters HDInsight:

Para saber qual o valor que deve utilizar para especificar um tamanho VM enquanto cria um cluster usando os diferentes SDKs ou durante a utilização de Azure PowerShell, consulte os tamanhos VM para utilizar para clusters HDInsight. A partir deste artigo ligado, utilize o valor na coluna Tamanho das tabelas.

Importante

Se precisar de mais de 32 nós operários num cluster, deve selecionar um tamanho do nó de cabeça com pelo menos 8 núcleos e 14 GB de RAM.

Para obter mais informações, consulte tamanhos para máquinas virtuais. Para obter informações sobre preços dos vários tamanhos, consulte os preços da HDInsight.

Acessório em disco

O cluster HDInsight vem com espaço de disco pré-definido baseado no SKU. Executar algumas aplicações grandes, pode levar a espaço de disco insuficiente (com erro completo do disco - LinkId=221672#ERROR_NOT_ENOUGH_DISK_SPACE) e falhas de emprego.

Mais discos podem ser adicionados ao cluster usando o novo diretório local de NodeManager. No momento da criação do cluster Hive e Spark, o número de discos pode ser selecionado e adicionado aos nós do trabalhador. O disco selecionado, que será de tamanho 1TB cada, faria parte dos diretórios locais de NodeManager.

  1. A partir do separador configuração + preços
  2. Selecione Ativar A opção de disco gerido
  3. A partir de discos standard, introduza o número de discos
  4. Escolha o seu nó operário

Pode verificar o número de discos a partir do Review + criar separador, na configuração do Cluster

Adicionar aplicação

A aplicação HDInsight é uma aplicação que os utilizadores podem instalar num cluster HDInsight baseado em Linux. Pode utilizar aplicações fornecidas por Microsoft, terceiros ou desenvolvidas por si. Para obter mais informações, consulte instalar aplicações Apache Hadoop de terceiros no Azure HDInsight.

A maioria das aplicações HDInsight são instaladas num nó de borda vazia. Um nó de borda vazia é uma máquina virtual Linux com as mesmas ferramentas de cliente instaladas e configuradas como no nó da cabeça. Pode utilizar o nó de borda para aceder ao cluster, testar as aplicações do seu cliente e hospedar as aplicações do seu cliente. Para obter mais informações, consulte Use nós de borda vazia em HDInsight.

Ações de script

Pode instalar componentes adicionais ou personalizar a configuração do cluster utilizando scripts durante a criação. Tais scripts são invocados através da Script Action, que é uma opção de configuração que pode ser usada a partir do portal do Azure, HDInsight Windows PowerShell cmdlets, ou o HDInsight .NET SDK. Para obter mais informações, consulte o cluster HdInsight personalize usando a Script Action.

Alguns componentes nativos de Java, como Apache Mahout e Cascading, podem ser executados no cluster como ficheiros Java Archive (JAR). Estes ficheiros JAR podem ser distribuídos para Azure Storage e submetidos a clusters HDInsight com mecanismos de submissão de emprego Hadoop. Para obter mais informações, consulte os trabalhos de Submissão de Apache Hadoop programáticamente.

Nota

Se tiver problemas em implantar ficheiros JAR para clusters HDInsight ou ligar para ficheiros JAR em clusters HDInsight, contacte Suporte da Microsoft.

A cascata não é apoiada pela HDInsight e não é elegível para Suporte da Microsoft. Para listas de componentes suportados, consulte as novidades nas versões de cluster fornecidas pela HDInsight.

Por vezes, pretende-se configurar os seguintes ficheiros de configuração durante o processo de criação:

  • clusterIdentity.xml
  • core-site.xml
  • gateway.xml
  • hbase-env.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-env.xml
  • hive-site.xml
  • mapred-site
  • oozie-site.xml
  • oozie-env.xml
  • tez-site.xml
  • webhcat-site.xml
  • yarn-site.xml

Para obter mais informações, consulte os clusters HDInsight personalizados utilizando o Bootstrap.

Passos seguintes