Escolha o tamanho certo de VM (máquina virtual) para seu cluster do Azure HDInsight

Este artigo mostro como selecionar o tamanho correto da VM para os vários nós em seu cluster HDInsight.

Comece compreendendo como as propriedades de uma máquina virtual, como o processamento da CPU, o tamanho da RAM e a latência da rede, afetarão o processamento de suas cargas de trabalho. Em seguida, pense em seu aplicativo e como ele corresponde ao que as diferentes famílias de VM são otimizadas para fazer. Certifique-se de que a família de VMs que você deseja usar seja compatível com o tipo de cluster que você planeja implantar. Para obter uma lista de todos os tamanhos de VM compatíveis e recomendados para cada tipo de cluster, consulte Configurações de nó com suporte do Azure HDInsight. Por fim, você pode usar parâmetros de comparação para testar algumas cargas de trabalho de exemplo e verificar qual SKU dentro de determinada família é ideal para você.

Para saber mais sobre como planejar outros aspectos do cluster, como selecionar um tipo de armazenamento ou tamanho de cluster, consulte o Planejamento de capacidade para clusters HDInsight.

Propriedades da VM e cargas de trabalho de Big Data

O tamanho e o tipo da VM são determinados pelo poder de processamento da CPU, pelo tamanho da RAM e pela latência da rede:

  • CPU: o tamanho da VM determina o número de núcleos. Quanto mais núcleos, maior o grau de computação paralela que cada nó pode alcançar. Além disso, alguns tipos de VM tem núcleos mais rápidos.

  • RAM: o tamanho da VM também determina a quantidade de RAM disponível na VM. Para cargas de trabalho que armazenam dados na memória para processamento em vez de ler no disco, verifique se os nós de trabalho têm memória suficiente que se ajuste aos dados.

  • Rede: para a maioria dos tipos de cluster, os dados processados pelo cluster não estão no disco local mas, em vez disso, ficam em um serviço de armazenamento externo como o Data Lake Storage ou o Armazenamento do Microsoft Azure. Considere a largura de banda e taxa de transferência da rede entre a VM do nó e o serviço de armazenamento. Geralmente, a largura de banda da rede disponível para uma VM aumenta com tamanhos maiores. Para mais detalhes, consulte Visão geral sobre tamanhos de VM.

Noções básicas sobre a otimização da VM

As famílias de máquinas virtuais no Azure são otimizadas para atender a diferentes casos de uso. Na tabela a seguir, você pode encontrar alguns dos casos de uso mais populares e as famílias de VMs ideais para cada um.

Tipo Tamanhos Descrição
Entry-level Av2 Possuem configurações de memória e de desempenho de CPU mais adequadas para cargas de trabalho de entrada, como desenvolvimento e teste. Elas são econômicas e fornecem uma opção de baixo custo para começar a usar o Azure.
Uso geral D, DSv2, Dv2 Relação equilibrada de CPU/memória. Ideal para teste e desenvolvimento, bancos de dados pequenos a médios e servidores Web de tráfego baixo a médio.
Computação otimizada F Alta relação de CPU/memória. Boa para servidores web de tráfego médio, dispositivos de rede, processos de lote e servidores de aplicativo.
Memória otimizada Esv3, Ev3 Alta relação de memória/CPU. Ótima para servidores de banco de dados relacionais, caches médios a grandes e análises na memória.
  • Para obter informações sobre os preços das instâncias de VM disponíveis em regiões com suporte do HDInsight, consulte preços do HDInsight.

Tipos de VM econômicas para cargas de trabalho leves

Se você tiver requisitos leves de processamento, a série F pode ser uma boa opção para começar a usar o HDInsight. A um preço de lista inferior por hora, a série F é o melhor valor de preço/desempenho no portfólio do Azure com base na ACU (Unidade de Computação do Azure) por vCPU.

A tabela a seguir descreve os tipos de cluster e tipos de nós que podem ser criados com as VMs da série Fsv2.

Tipo de cluster Versão Nó de trabalho Nó de cabeçalho Nó do Zookeeper
Spark Tudo F4 e posterior não não
O Hadoop Tudo F4 e posterior não não
Kafka Tudo F4 e posterior não não
HBase Tudo F4 e posterior não não
LLAP desabilitado não não não

Para ver as especificações de cada SKU da série F, consulte Tamanhos de VM da série F.

Parâmetros de comparação

O parâmetro de comparação é o processo de execução de cargas de trabalho simuladas em VMs diferentes para medir o desempenho delas com suas cargas de trabalho de produção.

Para saber mais sobre o parâmetro de comparação para SKUs de VM e tamanhos de cluster, consulte Planejamento de capacidade de cluster no Azure HDInsight .

Próximas etapas