Selecionar o tamanho certo da VM para o cluster do Azure HDInsight

Este artigo aborda como selecionar o tamanho certo da VM para os vários nós no cluster do HDInsight.

Comece por compreender como as propriedades de uma máquina virtual, como o processamento da CPU, o tamanho da RAM e a latência de rede, afetarão o processamento das suas cargas de trabalho. Em seguida, pense na sua aplicação e na forma como corresponde às diferentes famílias de VMs que estão otimizadas. Certifique-se de que a família de VMs que pretende utilizar é compatível com o tipo de cluster que pretende implementar. Para obter uma lista de todos os tamanhos de VM suportados e recomendados para cada tipo de cluster, veja Configurações de nós suportadas do Azure HDInsight. Por fim, pode utilizar um processo de referência para testar algumas cargas de trabalho de exemplo e verificar qual é o SKU nessa família adequado para si.

Para obter mais informações sobre como planear outros aspetos do cluster, como selecionar um tipo de armazenamento ou tamanho do cluster, veja Planeamento de capacidade para clusters do HDInsight.

Propriedades da VM e cargas de trabalho de macrodados

O tamanho e o tipo da VM são determinados pela potência de processamento da CPU, pelo tamanho da RAM e pela latência de rede:

  • CPU: o tamanho da VM dita o número de núcleos. Quanto mais núcleos, maior é o grau de computação paralela que cada nó pode alcançar. Além disso, alguns tipos de VM têm núcleos mais rápidos.

  • RAM: o tamanho da VM também dita a quantidade de RAM disponível na VM. Para cargas de trabalho que armazenam dados na memória para processamento, em vez de ler a partir do disco, certifique-se de que os nós de trabalho têm memória suficiente para se ajustarem aos dados.

  • Rede: para a maioria dos tipos de cluster, os dados processados pelo cluster não estão no disco local, mas sim num serviço de armazenamento externo, como o Data Lake Storage ou o Armazenamento do Azure. Considere a largura de banda de rede e o débito entre a VM do nó e o serviço de armazenamento. Normalmente, a largura de banda de rede disponível para uma VM aumenta com tamanhos maiores. Para obter detalhes, veja Descrição geral dos tamanhos das VMs.

Compreender a otimização da VM

As famílias de máquinas virtuais no Azure estão otimizadas para se adequarem a diferentes casos de utilização. Na tabela abaixo, pode encontrar alguns dos casos de utilização mais populares e as famílias de VMs que correspondem aos mesmos.

Tipo Tamanhos Descrição
Nível de entrada Média2 Ter o desempenho da CPU e as configurações de memória mais adequadas para cargas de trabalho de nível de entrada, como desenvolvimento e teste. São económicos e fornecem uma opção de baixo custo para começar a utilizar o Azure.
Fins gerais D, DSv2, Dv2 Proporção equilibrada entre CPU e memória. Ideais para testes e desenvolvimento, bases de dados pequenas a médias e servidores Web de tráfego baixo a médio.
Com otimização de computação F Proporção elevada de CPU para memória. Bom para servidores Web de tráfego médio, aplicações de rede, processos em lote e servidores de aplicações.
Com otimização de memória Esv3, Ev3 Proporção elevada de memória para CPU. Ideais para servidores de bases de dados relacionais, caches médias a grandes e análise dentro da memória.
  • Para obter informações sobre os preços das instâncias de VM disponíveis em regiões suportadas pelo HDInsight, veja Preços do HDInsight.

Tipos de VM de poupança de custos para cargas de trabalho leves

Se tiver requisitos de processamento leve, a série F pode ser uma boa opção para começar a utilizar o HDInsight. A um preço de tabela por hora mais baixo, a série F é o melhor valor de desempenho por preço no portefólio do Azure com base na Unidade de Computação do Azure (ACU) por vCPU.

A tabela seguinte descreve os tipos de cluster e os tipos de nó, que podem ser criados com as VMs da série Fsv2.

Tipo de Cluster Versão Nó de Trabalho Nó Principal Nó zookeeper
Spark Todos F4 e superior não não
Hadoop Todos F4 e superior não não
Kafka Todos F4 e superior não não
HBase Todos F4 e superior não não
LLAP desativado não não não

Para ver as especificações de cada SKU da série F, veja Tamanhos de VM da série F.

Benchmarking

O benchmarking é o processo de execução de cargas de trabalho simuladas em diferentes VMs para medir o desempenho das cargas de trabalho de produção.

Para obter mais informações sobre o benchmarking para SKUs de VM e tamanhos de cluster, veja Planeamento da capacidade do cluster no Azure HDInsight .

Passos seguintes