Criar um cluster do Spark

Concluído

Você pode criar um ou mais clusters em seu espaço de trabalho do Azure Databricks usando o portal do Azure Databricks.

Screenshot of the Create Cluster interface in the Azure Databricks portal.

Ao criar o cluster, você pode especificar definições de configuração, incluindo:

  • Um nome para o cluster.
  • Um modo de cluster, que pode ser:
    • Padrão: Adequado para cargas de trabalho de usuário único que exigem vários nós de trabalho.
    • Alta simultaneidade: Adequado para cargas de trabalho em que vários usuários usarão o cluster simultaneamente.
    • Nó único: Adequado para pequenas cargas de trabalho ou testes, onde apenas um único nó de trabalho é necessário.
  • A versão do Databricks Runtime a ser usada no cluster, que dita a versão do Spark e componentes individuais como Python, Scala e outros que são instalados.
  • O tipo de máquina virtual (VM) usada para os nós de trabalho no cluster.
  • O número mínimo e máximo de nós de trabalho no cluster.
  • O tipo de VM usado para o nó do driver no cluster.
  • Se o cluster suporta dimensionamento automático para redimensionar dinamicamente o cluster.
  • Por quanto tempo o cluster pode permanecer ocioso antes de ser desligado automaticamente.

Como o Azure gerencia recursos de cluster

Quando você cria um espaço de trabalho do Azure Databricks, um dispositivo Databricks é implantado como um recurso do Azure em sua assinatura. Ao criar um cluster no espaço de trabalho, você especifica os tipos e tamanhos das máquinas virtuais (VMs) a serem usadas para os nós de driver e de trabalho e algumas outras opções de configuração, mas o Azure Databricks gerencia todos os outros aspetos do cluster.

O dispositivo Databricks é implantado no Azure como um grupo de recursos gerenciados em sua assinatura. Esse grupo de recursos contém as VMs de driver e de trabalho para seus clusters, juntamente com outros recursos necessários, incluindo uma rede virtual, um grupo de segurança e uma conta de armazenamento. Todos os metadados do cluster, como trabalhos agendados, são armazenados em um Banco de Dados do Azure com replicação geográfica para tolerância a falhas.

Internamente, o Serviço Kubernetes do Azure (AKS) é usado para executar o plano de controle e os planos de dados do Azure Databricks por meio de contêineres executados na última geração de hardware do Azure (VMs Dv3), com SSDs NvMe capazes de atingir latência de 100us em máquinas virtuais do Azure de alto desempenho com rede acelerada. O Azure Databricks utiliza esses recursos do Azure para melhorar ainda mais o desempenho do Spark. Depois que os serviços dentro do seu grupo de recursos gerenciados estiverem prontos, você poderá gerenciar o cluster Databricks por meio da interface do usuário do Azure Databricks e por meio de recursos como dimensionamento automático e encerramento automático.

Diagram of Azure Databricks architecture.

Nota

Você também tem a opção de anexar seu cluster a um pool de nós ociosos para reduzir o tempo de inicialização do cluster. Para obter mais informações, consulte Pools na documentação do Azure Databricks.