Início Rápido: Implantar um Cluster do Apache Spark Gerenciado com o Azure Databricks

A Instância Gerenciada do Azure para Apache Cassandra fornece operações automatizadas de implantação e dimensionamento para datacenters Apache Cassandra de software livre gerenciados. Esse recurso acelera cenários híbridos e reduz a manutenção contínua.

Este início rápido demonstra como usar o portal do Azure para criar um cluster do Apache Spark totalmente gerenciado dentro da Rede Virtual do Azure de sua Instância Gerenciada do Azure para o cluster do Apache Cassandra. Você cria o cluster do Spark no Azure Databricks. Posteriormente, você pode criar ou anexar notebooks ao cluster, ler dados de diferentes fontes de dados e analisar insights.

Você também pode aprender mais com as instruções detalhadas em Implantando o Azure Databricks em sua Rede Virtual do Azure (Injeção de Rede Virtual).

Pré-requisitos

Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.

Criar um cluster do Azure Databricks

Siga estas etapas para criar um cluster do Azure Databricks em uma Rede Virtual que tenha a Instância Gerenciada do Azure para Apache Cassandra:

  1. Entre no portal do Azure.

  2. No painel de navegação esquerdo, localize Grupos de recursos. Navegue até o grupo de recursos que contém a Rede Virtual na qual sua instância gerenciada está implantada.

  3. Abra o recurso Rede Virtual e anote o Espaço de endereço:

    A captura de tela mostra onde obter o espaço de endereço da Rede Virtual.

  4. No grupo de recursos, selecione Adicionar e pesquise pelo Azure Databricks no campo de pesquisa:

    A captura de tela mostra uma pesquisa pelo Azure Databricks.

  5. Selecione Criar para criar uma conta do Azure Databricks:

    A captura de tela mostra a oferta do Azure Databricks com o botão Criar selecionado.

  6. Insira os valores a seguir:

    • Nome do workspace – forneça um nome para seu workspace do Databricks.
    • Região – selecione a mesma região que sua Rede Virtual.
    • Tipo de preço – escolha entre Standard, Premium ou Avaliação. Para saber mais sobre essas camadas, confira Página de preços do Databricks.

    A captura de tela mostra uma caixa de diálogo em que você pode inserir o nome, a região e o tipo de preço do workspace para a conta do Databricks.

  7. Em seguida, selecione a guia Rede e insira os seguintes detalhes:

    • Implantar o workspace do Azure Databricks na VNet (Rede Virtual) – selecione Sim.
    • Rede Virtual – no menu suspenso, escolha a Rede Virtual na qual a instância gerenciada existe.
    • Nome da sub-rede pública – insira um nome para a sub-rede pública.
    • Intervalo de CIDR da sub-rede pública – insira um intervalo de IP para a sub-rede pública.
    • Nome da sub-rede privada – insira um nome para a sub-rede privada.
    • Intervalo de CIDR de sub-rede privada – insira um intervalo de IP para a sub-rede privada.

    Para evitar colisões de intervalos, selecione intervalos mais altos. Se necessário, use uma calculadora de sub-rede visual para dividir os intervalos:

    A captura de tela mostra a Calculadora de Sub-rede Visual com dois endereços de rede idênticos realçados.

    A seguinte captura de tela mostra detalhes de exemplo no painel rede:

    A captura de tela mostra os nomes de sub-rede públicos e privados especificados.

  8. Selecione Examinar e criar e escolha Criar para implantar o workspace.

  9. Inicie o workspace após ele ser criado.

  10. Você será redirecionado ao portal do Azure Databricks. No portal, selecione Novo Cluster.

  11. No painel Novo cluster, aceite os valores padrão para todos os campos, exceto pelos seguintes:

    • Nome do Cluster – insira um nome para o cluster.
    • Versão do Databricks Runtime – é recomendável selecionar a versão 7.5 ou superior do Databricks Runtime para dar suporte ao Spark 3.x.

    A captura de tela mostra a caixa de diálogo Novo Cluster com uma Versão do Databricks Runtime selecionada.

  12. Expanda Opções avançadas e adicione a configuração a seguir. Substitua os IPs e as credenciais do nó:

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Adicione a biblioteca do Conector do Apache Spark Cassandra ao cluster para se conectar aos pontos de extremidade nativos e do Cassandra do Azure Cosmos DB. No cluster, selecione Bibliotecas>Instalar novo>Maven e, em seguida, adicione com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 nas coordenadas do Maven.

Captura de tela que mostra a pesquisa de pacotes do Maven no Databricks.

Limpar os recursos

Caso não vá continuar usando esse cluster da instância gerenciada, exclua-o seguindo estas etapas:

  1. No menu à esquerda do portal do Azure, selecione Grupos de recursos.
  2. Na lista, selecione o grupo de recursos criado neste início rápido.
  3. Na página Visão geral do grupo de recursos, selecione Excluir grupo de recursos.
  4. Na próxima janela, insira o nome do grupo de recursos a ser excluído e selecione Excluir.

Próximas etapas

Neste início rápido, você aprendeu a criar um cluster do Apache Spark totalmente gerenciado dentro da Rede Virtual da sua Instância Gerenciada do Azure para o cluster do Apache Cassandra. Em seguida, você pode aprender a gerenciar os recursos do cluster e do datacenter: