Partilhar via


Guia de início rápido: implantar um cluster do Azure Managed Apache Spark com o Azure Databricks

A Instância Gerenciada do Azure para Apache Cassandra fornece operações automatizadas de implantação e dimensionamento para datacenters Apache Cassandra de código aberto gerenciados. Esse recurso acelera cenários híbridos e ajuda a reduzir a manutenção contínua.

Este guia de início rápido demonstra como usar o portal do Azure para criar um cluster Apache Spark totalmente gerenciado dentro da rede virtual do Azure de sua Instância Gerenciada do Azure para cluster Apache Cassandra. Você cria o cluster do Spark no Azure Databricks. Mais tarde, você pode criar ou anexar blocos de anotações ao cluster, ler dados de diferentes fontes de dados e analisar insights.

Você também pode saber mais com instruções detalhadas sobre Implantar o Azure Databricks em sua rede virtual do Azure (injeção de rede virtual).

Pré-requisitos

Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.

Criar um cluster do Azure Databricks

Siga estas etapas para criar um cluster do Azure Databricks em uma rede virtual que tenha a Instância Gerenciada do Azure para Apache Cassandra:

  1. Inicie sessão no portal do Azure.

  2. No painel esquerdo, localize Grupos de recursos. Vá para o grupo de recursos que contém a rede virtual onde a instância gerenciada está implantada.

  3. Abra o recurso Rede virtual e anote o espaço de endereçamento.

    Captura de ecrã que mostra onde obter o espaço de endereço da sua rede virtual.

  4. No grupo de recursos, selecione Adicionar e procurar Azure Databricks no campo de pesquisa.

    Captura de ecrã que mostra uma pesquisa por Azure Databricks.

  5. Selecione Criar para criar uma conta do Azure Databricks.

    Captura de tela que mostra a oferta do Azure Databricks com Criar selecionado.

  6. Introduza os seguintes valores:

    • Nome do espaço de trabalho: forneça um nome para seu espaço de trabalho do Azure Databricks.
    • Região: certifique-se de selecionar a mesma região da sua rede virtual.
    • Nível de preço: selecione Standard, Premium ou Trial. Para obter mais informações sobre essas camadas, consulte a página de preços do Azure Databricks.

    Captura de ecrã que mostra uma caixa de diálogo onde pode introduzir o nome da área de trabalho, a região e o escalão de preços para a conta do Azure Databricks.

  7. Selecione a guia Rede e insira os seguintes detalhes:

    • Implantar o espaço de trabalho do Azure Databricks em sua Rede Virtual (VNet): selecione Sim.
    • Rede virtual: na lista suspensa, escolha a rede virtual onde sua instância gerenciada existe.
    • Nome da sub-rede pública: insira um nome para a sub-rede pública.
    • Intervalo CIDR da sub-rede pública: insira um intervalo de IP para a sub-rede pública.
    • Nome da sub-rede privada: insira um nome para a sub-rede privada.
    • Intervalo CIDR da sub-rede privada: insira um intervalo de IP para a sub-rede privada.

    Para evitar colisões de alcance, certifique-se de selecionar intervalos mais altos. Se necessário, use uma calculadora visual de sub-rede para dividir os intervalos.

    Captura de ecrã que mostra a Calculadora de Sub-rede Visual com dois endereços de rede idênticos realçados.

    A captura de tela a seguir mostra detalhes de exemplo no painel de rede.

    Captura de tela que mostra nomes de sub-redes públicas e privadas especificadas.

  8. Selecione Rever + criar e, em seguida, selecione Criar para implementar o espaço de trabalho.

  9. Abra o espaço de trabalho depois que ele for criado.

  10. Você será redirecionado para o portal do Azure Databricks. No portal, selecione Novo Cluster.

  11. No painel Novo cluster , aceite valores padrão para todos os campos diferentes dos seguintes campos:

    • Nome do cluster: insira um nome para o cluster.
    • Versão do tempo de execução do Databricks: recomendamos que você selecione o tempo de execução do Azure Databricks versão 7.5 ou posterior, para obter suporte ao Spark 3.x.

    Captura de tela que mostra a caixa de diálogo Novo Cluster com uma versão de tempo de execução do Azure Databricks selecionada.

  12. Expanda Opções avançadas e adicione a seguinte configuração. Certifique-se de substituir os IPs e credenciais do nó.

    spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
    spark.cassandra.auth.password cassandra
    spark.cassandra.connection.port 9042
    spark.cassandra.auth.username cassandra
    spark.cassandra.connection.ssl.enabled true
    
  13. Adicione a biblioteca Apache Spark Cassandra Connector ao cluster para se conectar aos pontos de extremidade Cassandra nativos e do Azure Cosmos DB. No cluster, selecione Bibliotecas>Instalar Novo>Maven e adicione com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 o campo Coordenadas do Maven.

    Captura de ecrã que mostra a procura de pacotes Maven no Azure Databricks.

  14. Selecione Instalar.

Clean up resources (Limpar recursos)

Se você não quiser continuar a usar esse cluster de instância gerenciado, siga estas etapas para excluí-lo:

  1. No menu esquerdo do portal do Azure, selecione Grupos de recursos.
  2. Na lista, selecione o grupo de recursos que você criou para este início rápido.
  3. No painel Visão geral do grupo de recursos, selecione Excluir grupo de recursos.
  4. No painel seguinte, introduza o nome do grupo de recursos a eliminar e, em seguida, selecione Eliminar.

Próximo passo

Neste guia de início rápido, você aprendeu como criar um cluster Apache Spark totalmente gerenciado dentro da rede virtual da sua Instância Gerenciada do Azure para cluster Apache Cassandra. Em seguida, saiba como gerenciar os recursos do cluster e do datacenter.