Partilhar via


Guia de início rápido: criar cluster Apache Spark no Azure HDInsight usando o portal do Azure

Neste início rápido, você usa o portal do Azure para criar um cluster Apache Spark no Azure HDInsight. Em seguida, crie um Jupyter Notebook e use-o para executar consultas do Spark SQL em tabelas do Apache Hive. O Azure HDInsight é um serviço de análise gerenciado, de espectro completo e de código aberto para empresas. A estrutura Apache Spark para HDInsight permite análise de dados rápida e computação em cluster usando processamento na memória. O Jupyter Notebook permite que você interaja com seus dados, combine código com texto de marcação e faça visualizações simples.

Para obter explicações detalhadas sobre as configurações disponíveis, consulte Configurar clusters no HDInsight. Para obter mais informações sobre o uso do portal para criar clusters, consulte Criar clusters no portal.

Se você estiver usando vários clusters juntos, convém criar uma rede virtual; se você estiver usando um cluster do Spark, talvez também queira usar o Hive Warehouse Connector. Para obter mais informações, consulte Planejar uma rede virtual para o Azure HDInsight e Integrar o Apache Spark e o Apache Hive com o Hive Warehouse Connector.

Importante

A cobrança dos clusters HDInsight é rateada por minuto, independentemente de os usar ou não. Certifique-se de eliminar o seu cluster depois de o utilizar. Para obter mais informações, consulte a secção Limpar recursos deste artigo.

Pré-requisitos

Uma conta do Azure com uma assinatura ativa. Crie uma conta gratuitamente.

Criar um cluster Apache Spark no HDInsight

Você usa o portal do Azure para criar um cluster HDInsight que usa Blobs de Armazenamento do Azure como o armazenamento de cluster. Para obter mais informações sobre como utilizar o Armazenamento do Data Lake Gen2, veja Início Rápido: configurar clusters no HDInsight.

  1. Inicie sessão no portal Azure.

  2. No menu superior, selecione + Criar um recurso.

    Captura de tela do portal do Azure como criar um recurso.

  3. Selecione Analytics>Azure HDInsight para aceder à página Criar cluster HDInsight.

  4. Na guia Noções básicas, forneça as seguintes informações:

    Propriedade Descrição
    Subscrição Na lista suspensa, selecione a assinatura do Azure utilizada para o cluster.
    Grupo de recursos Na lista pendente, selecione o grupo de recursos existente ou selecione Criar novo.
    Nome do cluster Insira um nome globalmente exclusivo.
    Região Na lista pendente, selecione uma região para criar o cluster.
    Zona de disponibilidade Opcional - especifique uma zona de disponibilidade na qual implantar o cluster
    Tipo de cluster Selecione o tipo de cluster para abrir uma lista. Na lista, selecione Spark.
    Versão do cluster Este campo será preenchido automaticamente com a versão padrão assim que o tipo de cluster for selecionado.
    Nome de utilizador para início de sessão no cluster Insira o nome de usuário de login do cluster. O nome padrão é admin. Use essa conta para fazer login no Jupyter Notebook mais tarde no início rápido.
    Palavra-passe de login do cluster Introduza a palavra-passe de login do cluster.
    Nome de utilizador de Secure Shell (SSH) Introduza o nome de utilizador SSH. O nome de usuário SSH usado para este início rápido é sshuser. Por predefinição, esta conta partilha a mesma palavra-passe que a conta de Início de Sessão do Cluster.

    Captura de tela mostra Criar cluster HDInsight com a guia Noções básicas selecionada.

  5. Selecione Next: Storage >> para continuar para a página Storage.

  6. Em Armazenamento, forneça os seguintes valores:

    Propriedade Descrição
    Tipo de armazenamento primário Use o valor padrão Azure Storage.
    Método de seleção Use o valor padrão Selecionar da lista.
    Conta de armazenamento primária Use o valor preenchido automaticamente.
    Contentor Use o valor preenchido automaticamente.

    Screenshot mostra a criação do cluster HDInsight com a guia Armazenamento selecionada.

    Selecione Revisar + criar para continuar.

  7. Em Rever + criar, selecione Criar. A criação do cluster demora cerca de 20 minutos. Tem de criar o cluster antes de poder avançar para a sessão seguinte.

Se você tiver um problema com a criação de clusters HDInsight, pode ser que você não tenha as permissões certas para fazê-lo. Para obter mais informações, veja Access control requirements (Requisitos do controlo de acesso).

Criar um Jupyter Notebook

Jupyter Notebook é um ambiente de notebook interativo que suporta várias linguagens de programação. O bloco de notas permite-lhe interagir com os seus dados, combinar código com texto markdown e realizar visualizações simples.

  1. Em um navegador da Web, navegue até https://CLUSTERNAME.azurehdinsight.net/jupyter, onde CLUSTERNAME é o nome do cluster. Se lhe for pedido, introduza as credenciais de início de sessão do cluster.

  2. Selecione New (Novo)>PySpark para criar um bloco de notas.

    Crie um Jupyter Notebook para executar a consulta interativa do Spark SQL.

    É criado e aberto um novo bloco de notas com o nome Untitled (Untitled.pynb).

Executar instruções SQL do Apache Spark

SQL (Structured Query Language) é a linguagem mais comum e mais utilizada para consultar e definir dados. O Spark SQL funciona como uma extensão do Apache Spark para o processamento de dados estruturados e utiliza a sintaxe familiar do SQL Server.

  1. Verifique se o kernel está pronto. O kernel está pronto quando vir um círculo oco junto ao nome do kernel no notebook. O círculo sólido indica que o kernel está ocupado.

    Captura de tela mostra uma janela Jupyter com um indicador PySpark.

    Quando inicia o bloco de notas pela primeira vez, o kernel efetua algumas tarefas em segundo plano. Aguarde que o kernel esteja preparado.

  2. Cole o seguinte código numa célula vazia e, em seguida, prima SHIFT + ENTER para o executar. O comando lista as tabelas do Hive no cluster:

    %%sql
    SHOW TABLES
    

    Ao usar um Bloco de Anotações Jupyter com o cluster HDInsight, você obtém uma sqlContext predefinida que pode ser usada para executar consultas do Hive usando o Spark SQL. %%sql indica ao Bloco de Notas do Jupyter que utilize o sqlContext predefinido para executar a consulta do Hive. A consulta devolve as primeiras dez linhas de uma tabela do Hive (hivesampletable) que vem em todos os clusters do HDInsight por predefinição. São necessários cerca de 30 segundos para receber os resultados. A saída é semelhante a:

    Captura de ecrã mostra uma janela Jupyter para o notebook criado nesta introdução rápida. é a introdução rápida." border="true":::

    Sempre que executar uma consulta no Jupyter, o título da janela do browser apresenta o estado (Ocupado) juntamente com o título do bloco de notas. Também vê um círculo sólido junto ao texto do PySpark no canto superior direito.

  3. Execute outra consulta para ver os dados no hivesampletable.

    %%sql
    SELECT * FROM hivesampletable LIMIT 10
    

    O ecrã deve atualizar-se e mostrar o resultado da consulta.

    Saída de consulta do Hive no HDInsight. Insight" border="true":::

  4. No menu File (Ficheiro) do bloco de notas, selecione Close and Halt (Fechar e Parar). Encerrar o bloco de notas liberta os recursos do cluster.

Limpar recursos

O HDInsight salva seus dados no Armazenamento do Azure ou no Armazenamento do Azure Data Lake, para que você possa excluir com segurança um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como as cobranças para o cluster são muitas vezes mais do que as taxas para armazenamento, faz sentido econômico excluir clusters quando eles não estão em uso. Se tencionar trabalhar imediatamente no tutorial listado em Passos seguintes, poderá ser conveniente manter o cluster.

Regresse ao portal do Azure e selecione Eliminar.

O portal do Azure exclui um cluster HDInsight. sight cluster" border="true":::

Também pode selecionar o nome do grupo de recursos para abrir a página do grupo de recursos e, em seguida, selecionar Eliminar grupo de recursos. Ao excluir o grupo de recursos, você exclui o cluster HDInsight e a conta de armazenamento padrão.

Próximos passos

Neste início rápido, você aprendeu como criar um cluster Apache Spark no HDInsight e executar uma consulta básica do Spark SQL. Avance para o próximo tutorial para saber como usar um cluster HDInsight para executar consultas interativas em dados de exemplo.