Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Neste início rápido, você usa o portal do Azure para criar um cluster Apache Spark no Azure HDInsight. Em seguida, crie um Jupyter Notebook e use-o para executar consultas do Spark SQL em tabelas do Apache Hive. O Azure HDInsight é um serviço de análise gerenciado, de espectro completo e de código aberto para empresas. A estrutura Apache Spark para HDInsight permite análise de dados rápida e computação em cluster usando processamento na memória. O Jupyter Notebook permite que você interaja com seus dados, combine código com texto de marcação e faça visualizações simples.
Para obter explicações detalhadas sobre as configurações disponíveis, consulte Configurar clusters no HDInsight. Para obter mais informações sobre o uso do portal para criar clusters, consulte Criar clusters no portal.
Se você estiver usando vários clusters juntos, convém criar uma rede virtual; se você estiver usando um cluster do Spark, talvez também queira usar o Hive Warehouse Connector. Para obter mais informações, consulte Planejar uma rede virtual para o Azure HDInsight e Integrar o Apache Spark e o Apache Hive com o Hive Warehouse Connector.
Importante
A cobrança dos clusters HDInsight é rateada por minuto, independentemente de os usar ou não. Certifique-se de eliminar o seu cluster depois de o utilizar. Para obter mais informações, consulte a secção Limpar recursos deste artigo.
Pré-requisitos
Uma conta do Azure com uma assinatura ativa. Crie uma conta gratuitamente.
Criar um cluster Apache Spark no HDInsight
Você usa o portal do Azure para criar um cluster HDInsight que usa Blobs de Armazenamento do Azure como o armazenamento de cluster. Para obter mais informações sobre como utilizar o Armazenamento do Data Lake Gen2, veja Início Rápido: configurar clusters no HDInsight.
Inicie sessão no portal Azure.
No menu superior, selecione + Criar um recurso.
Selecione Analytics>Azure HDInsight para aceder à página Criar cluster HDInsight.
Na guia Noções básicas, forneça as seguintes informações:
Propriedade Descrição Subscrição Na lista suspensa, selecione a assinatura do Azure utilizada para o cluster. Grupo de recursos Na lista pendente, selecione o grupo de recursos existente ou selecione Criar novo. Nome do cluster Insira um nome globalmente exclusivo. Região Na lista pendente, selecione uma região para criar o cluster. Zona de disponibilidade Opcional - especifique uma zona de disponibilidade na qual implantar o cluster Tipo de cluster Selecione o tipo de cluster para abrir uma lista. Na lista, selecione Spark. Versão do cluster Este campo será preenchido automaticamente com a versão padrão assim que o tipo de cluster for selecionado. Nome de utilizador para início de sessão no cluster Insira o nome de usuário de login do cluster. O nome padrão é admin. Use essa conta para fazer login no Jupyter Notebook mais tarde no início rápido. Palavra-passe de login do cluster Introduza a palavra-passe de login do cluster. Nome de utilizador de Secure Shell (SSH) Introduza o nome de utilizador SSH. O nome de usuário SSH usado para este início rápido é sshuser. Por predefinição, esta conta partilha a mesma palavra-passe que a conta de Início de Sessão do Cluster.
Selecione Next: Storage >> para continuar para a página Storage.
Em Armazenamento, forneça os seguintes valores:
Propriedade Descrição Tipo de armazenamento primário Use o valor padrão Azure Storage. Método de seleção Use o valor padrão Selecionar da lista. Conta de armazenamento primária Use o valor preenchido automaticamente. Contentor Use o valor preenchido automaticamente.
Selecione Revisar + criar para continuar.
Em Rever + criar, selecione Criar. A criação do cluster demora cerca de 20 minutos. Tem de criar o cluster antes de poder avançar para a sessão seguinte.
Se você tiver um problema com a criação de clusters HDInsight, pode ser que você não tenha as permissões certas para fazê-lo. Para obter mais informações, veja Access control requirements (Requisitos do controlo de acesso).
Criar um Jupyter Notebook
Jupyter Notebook é um ambiente de notebook interativo que suporta várias linguagens de programação. O bloco de notas permite-lhe interagir com os seus dados, combinar código com texto markdown e realizar visualizações simples.
Em um navegador da Web, navegue até
https://CLUSTERNAME.azurehdinsight.net/jupyter, ondeCLUSTERNAMEé o nome do cluster. Se lhe for pedido, introduza as credenciais de início de sessão do cluster.Selecione New (Novo)>PySpark para criar um bloco de notas.
É criado e aberto um novo bloco de notas com o nome Untitled (Untitled.pynb).
Executar instruções SQL do Apache Spark
SQL (Structured Query Language) é a linguagem mais comum e mais utilizada para consultar e definir dados. O Spark SQL funciona como uma extensão do Apache Spark para o processamento de dados estruturados e utiliza a sintaxe familiar do SQL Server.
Verifique se o kernel está pronto. O kernel está pronto quando vir um círculo oco junto ao nome do kernel no notebook. O círculo sólido indica que o kernel está ocupado.
Quando inicia o bloco de notas pela primeira vez, o kernel efetua algumas tarefas em segundo plano. Aguarde que o kernel esteja preparado.
Cole o seguinte código numa célula vazia e, em seguida, prima SHIFT + ENTER para o executar. O comando lista as tabelas do Hive no cluster:
%%sql SHOW TABLESAo usar um Bloco de Anotações Jupyter com o cluster HDInsight, você obtém uma
sqlContextpredefinida que pode ser usada para executar consultas do Hive usando o Spark SQL.%%sqlindica ao Bloco de Notas do Jupyter que utilize osqlContextpredefinido para executar a consulta do Hive. A consulta devolve as primeiras dez linhas de uma tabela do Hive (hivesampletable) que vem em todos os clusters do HDInsight por predefinição. São necessários cerca de 30 segundos para receber os resultados. A saída é semelhante a:
é a introdução rápida." border="true":::Sempre que executar uma consulta no Jupyter, o título da janela do browser apresenta o estado (Ocupado) juntamente com o título do bloco de notas. Também vê um círculo sólido junto ao texto do PySpark no canto superior direito.
Execute outra consulta para ver os dados no
hivesampletable.%%sql SELECT * FROM hivesampletable LIMIT 10O ecrã deve atualizar-se e mostrar o resultado da consulta.
Insight" border="true":::No menu File (Ficheiro) do bloco de notas, selecione Close and Halt (Fechar e Parar). Encerrar o bloco de notas liberta os recursos do cluster.
Limpar recursos
O HDInsight salva seus dados no Armazenamento do Azure ou no Armazenamento do Azure Data Lake, para que você possa excluir com segurança um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como as cobranças para o cluster são muitas vezes mais do que as taxas para armazenamento, faz sentido econômico excluir clusters quando eles não estão em uso. Se tencionar trabalhar imediatamente no tutorial listado em Passos seguintes, poderá ser conveniente manter o cluster.
Regresse ao portal do Azure e selecione Eliminar.
sight cluster" border="true":::
Também pode selecionar o nome do grupo de recursos para abrir a página do grupo de recursos e, em seguida, selecionar Eliminar grupo de recursos. Ao excluir o grupo de recursos, você exclui o cluster HDInsight e a conta de armazenamento padrão.
Próximos passos
Neste início rápido, você aprendeu como criar um cluster Apache Spark no HDInsight e executar uma consulta básica do Spark SQL. Avance para o próximo tutorial para saber como usar um cluster HDInsight para executar consultas interativas em dados de exemplo.