Exercício – Executar consultas no cluster do Spark para HDInsight

Concluído

Neste exercício, você aprenderá a criar um dataframe de um arquivo CSV e a executar consultas de SQL Spark interativas em um cluster do Apache Spark no Azure HDInsight. No Spark, um dataframe é uma coleção distribuída de dados organizados em colunas nomeadas. O dataframe é conceitualmente equivalente a uma tabela em um banco de dados relacional ou uma estrutura de dados em R/Python.

Neste tutorial, você aprenderá como:

  • Criar um dataframe usando um arquivo CSV
  • Executar consultas no dataframe

Criar um dataframe usando um arquivo CSV

O arquivo CSV de exemplo a seguir contém informações de temperatura de um edifício e é armazenado no sistema de arquivos do cluster do Spark.

A sample dataset

  1. Cole o código a seguir em uma célula vazia do Jupyter Notebook e pressione SHIFT + ENTER para executar o código. O código importa os tipos obrigatórios necessários para este cenário

    from pyspark.sql import *
    
    from pyspark.sql. types import *
    
  2. Ao executar uma consulta interativa no Jupyter, a legenda da guia ou da janela do navegador da Web mostra um status (Ocupado) ao lado do título do notebook. Você também verá um círculo sólido ao lado do texto PySpark no canto superior direito. Após a conclusão do trabalho, isso será alterado para um círculo vazio.

    Running Python in Jupyter

  3. Execute o seguinte código para criar um dataframe e uma tabela temporária (hvac) executando o código a seguir.

    # Create a dataframe and table from sample data
    
    csvFile = spark.read.csv ('/HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv', header=True, inferSchema=True)
    
    csvFile.write. saveAsTable("hvac")
    

Executar consultas no dataframe

Depois que a tabela for criada, você poderá executar uma consulta interativa nos dados.

  1. Execute o seguinte código em uma célula vazia do notebook:

    %%sql
    
    SELECT buildingID, (targettemp - actualtemp) AS temp_diff, date FROM hvac WHERE date = \"6/1/13\"
    

    A saída tabular a seguir é exibida.

    Dataset results in Jupyter

    Você também pode ver os resultados em outras visualizações. Para ver um gráfico de área para a mesma saída, selecione Área e, em seguida, defina outros valores conforme mostrado.

    Dataset visualization in Jupyter

  2. Na barra de menus do notebook, acesse Arquivo > Salvar e ponto de verificação.

  3. Encerre o notebook para liberar os recursos do cluster: na barra de menus do notebook, navegue até Arquivo > Fechar e parar.