Exercício – Executar consultas no cluster do Spark para HDInsight

8 minutos

Neste exercício, você aprenderá a criar um dataframe de um arquivo CSV e a executar consultas de SQL Spark interativas em um cluster do Apache Spark no Azure HDInsight. No Spark, um dataframe é uma coleção distribuída de dados organizados em colunas nomeadas. O dataframe é conceitualmente equivalente a uma tabela em um banco de dados relacional ou uma estrutura de dados em R/Python.

Neste tutorial, você aprenderá como:

Criar um dataframe usando um arquivo CSV
Executar consultas no dataframe

Criar um dataframe usando um arquivo CSV

O arquivo CSV de exemplo a seguir contém informações de temperatura de um edifício e é armazenado no sistema de arquivos do cluster do Spark.

A sample dataset

Cole o código a seguir em uma célula vazia do Jupyter Notebook e pressione SHIFT + ENTER para executar o código. O código importa os tipos obrigatórios necessários para este cenário
```
from pyspark.sql import *

from pyspark.sql. types import *
```
Ao executar uma consulta interativa no Jupyter, a legenda da guia ou da janela do navegador da Web mostra um status (Ocupado) ao lado do título do notebook. Você também verá um círculo sólido ao lado do texto PySpark no canto superior direito. Após a conclusão do trabalho, isso será alterado para um círculo vazio.

Execute o seguinte código para criar um dataframe e uma tabela temporária (hvac) executando o código a seguir.

# Create a dataframe and table from sample data

csvFile = spark.read.csv ('/HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv', header=True, inferSchema=True)

csvFile.write. saveAsTable("hvac")

Executar consultas no dataframe

Depois que a tabela for criada, você poderá executar uma consulta interativa nos dados.

Execute o seguinte código em uma célula vazia do notebook:
```
%%sql

SELECT buildingID, (targettemp - actualtemp) AS temp_diff, date FROM hvac WHERE date = \"6/1/13\"
```
A saída tabular a seguir é exibida.

Você também pode ver os resultados em outras visualizações. Para ver um gráfico de área para a mesma saída, selecione Área e, em seguida, defina outros valores conforme mostrado.
Na barra de menus do notebook, acesse Arquivo > Salvar e ponto de verificação.
Encerre o notebook para liberar os recursos do cluster: na barra de menus do notebook, navegue até Arquivo > Fechar e parar.

Continuar

Exercício – Executar consultas no cluster do Spark para HDInsight

Criar um dataframe usando um arquivo CSV

Executar consultas no dataframe

Comentários