Esercizio - Caricare ed eseguire query sui dati in HDInsight

Completato

Ora che è stato effettuato il provisioning di un account di archiviazione e di un cluster Interactive Query è possibile caricare i dati immobiliari ed eseguire alcune query. I dati da caricare sono i dati immobiliari della città di New York. Includono oltre 28.000 record di proprietà, inclusi indirizzi, prezzi di vendita, superfici e informazioni sul percorso geocodificato per semplificare il mapping. La società immobiliare usa queste informazioni per determinare i prezzi corretti al metro quadro per le nuove proprietà immesse sul mercato, in base ai prezzi di vendita delle proprietà vendute in precedenza.

Per caricare i dati ed eseguire query si userà Data Analytics Studio, un'applicazione basata sul Web che è stata installata nell'azione di script usata durante la creazione del cluster Interactive Query. È possibile usare Data Analytics Studio per caricare i dati in Archiviazione di Azure, trasformare i dati in tabelle di Hive usando i tipi di dati e i nomi di colonna impostati, quindi eseguire query sui dati nel cluster usando HiveQL. Oltre a Data Analytics Studio è possibile usare qualsiasi strumento compatibile con ODBC/JDBC per lavorare con i dati usando Hive, ad esempio strumenti Spark e Hive per Visual Studio Code.

Si userà quindi un notebook Zeppelin per visualizzare rapidamente le tendenze nei dati. I notebook Zeppelin consentono di inviare query e visualizzare i risultati in una serie di grafici predefiniti diversi. I notebook Zeppelin installati nei cluster Interactive Query hanno un interprete JDBC con driver Hive.

Scaricare dati immobiliari

  1. Accedere a https://github.com/Azure/hdinsight-mslearn/tree/master/Sample%20data e scaricare il set di dati per salvare il file propertysales.csv nel computer.

Caricare i dati con Data Analytics Studio

  1. Aprire quindi Data Analytics Studio nel browser Internet usando l'URL seguente, sostituendo servername con il nome del cluster usato: https://servername.azurehdinsight.net/das/

Per accedere, il nome utente è admin e la password è la password creata.

Se si verifica un errore, passare alla scheda Panoramica del cluster nel portale di Azure e verificare che lo stato sia impostato su In esecuzione e che il tipo di cluster, versione HDI sia impostato su Interactive Query 3.1 (HDI 4.0).

  1. Data Studio Analytics viene avviato nel browser Internet.

A screenshot of the Data Analytics Studio application

  1. Fare clic su Database nel menu a sinistra, quindi fare clic sul pulsante con i puntini verticali verdi e successivamente su Crea database.

A screenshot of the Create Database button in the Data Analytics Studio application

  1. Rinominare il database "newyorkrealestate", quindi fare clic su Crea.

  2. In Esplora database fare clic sulla casella del nome del database, quindi selezionare newyorkrealestate.

Database Explorer in the Data Analytics Studio application

  1. In Esplora database fare clic su + e quindi su Crea tabella.

Create table button Database Explorer in the Data Analytics Studio application

  1. Assegnare alla nuova tabella il nome "propertysales" e quindi fare clic su Carica tabella. I nomi delle tabelle devono contenere solo lettere minuscole e numeri, nessun carattere speciale.

Upload table in the Data Analytics Studio application

  1. Nell'area Seleziona formato file della pagina:
    • Verificare che il formato del file sia CSV
    • Selezionare la casella la Is first row header? (Intestazione prima riga?).
  2. Nell'area Seleziona origine file della pagina:
    • Selezionare Upload from Local (Carica da locale).
    • Fare clic su Drag file to upload or click browse (Trascinare il file per caricarlo o fare clic su Sfoglia) e passare al file di propertysales.csv.
  3. Nella sezione Colonne modificare il tipo di dati di Latitudine e Longitudine in Stringae la data di vendita in una data.

Change data type in the Data Analytics Studio application

  1. Scorrere verso l'alto ed esaminare la sezione Anteprima tabella per verificare che le intestazioni di colonna siano corrette.

Table preview in the Data Analytics Studio application

  1. Scorrere verso il basso e fare clic su Crea per creare la tabella Hive nel database newyorkrealestate.

Create Hive Table button in the Data Analytics Studio application

  1. Nel menu a sinistra fare clic su Componi.

Compose button in the Data Analytics Studio application

  1. Provare a eseguire la query Hive seguente per verificare che tutto funzioni come previsto.
SELECT `ADDRESS`, `ZIP CODE`, `SALE PRICE`, `SQUARE FOOTAGE`
FROM newyorkrealestate.propertysales;
  1. L'output dovrebbe essere simile al seguente.

Query output in the Data Analytics Studio application

  1. Per esaminare le prestazioni della query, fare clic su Query nel menu a sinistra e quindi selezionare la query SELECT ADDRESS, ZIP CODE, SALE PRICE, SQUARE FOOTAGE FROM newyorkrealestate.propertysales appena eseguita.

Se sono disponibili consigli per le prestazioni, lo strumento li mostrerà. In questa pagina viene inoltre visualizzata la query SQL effettiva che è stata eseguita, viene fornita una spiegazione visiva della query, vengono illustrati i dettagli di configurazione dedotti da Hive durante l'esecuzione della query e viene presentata una sequenza temporale che mostra il tempo impiegato per l'esecuzione di ogni parte della query.

Esplorare le tabelle Hive usando un notebook Zeppelin

  1. Nella casella Dashboard del cluster della pagina di panoramica nel portale di Azure fare clic su Notebook Zeppelin.

Opening a Zeppelin Notebook in the Azure portal

  1. Fare clic su Nuova nota, assegnare alla nota il nome Real Estate Data, quindi fare clic su Crea.

Create a new Zeppelin Notebook in the Azure portal

  1. Incollare il frammento di codice seguente nel prompt dei comandi nella finestra Zeppelin e fare clic sull'icona Riproduci.
%jdbc(hive)
show databases;
select * from newyorkrealestate.propertysales limit 10 ; 

L'output della query viene visualizzato nella finestra. Si noterà che vengono restituiti i primi 10 risultati.

Viewing Query results in a Zeppelin Notebook in the Azure portal

  1. È ora possibile attivare una query più complessa per usare alcune delle funzionalità di visualizzazione e di grafica disponibili in Zeppelin. Copiare la query seguente nel prompt dei comandi e fare clic.
%jdbc(hive)
select `sale price`, `square footage` from newyorkrealestate.propertysales 
where `sale price` < 20000000 AND `square footage` < 50000;

Per impostazione predefinita, l'output della query viene visualizzato in formato tabella. Selezionare invece Grafico a dispersione per visualizzare uno degli oggetti visivi offerti dai notebook di Zeppelin.

Visualizations in a Zeppelin Notebook in the Azure portal