Esercitazione: Analizzare dati di Apache Spark con Power BI in HDInsight
In questa esercitazione si apprenderà come usare Microsoft Power BI per visualizzare i dati nel cluster Apache Spark in Azure HDInsight.
In questa esercitazione apprenderai a:
- Visualizzare i dati di Spark usando Power BI
Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.
Prerequisiti
Completare l'articolo Esercitazione: Caricare i dati ed eseguire query in un cluster Apache Spark in Azure HDInsight.
Facoltativo: sottoscrizione di valutazione di Power BI.
Verificare i dati
Il notebook Jupyter creato nell'esercitazione precedente include il codice per creare una tabella hvac
. Questa tabella si basa sul file CSV disponibile in tutti i cluster HDInsight Spark all'indirizzo \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv
. Usare la procedura seguente per verificare i dati.
Da Jupyter Notebook incollare il codice seguente e quindi premere MAIUSC + INVIO. Il codice verifica l'esistenza delle tabelle.
%%sql SHOW TABLES
L'output sarà simile al seguente:
Se il notebook è stato chiuso prima di iniziare questa esercitazione,
hvactemptable
è stato eliminato e non è stato quindi incluso nell'output. Dagli strumenti BI è possibile accedere solo alle tabelle Hive archiviate nel metastore (indicato da False nella colonna isTemporary). In questa esercitazione si esegue la connessione alla tabella hvac creata.Incollare il codice seguente in una cella vuota e quindi premere MAIUSC + INVIO. Il codice verifica i dati nella tabella.
%%sql SELECT * FROM hvac LIMIT 10
L'output sarà simile al seguente:
Nel menu File del notebook fare clic su Close and Halt (Chiudi e interrompi). Arrestare il notebook per rilasciare le risorse.
Visualizzare i dati
In questa sezione si usa Power BI per creare visualizzazioni, report e dashboard dai dati del cluster Spark.
Creare un report in Power BI Desktop
I primi passaggi nell'uso di Spark sono la connessione al cluster in Power BI Desktop, il caricamento dei dati dal cluster e la creazione di una visualizzazione basata su tali dati.
Apri Power BI Desktop. Se si apre la schermata iniziale, chiuderla.
Nella scheda Home passare a Recupera dati>Altro.
Immettere
Spark
nella casella di ricerca, selezionare Azure HDInsight Spark e quindi selezionare Connetti.Immettere l'URL del cluster (nel formato
mysparkcluster.azurehdinsight.net
) nella casella di testo Server.In Modalità Connettività dati selezionare DirectQuery. Selezionare OK.
Con Spark è possibile usare entrambe le modalità di connettività dati. Se si usa DirectQuery, le modifiche si riflettono nei report senza l'aggiornamento dell'intero set di dati. Se si importano i dati, per visualizzare le modifiche è necessario aggiornare il set di dati. Per altre informazioni su come e quando usare DirectQuery, vedere Uso di DirectQuery in Power BI.
Immettere le informazioni dell'account di accesso di HDInsight, quindi selezionare Connetti. Il nome account predefinito è admin.
Selezionare la tabella
hvac
, attendere la visualizzazione dell'anteprima dei dati e quindi selezionare Carica.Power BI Desktop ha le informazioni necessarie per connettersi al cluster Spark e caricare dati dalla tabella
hvac
. La tabella e le relative colonne sono visualizzate nel riquadro Campi.Visualizzare la variazione tra temperatura di destinazione e temperatura effettiva per ogni edificio:
Nel riquadro VISUALIZZAZIONI selezionare Grafico ad aree.
Trascinare il campo BuildingID in Assee trascinare i campi ActualTemp e TargetTemp in Valore.
Il diagramma è simile al seguente:
Per impostazione predefinita, la visualizzazione mostra la somma di ActualTemp e TargetTemp. Selezionare la freccia verso il basso accanto ad ActualTemp e a TragetTemp nel riquadro Visualizzazioni per osservare che è selezionato Somma.
Selezionare le frecce verso il basso accanto ad ActualTemp e a TragetTemp nel riquadro Visualizzazioni e quindi selezionare Media per ottenere una media della temperatura effettiva e di quella di destinazione per ogni edificio.
La visualizzazione dei dati sarà simile a quella nello screenshot. Spostare il cursore sopra la visualizzazione per ottenere suggerimenti con i dati rilevanti.
Passare a File>Salva, immettere il nome
BuildingTemperature
per il file e quindi selezionare Salva.
Pubblicare il report nel servizio Power BI (facoltativo)
Il servizio Power BI consente di condividere report e dashboard nell'organizzazione. In questa sezione prima si pubblicano i set di dati e il report, quindi si aggiunge il report a un dashboard. I dashboard vengono in genere usati per concentrarsi su un subset di dati in un report. Nel report è presente una sola visualizzazione, ma è comunque utile eseguire la procedura.
Apri Power BI Desktop.
Nella scheda Home seleziona Pubblica.
Selezionare un'area di lavoro in cui pubblicare il set di dati e il report e quindi fare clic su Seleziona. Nella figura seguente è selezionato il valore predefinito Area di lavoro personale.
Al termine della pubblicazione, selezionare Apri 'BuildingTemperature.pbix' in Power BI.
Nel servizio Power BI selezionare Immettere le credenziali.
Selezionare Modifica credenziali.
Immettere le informazioni dell'account di accesso di HDInsight e quindi fare clic su Accedi. Il nome account predefinito è admin.
Nel riquadro a sinistra passare ad Aree di lavoro>Area di lavoro personale>REPORT e quindi selezionare BuildingTemperature.
Il report BuildingTemperature è visualizzato anche in SET DI DATI nel riquadro a sinistra.
L'oggetto visivo creato in Power BI Desktop è ora disponibile nel servizio Power BI.
Passare il puntatore del mouse sopra la visualizzazione e quindi fare clic sull'icona a forma di puntina nell'angolo in alto a destra.
Selezionare "Nuovo dashboard", immettere il nome
Building temperature
e quindi fare clic su Aggiungi.All'interno del report selezionare Vai al dashboard.
L'oggetto visivo è stato aggiunto al dashboard. È possibile aggiungere altri oggetti visivi al report e aggiungerli poi allo stesso dashboard. Per altre informazioni su report e dashboard, vedere Report in Power BI e Dashboard in Power BI.
Pulire le risorse
Al termine dell'esercitazione, è consigliabile eliminare il cluster. Con HDInsight, i dati vengono archiviati in Archiviazione di Azure ed è possibile eliminare tranquillamente un cluster quando non è in uso. Vengono addebitati i costi anche per i cluster HDInsight che non sono in uso. Poiché i costi per il cluster sono decisamente superiori a quelli per l'archiviazione, eliminare i cluster quando non vengono usati è una scelta economicamente conveniente.
Per eliminare un cluster, vedere Eliminare un cluster HDInsight tramite browser, PowerShell o l'interfaccia della riga di comando di Azure.
Passaggi successivi
In questa esercitazione si è appreso come usare Microsoft Power BI per visualizzare i dati nel cluster Apache Spark in Azure HDInsight. Passare al prossimo articolo per vedere che è possibile creare un'applicazione di apprendimento automatico.