Condividi tramite


Esercitazione: Analizzare dati di Apache Spark con Power BI in HDInsight

In questa esercitazione si apprenderà come usare Microsoft Power BI per visualizzare i dati nel cluster Apache Spark in Azure HDInsight.

In questa esercitazione apprenderai a:

  • Visualizzare i dati di Spark usando Power BI

Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.

Prerequisiti

Verificare i dati

Il notebook Jupyter creato nell'esercitazione precedente include il codice per creare una tabella hvac. Questa tabella si basa sul file CSV disponibile in tutti i cluster HDInsight Spark all'indirizzo \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Usare la procedura seguente per verificare i dati.

  1. Da Jupyter Notebook incollare il codice seguente e quindi premere MAIUSC + INVIO. Il codice verifica l'esistenza delle tabelle.

    %%sql
    SHOW TABLES
    

    L'output sarà simile al seguente:

    Screenshot che mostra le tabelle in Spark.

    Se il notebook è stato chiuso prima di iniziare questa esercitazione, hvactemptable è stato eliminato e non è stato quindi incluso nell'output. Dagli strumenti BI è possibile accedere solo alle tabelle Hive archiviate nel metastore (indicato da False nella colonna isTemporary). In questa esercitazione si esegue la connessione alla tabella hvac creata.

  2. Incollare il codice seguente in una cella vuota e quindi premere MAIUSC + INVIO. Il codice verifica i dati nella tabella.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    L'output sarà simile al seguente:

    Screenshot che mostra le righe della tabella hvac in Spark.

  3. Nel menu File del notebook fare clic su Close and Halt (Chiudi e interrompi). Arrestare il notebook per rilasciare le risorse.

Visualizzare i dati

In questa sezione si usa Power BI per creare visualizzazioni, report e dashboard dai dati del cluster Spark.

Creare un report in Power BI Desktop

I primi passaggi nell'uso di Spark sono la connessione al cluster in Power BI Desktop, il caricamento dei dati dal cluster e la creazione di una visualizzazione basata su tali dati.

  1. Apri Power BI Desktop. Se si apre la schermata iniziale, chiuderla.

  2. Nella scheda Home passare a Recupera dati>Altro.

    Screenshot che mostra come ottenere i dati in Power BI Desktop da HDInsight Apache Spark.

  3. Immettere Spark nella casella di ricerca, selezionare Azure HDInsight Spark e quindi selezionare Connetti.

    Screenshot che mostra come ottenere dati in Power BI da Apache Spark BI.

  4. Immettere l'URL del cluster (nel formato mysparkcluster.azurehdinsight.net) nella casella di testo Server.

  5. In Modalità Connettività dati selezionare DirectQuery. Selezionare OK.

    Con Spark è possibile usare entrambe le modalità di connettività dati. Se si usa DirectQuery, le modifiche si riflettono nei report senza l'aggiornamento dell'intero set di dati. Se si importano i dati, per visualizzare le modifiche è necessario aggiornare il set di dati. Per altre informazioni su come e quando usare DirectQuery, vedere Uso di DirectQuery in Power BI.

  6. Immettere le informazioni dell'account di accesso di HDInsight, quindi selezionare Connetti. Il nome account predefinito è admin.

  7. Selezionare la tabella hvac, attendere la visualizzazione dell'anteprima dei dati e quindi selezionare Carica.

    Screenshot che mostra il nome utente e la password del cluster Spark.

    Power BI Desktop ha le informazioni necessarie per connettersi al cluster Spark e caricare dati dalla tabella hvac. La tabella e le relative colonne sono visualizzate nel riquadro Campi.

  8. Visualizzare la variazione tra temperatura di destinazione e temperatura effettiva per ogni edificio:

    1. Nel riquadro VISUALIZZAZIONI selezionare Grafico ad aree.

    2. Trascinare il campo BuildingID in Assee trascinare i campi ActualTemp e TargetTemp in Valore.

      Screenshot che mostra le colonne add value.

      Il diagramma è simile al seguente:

      Screenshot che mostra la somma del grafico ad area.

      Per impostazione predefinita, la visualizzazione mostra la somma di ActualTemp e TargetTemp. Selezionare la freccia verso il basso accanto ad ActualTemp e a TragetTemp nel riquadro Visualizzazioni per osservare che è selezionato Somma.

    3. Selezionare le frecce verso il basso accanto ad ActualTemp e a TragetTemp nel riquadro Visualizzazioni e quindi selezionare Media per ottenere una media della temperatura effettiva e di quella di destinazione per ogni edificio.

      Screenshot che mostra la media dei valori.

      La visualizzazione dei dati sarà simile a quella nello screenshot. Spostare il cursore sopra la visualizzazione per ottenere suggerimenti con i dati rilevanti.

      Screenshot che mostra il grafico ad area

  9. Passare a File>Salva, immettere il nome BuildingTemperature per il file e quindi selezionare Salva.

Pubblicare il report nel servizio Power BI (facoltativo)

Il servizio Power BI consente di condividere report e dashboard nell'organizzazione. In questa sezione prima si pubblicano i set di dati e il report, quindi si aggiunge il report a un dashboard. I dashboard vengono in genere usati per concentrarsi su un subset di dati in un report. Nel report è presente una sola visualizzazione, ma è comunque utile eseguire la procedura.

  1. Apri Power BI Desktop.

  2. Nella scheda Home seleziona Pubblica.

    Screenshot che mostra la pubblicazione da Power BI Desktop.

  3. Selezionare un'area di lavoro in cui pubblicare il set di dati e il report e quindi fare clic su Seleziona. Nella figura seguente è selezionato il valore predefinito Area di lavoro personale.

    Screenshot che mostra la selezione dell'area di lavoro in cui pubblicare il set di dati e il report.

  4. Al termine della pubblicazione, selezionare Apri 'BuildingTemperature.pbix' in Power BI.

    Screenshot che mostra l'esito positivo della pubblicazione, fare clic per immettere le credenziali.

  5. Nel servizio Power BI selezionare Immettere le credenziali.

    Screenshot che mostra come immettere le credenziali in servizio Power BI.

  6. Selezionare Modifica credenziali.

    Screenshot che mostra Modifica credenziali in servizio Power BI.

  7. Immettere le informazioni dell'account di accesso di HDInsight e quindi fare clic su Accedi. Il nome account predefinito è admin.

    Screenshot che mostra l'accesso al cluster Spark.

  8. Nel riquadro a sinistra passare ad Aree di lavoro>Area di lavoro personale>REPORT e quindi selezionare BuildingTemperature.

    Screenshot che mostra il report elencato nei report nel riquadro sinistro.

    Il report BuildingTemperature è visualizzato anche in SET DI DATI nel riquadro a sinistra.

    L'oggetto visivo creato in Power BI Desktop è ora disponibile nel servizio Power BI.

  9. Passare il puntatore del mouse sopra la visualizzazione e quindi fare clic sull'icona a forma di puntina nell'angolo in alto a destra.

    Screenshot che mostra il report nel servizio Power BI.

  10. Selezionare "Nuovo dashboard", immettere il nome Building temperature e quindi fare clic su Aggiungi.

    Screenshot che mostra l'aggiunta al nuovo dashboard.

  11. All'interno del report selezionare Vai al dashboard.

L'oggetto visivo è stato aggiunto al dashboard. È possibile aggiungere altri oggetti visivi al report e aggiungerli poi allo stesso dashboard. Per altre informazioni su report e dashboard, vedere Report in Power BI e Dashboard in Power BI.

Pulire le risorse

Al termine dell'esercitazione, è consigliabile eliminare il cluster. Con HDInsight, i dati vengono archiviati in Archiviazione di Azure ed è possibile eliminare tranquillamente un cluster quando non è in uso. Vengono addebitati i costi anche per i cluster HDInsight che non sono in uso. Poiché i costi per il cluster sono decisamente superiori a quelli per l'archiviazione, eliminare i cluster quando non vengono usati è una scelta economicamente conveniente.

Per eliminare un cluster, vedere Eliminare un cluster HDInsight tramite browser, PowerShell o l'interfaccia della riga di comando di Azure.

Passaggi successivi

In questa esercitazione si è appreso come usare Microsoft Power BI per visualizzare i dati nel cluster Apache Spark in Azure HDInsight. Passare al prossimo articolo per vedere che è possibile creare un'applicazione di apprendimento automatico.