Connettere Excel ad Apache Hadoop mediante Power Query

Una funzionalità chiave della soluzione Big Data di Microsoft è l'integrazione dei componenti di business intelligence (BI) Microsoft con i cluster Apache Hadoop in Azure HDInsight. Un esempio importante è la possibilità di connettere Excel all'account di Archiviazione di Azure che contiene i dati associati al cluster Hadoop usando il componente aggiuntivo Microsoft Power Query per Excel. Questo articolo illustra come configurare e usare Power Query per eseguire una query sui dati associati a un cluster Hadoop gestito con HDInsight.

Prerequisiti

Installare Microsoft Power Query

Power Query consente di importare dati derivati o generati da un processo Hadoop in esecuzione su un cluster HDInsight.

In Excel 2016, Power Query è stata integrata nella barra multifunzione Dati nella sezione Get & Transform (Recupera e trasforma). Per le versioni meno recenti di Excel, scaricare Microsoft Power Query per Excel dall'Area download Microsoft e installarlo.

Importare dati di HDInsight in Excel

Il componente aggiuntivo Power Query per Excel consente di importare facilmente dati dal cluster HDInsight in Excel dove strumenti BI quali PowerPivot e Power Map possono essere usati per esaminare, analizzare e presentare i dati.

  1. Avviare Excel.

  2. Creare una nuova cartella di lavoro vuota.

  3. Eseguire la procedura seguente in base alla versione di Excel:

    • Excel 2016

      • Selezionare Recupera dati>>da Azure>da Azure HDInsight(HDFS).>

        HDI.PowerQuery.SelectHdiSource.2016.

    • Excel 2013/2010

      • Selezionare Power Query>da Azure>da Microsoft Azure HDInsight.

        HDI.PowerQuery.SelectHdiSource.

        Nota: se non viene visualizzato il menu Power Query, passare a Componenti aggiuntivi Opzioni>file>e selezionare Componenti aggiuntivi COM dalla casella di riepilogo a discesa Gestisci nella parte inferiore della pagina. Fare clic sul pulsante Vai e verificare che la casella per il componente aggiuntivo Power Query per Excel sia selezionata.

        Nota: Power Query consente anche di importare dati da HDFS selezionando Da altre origini.

  4. Nella finestra di dialogo Azure HDInsight(HDFS), nella casella di testo Nome account o URL immettere il nome dell'account di archiviazione BLOB di Azure associato al cluster. Selezionare OK. Questo può essere l'account di archiviazione predefinito o un account di archiviazione collegato. Il formato è https://StorageAccountName.blob.core.windows.net/.

  5. Per Chiave account immettere la chiave per l'account di archiviazione BLOB e quindi selezionare Connessione. È necessario immettere le informazioni sull'account solo la prima volta che si accede a questo archivio.

  6. Nel riquadro Strumento di navigazione a sinistra del Editor di query fare doppio clic sul nome del contenitore di archiviazione BLOB associato al cluster. Per impostazione predefinita, il nome del contenitore è uguale al nome del cluster.

  7. Individuare HiveSampleData.txt nella colonna Nome (il percorso della cartella è .. /hive/warehouse/hivesampletable/) e quindi selezionare Binario a sinistra di HiveSampleData.txt. HiveSampleData.txt include tutto il cluster. Facoltativamente, è possibile usare un proprio file.

    HDI Excel power query import data.

  8. Se necessario, è possibile ridenominare le colonne. Quando si è pronti, selezionare Chiudi e carica. I dati vengono caricati nella cartella di lavoro:

    HDI Excel power query imported table.

Passaggi successivi

In questo articolo è stato illustrato come usare Power Query per recuperare dati da HDInsight in Excel. È analogamente possibile recuperare dati da HDInsight nel database SQL di Azure. È anche possibile caricare dati in HDInsight. Per ulteriori informazioni, vedere gli articoli seguenti: