Connettere Excel ad Apache Hadoop mediante Power Query
Una funzionalità chiave della soluzione Big Data di Microsoft è l'integrazione dei componenti di business intelligence (BI) Microsoft con i cluster Apache Hadoop in Azure HDInsight. Un esempio importante è la possibilità di connettere Excel all'account di Archiviazione di Azure che contiene i dati associati al cluster Hadoop usando il componente aggiuntivo Microsoft Power Query per Excel. Questo articolo illustra come configurare e usare Power Query per eseguire una query sui dati associati a un cluster Hadoop gestito con HDInsight.
Prerequisiti
- Un cluster Apache Hadoop in HDInsight. Vedere Guida introduttiva: Introduzione ad Apache Hadoop e Apache Hive in Azure HDInsight usando il modello di Resource Manager.
- Workstation che esegue Windows 10, 7, Windows Server 2008 R2 o un sistema operativo successivo.
- Microsoft 365 apps for enterprise, Office 2016, Office 2013 Professional Plus, Excel 2013 Standalone o Office 2010 Professional Plus.
Installare Microsoft Power Query
Power Query consente di importare dati derivati o generati da un processo Hadoop in esecuzione su un cluster HDInsight.
In Excel 2016, Power Query è stata integrata nella barra multifunzione Dati nella sezione Get & Transform (Recupera e trasforma). Per le versioni meno recenti di Excel, scaricare Microsoft Power Query per Excel dall'Area download Microsoft e installarlo.
Importare dati di HDInsight in Excel
Il componente aggiuntivo Power Query per Excel consente di importare facilmente dati dal cluster HDInsight in Excel dove strumenti BI quali PowerPivot e Power Map possono essere usati per esaminare, analizzare e presentare i dati.
Avviare Excel.
Creare una nuova cartella di lavoro vuota.
Eseguire la procedura seguente in base alla versione di Excel:
Excel 2016
Selezionare Recupera dati>>da Azure>da Azure HDInsight(HDFS).>
Excel 2013/2010
Selezionare Power Query>da Azure>da Microsoft Azure HDInsight.
Nota: se non viene visualizzato il menu Power Query, passare a Componenti aggiuntivi Opzioni>file>e selezionare Componenti aggiuntivi COM dalla casella di riepilogo a discesa Gestisci nella parte inferiore della pagina. Fare clic sul pulsante Vai e verificare che la casella per il componente aggiuntivo Power Query per Excel sia selezionata.
Nota: Power Query consente anche di importare dati da HDFS selezionando Da altre origini.
Nella finestra di dialogo Azure HDInsight(HDFS), nella casella di testo Nome account o URL immettere il nome dell'account di archiviazione BLOB di Azure associato al cluster. Selezionare OK. Questo può essere l'account di archiviazione predefinito o un account di archiviazione collegato. Il formato è
https://StorageAccountName.blob.core.windows.net/
.Per Chiave account immettere la chiave per l'account di archiviazione BLOB e quindi selezionare Connessione. È necessario immettere le informazioni sull'account solo la prima volta che si accede a questo archivio.
Nel riquadro Strumento di navigazione a sinistra del Editor di query fare doppio clic sul nome del contenitore di archiviazione BLOB associato al cluster. Per impostazione predefinita, il nome del contenitore è uguale al nome del cluster.
Individuare HiveSampleData.txt nella colonna Nome (il percorso della cartella è .. /hive/warehouse/hivesampletable/) e quindi selezionare Binario a sinistra di HiveSampleData.txt. HiveSampleData.txt include tutto il cluster. Facoltativamente, è possibile usare un proprio file.
Se necessario, è possibile ridenominare le colonne. Quando si è pronti, selezionare Chiudi e carica. I dati vengono caricati nella cartella di lavoro:
Passaggi successivi
In questo articolo è stato illustrato come usare Power Query per recuperare dati da HDInsight in Excel. È analogamente possibile recuperare dati da HDInsight nel database SQL di Azure. È anche possibile caricare dati in HDInsight. Per ulteriori informazioni, vedere gli articoli seguenti:
- Visualizzare i dati Apache Hive con Microsoft Power BI in Azure HDInsight.
- Visualize Interactive Query Hive data with Power BI in Azure HDInsight (Visualizzare i dati Hive di Interactive Query con Power BI in Azure HDInsight).
- Usare Apache Zeppelin per eseguire query Apache Hive in Azure HDInsight.
- Connettere Excel a HDInsight mediante Microsoft Hive ODBC Driver.
- Connettersi ad Azure HDInsight ed eseguire query Apache Hive usando Strumenti Data Lake per Visual Studio.
- Usare gli strumenti di Azure HDInsight per Visual Studio Code.
- Caricare dati in HDInsight.