Verbinden von Excel mit Apache Hadoop mithilfe von Power Query
Eine der wichtigsten Features der Big Data-Lösung von Microsoft ist die Integration von Microsoft BI-Komponenten (Business Intelligence) in Apache Hadoop-Cluster in Azure HDInsight. Ein gutes Beispiel ist die Möglichkeit, Excel mithilfe von Microsoft Power Query für Excel-Add-Ins mit dem Azure Storage-Konto zu verbinden, das die dem Hadoop-Cluster zugeordneten Daten enthält. Dieser Artikel beschreibt die Einrichtung und Verwendung von Power Query für die Abfrage von Daten aus einem mit HDInsight verwalteten Hadoop-Cluster.
Voraussetzungen
- Ein Apache Hadoop-Cluster in HDInsight. Weitere Informationen finden Sie unter Erste Schritte mit HDInsight unter Linux.
- Eine Arbeitsstation mit Windows 10, Windows 7, Windows Server 2008 R2 oder einem späteren Betriebssystem
- Microsoft 365 Apps for Enterprise, Office 2016, Office 2013 Professional Plus, Excel 2013 Standalone oder Office 2010 Professional Plus.
Installieren von Microsoft Power Query
Power Query kann Daten importieren, die von einem Hadoop-Auftrag, der in einem HDInsight-Cluster ausgeführt wird, ausgegeben bzw. generiert wurden.
Power Query wurde in Excel 2016 in das Menüband „Daten“ im Abschnitt zum Abrufen und Transformieren integriert. Laden Sie bei älteren Excel-Versionen Microsoft Power Query für Excel aus dem Microsoft Download Center herunter, und installieren Sie es.
Importieren von HDInsight-Daten in Excel
Das Power Query für Excel-Add-In erleichtert den Import von Daten aus Ihrem HDInsight-Cluster in Excel. Business Intelligence-Tools wie z. B. PowerPivot und Power Map dienen zur Inspektion, Analyse und Darstellung der Daten.
Starten Sie Excel.
Erstellen Sie eine neue leere Arbeitsmappe.
Führen Sie je nach Excel-Version die folgenden Schritte aus:
Excel 2016
Wählen Sie >Daten>Daten abrufen>Aus Azure>Aus Azure HDInsight (HDFS) aus.
Excel 2013/2010
Wählen Sie Power Query>Aus Azure>Aus Microsoft Azure HDInsight aus.
Hinweis: Falls das Menü Power Query nicht angezeigt wird, klicken Sie auf Datei>Optionen>Add-Ins, und wählen Sie unten auf der Seite im Dropdownfeld Verwalten die Option COM Add-Ins aus. Klicken Sie auf die Schaltfläche Los... , und vergewissern Sie sich, dass das Optionsfeld des Power Query für Excel-Add-Ins markiert ist.
Hinweis: Mit Power Query können Sie auch Daten aus dem Hadoop Distributed File System (HDFS) importieren. Wählen Sie dazu Aus anderen Quellen aus.
Geben Sie im Dialogfeld Azure HDInsight (HDFS) im Textfeld Kontoname oder URL den Namen des mit dem Cluster verbundenen Azure Blob Storage-Kontos ein. Klicken Sie anschließend auf OK. Bei diesem Konto kann es sich um das Standardspeicherkonto oder ein verknüpftes Speicherkonto handeln. Das Format ist
https://StorageAccountName.blob.core.windows.net/
.Geben Sie unter Kontoschlüssel den Schlüssel für das Blob Storage-Konto ein, und wählen Sie dann Verbinden aus. (Sie müssen die Kontoinformationen nur beim ersten Zugriff auf diesen Speicher eingeben.)
Doppelklicken Sie im Navigationsbereich links neben dem Query-Editor auf den Namen des mit dem Cluster verbundenen Blob Storage-Containers. Der Containername ist standardmäßig derselbe Name wie der Clustername.
Suchen Sie HiveSampleData.txt in der Spalte Name (der Ordnerpfad lautet ../hive/warehouse/hivesampletable/ ), und wählen Sie Binär links neben „HiveSampleData.txt“ aus. „HiveSampleData.txt“ enthält alle Cluster. Sie können optional auch Ihre eigene Datei verwenden.
Bei Bedarf können Sie die Spaltennamen ändern. Wählen Sie Schließen & laden aus, wenn Sie fertig sind. Die Daten wurden in Ihre Arbeitsmappe geladen.
Nächste Schritte
In diesem Artikel haben Sie gelernt, wie Sie Daten aus HDInsight mithilfe von Power Query in Excel verwenden können. Auf ähnliche Weise können Sie Daten aus HDInsight für die Azure SQL-Datenbank abrufen. Außerdem können Sie Daten in HDInsight hochladen. Weitere Informationen erhalten Sie in den folgenden Artikeln:
- Visualisieren von Apache Hive-Daten mit Microsoft Power BI in Azure HDInsight
- Visualisieren von Interactive Query-Hive-Daten mit Power BI in Azure HDInsight
- Verwenden von Apache Zeppelin zum Ausführen von Apache Hive-Abfragen in Azure HDInsight.
- Verbinden von Excel mit Hadoop in Azure HDInsight mithilfe des Microsoft Hive ODBC-Treibers.
- Verbinden mit Azure HDInsight und Ausführen von Apache Hive-Abfragen mithilfe von Data Lake-Tools für Visual Studio
- Verwenden von Azure HDInsight-Tools für Visual Studio Code
- Upload data to HDInsight (Hochladen von Daten in HDInsight).