Verbinden von Excel mit Apache Hadoop in Azure HDInsight mithilfe des Microsoft Hive ODBC-Treibers
Die Big Data-Lösung von Microsoft integriert Microsoft Business Intelligence (BI)-Komponenten mit Apache Hadoop-Clustern, die in HDInsight bereitgestellt werden. Ein Beispiel hierfür ist die Möglichkeit, Excel mit dem Hive-Data Warehouse eines Hadoop-Clusters zu verbinden. Stellen Sie die Verbindung unter Verwendung des Microsoft Hive ODBC-Treibers (Open Database Connectivity) her.
Sie können die Daten eines HDInsight-Clusters aus Excel mithilfe des Microsoft Power Query-Add-Ins für Excel verbinden. Weitere Informationen finden Sie unter Verbinden von Excel mit HDInsight mithilfe von Power Query.
Voraussetzungen
Bevor Sie mit diesem Artikel beginnen können, benötigen Sie Folgendes:
- einen HDInsight Hadoop-Cluster. Hinweise zum Erstellen finden Sie unter Erste Schritte mit Azure HDInsight.
- Eine Arbeitsstation mit Office 2010 Professional Plus oder höher oder Excel 2010 oder höher.
Installieren des Microsoft Hive ODBC-Treibers
Laden Sie den Microsoft Hive ODBC-Treiber herunter, und installieren Sie ihn. Wählen Sie die Version aus, die der Version der Anwendung entspricht, in der Sie den ODBC-Treiber verwenden. In diesem Artikel wird der Treiber für Office Excel verwendet.
Erstellen einer Apache Hive ODBC-Datenquelle
Die folgenden Schritte zeigen Ihnen, wie Sie eine Hive-ODBC-Datenquelle erstellen können.
Navigieren Sie unter Windows zu Start > Windows-Verwaltungstools > ODBC-Datenquellen (32-Bit)/(64-Bit). Durch diesen Vorgang wird das Dialogfeld ODBC-Datenquellen-Administrator geöffnet.
Wählen Sie auf der Registerkarte Benutzer-DSN Hinzufügen aus, um das Fenster
Create New Data Source
zu öffnen.Wählen Sie Microsoft Hive ODBC-Treiber und dann Fertig stellen aus, um das Fenster DSN-Setup für Microsoft Hive ODBC-Treiber zu öffnen.
Geben Sie folgende Werte ein bzw. wählen diese aus:
Eigenschaft BESCHREIBUNG Datenquellenname Geben Sie einen Namen für die Datenquelle an. Host(s) Geben Sie HDInsightClusterName.azurehdinsight.net
ein. Beispiel:myHDICluster.azurehdinsight.net
. Hinweis:HDInsightClusterName-int.azurehdinsight.net
wird unterstützt, solange ein Peering der Client-VM mit dem gleichen virtuellen Netzwerk besteht.Port Verwenden Sie 443. (Dieser Port wurde von 563 in 443 geändert.) Datenbank Verwenden Sie default. Mechanismus Wählen Sie Microsoft Azure HDInsight Service. Benutzername Geben Sie Ihren HTTP-Benutzernamen für den HDInsight-Cluster an. Der Standardbenutzername lautet admin
.Kennwort Geben Sie Ihr Benutzerkennwort für den HDInsight-Cluster an. Aktivieren Sie das Kontrollkästchen Kennwort speichern (verschlüsselt) . Optional: Wählen Sie Erweiterte Optionen aus.
Parameter BESCHREIBUNG Use Native Query Wenn diese Option ausgewählt ist, versucht der ODBC-Treiber NICHT, TSQL in HiveQL zu konvertieren. Verwenden Sie diese Option nur, wenn Sie sich absolut sicher sind, dass Sie reine HiveQL-Anweisungen absenden. Wenn Sie eine Verbindung mit SQL Server oder Azure SQL-Datenbank herstellen, sollten Sie die Option nicht aktivieren. Rows fetched per block Wenn Sie viele Datensätze abrufen, ist es möglicherweise erforderlich, diesen Parameter zu optimieren, um optimale Leistung zu garantieren. Default string column length, Binary column length, Decimal column scale Längen und Genauigkeiten der Datentypen können beeinflussen, wie die Daten zurückgegeben werden. Aufgrund einer zu geringen Genauigkeit und/oder von Abschneidevorgängen werden falsche Informationen zurückgegeben. Wählen Sie Testen aus, um die Datenquelle zu testen. Wenn die Datenquelle richtig konfiguriert wurde, wird als Testergebnis SUCCESS! angezeigt.
Wählen Sie OK aus, um das Testfenster zu schließen.
Wählen Sie OK aus, um das Fenster DSN-Setup für Microsoft Hive ODBC-Treiber zu schließen.
Wählen Sie OK aus, um das Fenster ODBC-Datenquellen-Administrator zu schließen.
Importieren von Daten aus HDInsight in Excel
In den folgenden Schritten wird beschrieben, wie Sie mithilfe der ODBC-Datenquelle, die Sie im vorangegangenen Abschnitt erstellt haben, Daten aus einer Hive-Tabelle in eine Excel-Arbeitsmappe importieren.
Öffnen Sie eine neue oder bereits vorhandene Arbeitsmappe in Excel.
Navigieren Sie auf der Registerkarte Daten zu Daten abrufen>Aus anderen Quellen>Aus ODBC, um das Fenster Aus ODBC zu öffnen.
Wählen Sie in der Dropdownliste den im letzten Abschnitt erstellten Datenquellennamen aus, und wählen Sie anschließend OK.
Bei der ersten Verwendung wird das Dialogfeld ODBC-Treiber geöffnet. Wählen Sie im Menü auf der linken Seite die Option Windows. Wählen Sie anschließend Verbinden, um das Fenster Navigator zu öffnen.
Navigieren Sie von Navigator zu HIVE>Standard>hivesampletable, und wählen Sie dann Laden aus. Es dauert einige Augenblicke, bis die Daten in Excel importiert werden.
Nächste Schritte
In diesem Artikel haben Sie erfahren, wie Sie den Microsoft Hive ODBC-Treiber verwenden, um Daten aus dem HDInsight-Dienst nach Excel zu übertragen. Ebenso können Sie Daten aus dem HDInsight-Dienst in eine SQL-Datenbank übertragen. Es ist außerdem möglich, Daten in einen HDInsight-Dienst hochzuladen. Weitere Informationen finden Sie unter:
- Visualisieren von Apache Hive-Daten mit Microsoft Power BI in Azure HDInsight
- Visualisieren von Interactive Query-Hive-Daten mit Power BI in Azure HDInsight
- Verbinden von Excel mit Apache Hadoop mithilfe von Power Query
- Verbinden mit Azure HDInsight und Ausführen von Apache Hive-Abfragen mithilfe von Data Lake-Tools für Visual Studio