Verbinden von Excel mit Apache Hadoop in Azure HDInsight mithilfe des Microsoft Hive ODBC-Treibers

Die Big Data-Lösung von Microsoft integriert Microsoft Business Intelligence (BI)-Komponenten mit Apache Hadoop-Clustern, die in HDInsight bereitgestellt werden. Ein Beispiel hierfür ist die Möglichkeit, Excel mit dem Hive-Data Warehouse eines Hadoop-Clusters zu verbinden. Stellen Sie die Verbindung unter Verwendung des Microsoft Hive ODBC-Treibers (Open Database Connectivity) her.

Sie können die Daten eines HDInsight-Clusters aus Excel mithilfe des Microsoft Power Query-Add-Ins für Excel verbinden. Weitere Informationen finden Sie unter Verbinden von Excel mit HDInsight mithilfe von Power Query.

Voraussetzungen

Bevor Sie mit diesem Artikel beginnen können, benötigen Sie Folgendes:

  • einen HDInsight Hadoop-Cluster. Hinweise zum Erstellen finden Sie unter Erste Schritte mit Azure HDInsight.
  • Eine Arbeitsstation mit Office 2010 Professional Plus oder höher oder Excel 2010 oder höher.

Installieren des Microsoft Hive ODBC-Treibers

Laden Sie den Microsoft Hive ODBC-Treiber herunter, und installieren Sie ihn. Wählen Sie die Version aus, die der Version der Anwendung entspricht, in der Sie den ODBC-Treiber verwenden. In diesem Artikel wird der Treiber für Office Excel verwendet.

Erstellen einer Apache Hive ODBC-Datenquelle

Die folgenden Schritte zeigen Ihnen, wie Sie eine Hive-ODBC-Datenquelle erstellen können.

  1. Navigieren Sie unter Windows zu Start > Windows-Verwaltungstools > ODBC-Datenquellen (32-Bit)/(64-Bit). Durch diesen Vorgang wird das Dialogfeld ODBC-Datenquellen-Administrator geöffnet.

    OBDC data source administrator.

  2. Wählen Sie auf der Registerkarte Benutzer-DSN die Option Hinzufügen aus, um das Fenster Neue Datenquelle erstellen zu öffnen.

  3. Wählen Sie Microsoft Hive ODBC-Treiber und dann Fertig stellen aus, um das Fenster DSN-Setup für Microsoft Hive ODBC-Treiber zu öffnen.

  4. Geben Sie folgende Werte ein bzw. wählen diese aus:

    Eigenschaft BESCHREIBUNG
    Datenquellenname Geben Sie einen Namen für die Datenquelle an.
    Host(s) Geben Sie HDInsightClusterName.azurehdinsight.net ein. Beispiel: myHDICluster.azurehdinsight.net. Hinweis: HDInsightClusterName-int.azurehdinsight.net wird unterstützt, solange ein Peering der Client-VM mit dem gleichen virtuellen Netzwerk besteht.
    Port Verwenden Sie 443. (Dieser Port wurde von 563 in 443 geändert.)
    Datenbank Verwenden Sie default.
    Mechanismus Wählen Sie Microsoft Azure HDInsight Service.
    Benutzername Geben Sie Ihren HTTP-Benutzernamen für den HDInsight-Cluster an. Der Standardbenutzername lautet admin.
    Kennwort Geben Sie Ihr Benutzerkennwort für den HDInsight-Cluster an. Aktivieren Sie das Kontrollkästchen Kennwort speichern (verschlüsselt) .
  5. Optional: Wählen Sie Erweiterte Optionen aus.

    Parameter BESCHREIBUNG
    Use Native Query Wenn diese Option ausgewählt ist, versucht der ODBC-Treiber NICHT, TSQL in HiveQL zu konvertieren. Verwenden Sie diese Option nur, wenn Sie sich absolut sicher sind, dass Sie reine HiveQL-Anweisungen absenden. Wenn Sie eine Verbindung mit SQL Server oder Azure SQL-Datenbank herstellen, sollten Sie die Option nicht aktivieren.
    Rows fetched per block Wenn Sie viele Datensätze abrufen, ist es möglicherweise erforderlich, diesen Parameter zu optimieren, um optimale Leistung zu garantieren.
    Default string column length, Binary column length, Decimal column scale Längen und Genauigkeiten der Datentypen können beeinflussen, wie die Daten zurückgegeben werden. Aufgrund einer zu geringen Genauigkeit und/oder von Abschneidevorgängen werden falsche Informationen zurückgegeben.

    Advanced DSN configuration options.

  6. Wählen Sie Testen aus, um die Datenquelle zu testen. Wenn die Datenquelle richtig konfiguriert wurde, wird als Testergebnis SUCCESS! angezeigt.

  7. Wählen Sie OK aus, um das Testfenster zu schließen.

  8. Wählen Sie OK aus, um das Fenster DSN-Setup für Microsoft Hive ODBC-Treiber zu schließen.

  9. Wählen Sie OK aus, um das Fenster ODBC-Datenquellen-Administrator zu schließen.

Importieren von Daten aus HDInsight in Excel

In den folgenden Schritten wird beschrieben, wie Sie mithilfe der ODBC-Datenquelle, die Sie im vorangegangenen Abschnitt erstellt haben, Daten aus einer Hive-Tabelle in eine Excel-Arbeitsmappe importieren.

  1. Öffnen Sie eine neue oder bereits vorhandene Arbeitsmappe in Excel.

  2. Navigieren Sie auf der Registerkarte Daten zu Daten abrufen>Aus anderen Quellen>Aus ODBC, um das Fenster Aus ODBC zu öffnen.

    Open Excel data connection wizard.

  3. Wählen Sie in der Dropdownliste den im letzten Abschnitt erstellten Datenquellennamen aus, und wählen Sie anschließend OK.

  4. Bei der ersten Verwendung wird das Dialogfeld ODBC-Treiber geöffnet. Wählen Sie im Menü auf der linken Seite die Option Windows. Wählen Sie anschließend Verbinden, um das Fenster Navigator zu öffnen.

  5. Navigieren Sie von Navigator zu HIVE>Standard>hivesampletable, und wählen Sie dann Laden aus. Es dauert einige Augenblicke, bis die Daten in Excel importiert werden.

    HDInsight Excel Hive ODBC navigator.

Nächste Schritte

In diesem Artikel haben Sie erfahren, wie Sie den Microsoft Hive ODBC-Treiber verwenden, um Daten aus dem HDInsight-Dienst nach Excel zu übertragen. Ebenso können Sie Daten aus dem HDInsight-Dienst in eine SQL-Datenbank übertragen. Es ist außerdem möglich, Daten in einen HDInsight-Dienst hochzuladen. Weitere Informationen finden Sie unter: