Excel verbinden met Apache Hadoop in Azure HDIsight met behulp van het Hive ODBC-stuurprogramma van Microsoft
De Big Data-oplossing van Microsoft integreert Microsoft Business Intelligence-onderdelen (BI) met Apache Hadoop-clusters die zijn geïmplementeerd in HDInsight. Een voorbeeld is de mogelijkheid om Excel te verbinden met het Hive-datawarehouse van een Hadoop-cluster. Maak verbinding met behulp van het ODBC-stuurprogramma (Microsoft Hive Open Database Connectivity).
U kunt de gegevens die zijn gekoppeld aan een HDInsight-cluster vanuit Excel verbinden met de Microsoft Power Query-invoegtoepassing voor Excel. Zie Excel verbinden met HDInsight met Power Query voor meer informatie.
Vereisten
Voordat u met dit artikel begint, moet u over de volgende items beschikken:
- Een HDInsight Hadoop-cluster. Zie Aan de slag met Azure HDInsight om er een te maken.
- Een werkstation met Office 2010 Professional Plus of hoger of Excel 2010 of hoger.
Microsoft Hive ODBC-stuurprogramma installeren
Download en installeer microsoft Hive ODBC-stuurprogramma. Kies de versie die overeenkomt met de versie van de toepassing waarin u het ODBC-stuurprogramma gaat gebruiken. Voor dit artikel wordt het stuurprogramma gebruikt voor Office Excel.
Apache Hive ODBC-gegevensbron maken
In de volgende stappen ziet u hoe u een Hive ODBC-gegevensbron maakt.
Navigeer vanuit Windows naar > ODBC-gegevensbronnen voor Windows-beheerprogramma's > (32-bits)/(64-bits) starten. Met deze actie wordt het venster ODBC-gegevensbronbeheerder geopend.
Selecteer Toevoegen op het tabblad User DSN om het
Create New Data Source
venster te openen.Selecteer Microsoft Hive ODBC-stuurprogramma en selecteer vervolgens Voltooien om het venster DSN-installatie van Microsoft Hive ODBC-stuurprogramma te openen.
Typ of selecteer de volgende waarden:
Eigenschappen Beschrijving Naam van de gegevensbron Geef uw gegevensbron een naam Host(s) Voer HDInsightClusterName.azurehdinsight.net
in. Bijvoorbeeld:myHDICluster.azurehdinsight.net
. Opmerking:HDInsightClusterName-int.azurehdinsight.net
wordt ondersteund zolang de client-VM is gekoppeld aan hetzelfde virtuele netwerk.Poort Gebruik 443. (Deze poort is gewijzigd van 563 in 443.) Database Gebruik standaard. Mechanisme Selecteer Windows Azure HDInsight Service Gebruikersnaam Voer de gebruikersnaam van de HTTP-gebruiker van het HDInsight-cluster in. De standaardgebruikersnaam is admin
.Wachtwoord Voer het gebruikerswachtwoord voor het HDInsight-cluster in. Schakel het selectievakje Wachtwoord opslaan (versleuteld) in. Optioneel: Geavanceerde opties selecteren ...
Parameter Description Systeemeigen query gebruiken Wanneer het ODBC-stuurprogramma is geselecteerd, probeert het NIET TSQL te converteren naar HiveQL. U gebruikt deze alleen als u 100% zeker weet dat u pure HiveQL-instructies verzendt. Wanneer u verbinding maakt met SQL Server of Azure SQL Database, moet u het selectievakje uitgeschakeld laten. Opgehaalde rijen per blok Wanneer u een groot aantal records ophaalt, kan het nodig zijn om deze parameter af te stemmen om optimale prestaties te garanderen. Standaardlengte van een tekenreekskolom, binaire kolomlengte, decimale kolomschaal De lengten en precisie van het gegevenstype kunnen van invloed zijn op hoe gegevens worden geretourneerd. Ze zorgen ervoor dat onjuiste informatie wordt geretourneerd vanwege verlies van precisie en of afkapping. Selecteer Testen om de gegevensbron te testen. Wanneer de gegevensbron correct is geconfigureerd, wordt in het testresultaat GESLAAGD weergegeven .
Selecteer OK om het testvenster te sluiten.
Selecteer OK om het venster DSN-installatie van Microsoft Hive ODBC-stuurprogramma te sluiten.
Selecteer OK om het venster ODBC-gegevensbronbeheerder te sluiten.
Gegevens in Excel importeren vanuit HDInsight
In de volgende stappen wordt beschreven hoe u gegevens uit een Hive-tabel importeert in een Excel-werkmap met behulp van de ODBC-gegevensbron die u in de vorige sectie hebt gemaakt.
Open een nieuwe of bestaande werkmap in Excel.
Ga op het tabblad Gegevens naar Gegevens>ophalen uit andere bronnen>vanuit ODBC om het odbc-venster te starten.
Selecteer in de vervolgkeuzelijst de naam van de gegevensbron die u in de laatste sectie hebt gemaakt en selecteer vervolgens OK.
Voor het eerste gebruik wordt een dialoogvenster van het ODBC-stuurprogramma geopend. Selecteer Windows in het linkermenu. Selecteer Vervolgens Verbinding maken om het navigatorvenster te openen.
Navigeer vanuit Navigator naar hive-standaard>>hivesampletable en selecteer vervolgens Laden. Het duurt even voordat gegevens worden geïmporteerd in Excel.
Volgende stappen
In dit artikel hebt u geleerd hoe u het ODBC-stuurprogramma van Microsoft Hive gebruikt om gegevens op te halen uit de HDInsight-service in Excel. Op dezelfde manier kunt u gegevens ophalen uit de HDInsight-service in SQL Database. Het is ook mogelijk om gegevens te uploaden naar een HDInsight-service. Raadpleeg voor meer informatie:
- Visualiseer Apache Hive-gegevens met Microsoft Power BI in Azure HDInsight.
- Visualiseer Interactive Query Hive-gegevens met Power BI in Azure HDInsight.
- Verbind Excel met Apache Hadoop met behulp van Power Query.
- Maak verbinding met Azure HDInsight en voer Apache Hive-query's uit met behulp van Data Lake Tools voor Visual Studio.