Quickstart: Een Apache Hadoop-cluster maken in Azure HDInsight met behulp van Azure Portal

In dit artikel leert u hoe u Apache Hadoop-clusters maakt in HDInsight met behulp van de Azure-portal en vervolgens Apache Hive-taken uitvoert in HDInsight. De meeste Hadoop-taken zijn batchtaken. U maakt een cluster, voert enkele taken uit en verwijdert het cluster vervolgens. In dit artikel gaat u al deze drie taken uitvoeren. Zie Clusters instellen in HDInsight voor uitgebreide uitleg over de beschikbare configuraties. Zie Clusters maken in de portal voor meer informatie over het gebruik van de portal om clusters te maken.

In deze snelstartgids gebruikt u Azure Portal voor het maken van een Hadoop-cluster in HDInsight. U kunt ook een cluster maken met behulp van een Azure Resource Manager-sjabloon.

Op dit moment wordt HDInsight geleverd met zeven verschillende clustertypen. Elk clustertype ondersteunt een andere set onderdelen. Alle clustertypen ondersteunen Hive. Zie Wat is er nieuw in de Apache Hadoop-clusterversies geleverd door HDInsight? voor een lijst met ondersteunde onderdelen in HDInsight.

Als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.

Een Apache Hadoop-cluster maken

In deze sectie maakt u een Hadoop-cluster in HDInsight met behulp van Azure Portal.

  1. Meld u aan bij het Azure-portaal.

  2. Selecteer + Een resource maken in het menu aan de bovenkant.

    Create a resource HDInsight cluster.

  3. Selecteer Analytics>Azure HDInsight om naar de pagina HDInsight-cluster maken te gaan.

  4. Geef op het tabblad Basis de volgende gegevens op:

    Eigenschappen Beschrijving
    Abonnement Selecteer in de vervolgkeuzelijst het Azure-abonnement dat wordt gebruikt voor het cluster.
    Resourcegroep Selecteer in de vervolgkeuzelijst de bestaande resourcegroep of selecteer Nieuwe maken.
    Clusternaam Voer een wereldwijd unieke naam in. De naam mag bestaan uit maximaal 59 tekens, inclusief letters, cijfers en afbreekstreepjes. De eerste en laatste tekens van de naam mogen geen streepjes zijn.
    Regio Selecteer in de vervolgkeuzelijst een regio waarin het cluster wordt gemaakt. Kies een locatie zo dicht mogelijk bij u in de buurt voor betere prestaties.
    Clustertype Selecteer Clustertype selecteren. Selecteer vervolgens Hadoop als het clustertype.
    Versie Selecteer een versie in de vervolgkeuzelijst. Gebruik de standaardversie als u niet weet wat u moet kiezen.
    Gebruikersnaam/Wachtwoord voor clusteraanmeldgegevens De standaardaanmeldingsnaam is beheerder. Het wachtwoord moet minstens 10 tekens lang zijn en moet ten minste één cijfer, één hoofdletter en één kleine letter, één niet-alfanumerieke teken (behalve tekens ' ` ") bevatten. Zorg ervoor dat u geen algemene wachtwoorden opgeeft , zoals 'Pass@word1'.
    SSH-gebruikersnaam (Secure Shell) De standaardgebruikersnaam is sshuser. U kunt hier echter een andere naam opgeven als u dat wilt.
    Het wachtwoord voor clusteraanmelding gebruiken voor SSH Schakel dit selectievakje in als u voor de SSH-gebruiker het wachtwoord wilt gebruiken dat u hebt opgegeven voor Wachtwoord voor clusteraanmeldgegevens.

    HDInsight Linux get started provide cluster basic values.

    Selecteer de volgende: Opslag >> om door te gaan naar de opslaginstellingen.

  5. Geef op het tabblad Opslag de volgende waarden op:

    Eigenschappen Beschrijving
    Type van primaire opslag Gebruik de standaardwaarde Azure Storage.
    Selectiemethode Gebruik de standaardwaarde Selecteer in lijst.
    Primair opslagaccount Gebruik de vervolgkeuzelijst om een bestaand opslagaccount te selecteren of selecteer Nieuwe maken. Als u een nieuw account maakt, moet de naam 3 tot 24 tekens lang zijn en mag deze alleen cijfers en kleine letters bevatten
    Container Gebruik de waarde die automatisch is ingevuld.

    HDInsight Linux get started provide cluster storage values.

    Elk cluster heeft een Azure Storage-account, een Azure Data Lake Gen1 of een Azure Data Lake Storage Gen2 afhankelijkheid. Dit wordt het standaardopslagaccount genoemd. Het HDInsight-cluster en het standaardopslagaccount moeten samen in dezelfde Azure-regio worden geplaatst. Het opslagaccount wordt niet verwijderd wanneer er clusters worden verwijderd.

    Selecteer het tabblad Beoordelen en maken.

  6. Controleer op het tabblad Beoordelen en maken de waarden die u in de eerdere stappen hebt geselecteerd.

    Screenshot showing HDInsight Linux get started cluster summary.

  7. Selecteer Maken. Het duurt ongeveer 20 minuten om een cluster te maken.

    Zodra het cluster is gemaakt, ziet u de overzichtspagina van het cluster in Azure Portal.

    Screenshot showing HDInsight Linux get started cluster settings.

Apache Hive-query's uitvoeren

Apache Hive is het meest populaire onderdeel dat in HDInsight wordt gebruikt. Er zijn veel manieren om Hive-taken uit te voeren in HDInsight. In deze quickstart gebruikt u de Ambari Hive-weergave in de portal. Voor andere methoden voor het indienen van Hive-taken raadpleegt u Hive gebruiken in HDInsight.

Notitie

Apache Hive-weergave is niet beschikbaar in HDInsight 4.0.

  1. Als u Ambari wilt openen, selecteert u Clusterdashboard in de vorige schermafbeelding. U kunt ook bladeren naar https://ClusterName.azurehdinsight.net de locatie waar ClusterName het cluster is dat u in de vorige sectie hebt gemaakt.

    Screenshot showing HDInsight Linux get started cluster dashboard.

  2. Voer de gebruikersnaam en het wachtwoord voor Hadoop in die u hebt opgegeven tijdens het maken van het cluster. De standaardgebruikersnaam is admin.

  3. Open Hive-weergave zoals weergegeven in de volgende schermafbeelding:

    Selecting Hive View from Ambari.

  4. Plak in het tabblad QUERY de volgende HiveQL-instructies in het werkblad:

    SHOW TABLES;
    

    HDInsight Hive View Query Editor.

  5. Selecteer Uitvoeren. Er wordt een tabblad RESULTATEN weergegeven onder het tabblad QUERY met informatie over de taak.

    Nadat de query is voltooid, worden de resultaten van de bewerking weergegeven op het tabblad QUERY. U ziet één tabel met de naam hivesampletable. Deze Hive-voorbeeldtabel is bij alle HDInsight-clusters inbegrepen.

    HDInsight Apache Hive view results.

  6. Herhaal stap 4 en 5 om de volgende query uit te voeren:

    SELECT * FROM hivesampletable;
    
  7. U kunt de resultaten van de query ook opslaan. Selecteer de menuknop aan de rechterkant en geef aan of u de resultaten wilt downloaden als een CSV-bestand of deze wilt opslaan in het opslagaccount dat aan het cluster is gekoppeld.

    Save result of Apache Hive query.

Nadat u een Hive-taak hebt voltooid, kunt u de resultaten exporteren naar een Azure SQL Database- of SQL Server-database. U kunt ook de resultaten weergeven in Excel. Zie Apache Hive en HiveQL gebruiken met Apache Hadoop in HDInsight voor het analyseren van een voorbeeldbestand van de Apache-log4j voor meer informatie over het gebruik van Hive in HDInsight.

Resources opschonen

Nadat u de quickstart hebt voltooid, kunt u het cluster verwijderen. Met HDInsight worden uw gegevens opgeslagen in Azure Storage zodat u een cluster veilig kunt verwijderen wanneer deze niet wordt gebruikt. Voor een HDInsight-cluster worden ook kosten in rekening gebracht, zelfs wanneer het niet wordt gebruikt. Aangezien de kosten voor het cluster vaak zoveel hoger zijn dan de kosten voor opslag, is het financieel gezien logischer clusters te verwijderen wanneer ze niet worden gebruikt.

Notitie

Als u meteen verder wilt gaan met het volgende artikel om te leren hoe u ETL-bewerkingen uitvoert met behulp van Hadoop in HDInsight, kunt u het cluster beter behouden. In die zelfstudie hebt u namelijk ook een Hadoop-cluster nodig. Als u echter niet direct verdergaat met het volgende artikel, moet u het cluster nu verwijderen.

Het cluster en/of het standaardopslagaccount verwijderen

  1. Ga terug naar het browsertabblad voor Azure Portal. U komt terecht op de overzichtspagina voor het cluster. Selecteer Verwijderen als u alleen het cluster wilt verwijderen maar het standaardopslagaccount wilt behouden.

    Azure HDInsight delete cluster.

  2. Als u het cluster en het standaardopslagaccount wilt verwijderen, selecteert u de naam van de resourcegroep (gemarkeerd in de vorige schermafbeelding) om de pagina van de resourcegroep te openen.

  3. Selecteer Resourcegroep verwijderen om de resourcegroep te verwijderen. De groep bevat zowel het cluster als het standaardopslagaccount. Als u de resourcegroep verwijdert, wordt ook het opslagaccount verwijderd. Als u het opslagaccount wilt behouden, verwijdert u alleen het cluster.

Volgende stappen

In deze quickstart hebt u geleerd hoe u een HDInsight-cluster op basis van Linux maakt met behulp van een Resource Manager-sjabloon, en hoe u eenvoudige Hive-query's uitvoert. In het volgende artikel leert u hoe u een ETL-bewerking (Extraction, Transformation, Loading) uitvoert met behulp van Hadoop in HDInsight.