Clusters in HDInsight instellen met Apache Hadoop, Apache Spark, Apache Kafka en meer

Meer informatie over het instellen en configureren van Apache Hadoop, Apache Spark, Apache Kafka, Interactive Query of Apache HBase of in HDInsight. Leer ook hoe u clusters aanpast en beveiliging toevoegt door ze aan een domein toe te voegen.

Een Hadoop-cluster bestaat uit verschillende virtuele machines (knooppunten) die worden gebruikt voor gedistribueerde verwerking van taken. Azure HDInsight verwerkt implementatiedetails van de installatie en configuratie van afzonderlijke knooppunten, dus u hoeft alleen algemene configuratiegegevens op te geven.

Belangrijk

De facturering voor het gebruik van HDInsight-clusters begint zodra er een cluster is gemaakt en stopt als een cluster wordt verwijderd. De facturering wordt pro-rato per minuut berekend, dus u moet altijd uw cluster verwijderen wanneer het niet meer wordt gebruikt. Meer informatie over het verwijderen van een cluster.

Als u meerdere clusters tegelijk gebruikt, wilt u een virtueel netwerk maken. Als u een Spark-cluster gebruikt, wilt u ook de Hive Warehouse Connector gebruiken. Zie Plan a virtual network voor Azure HDInsight en Integrate Apache Spark and Apache Hive with the Hive Warehouse Connector voor meer informatie.

Methoden voor het instellen van clusters

In de volgende tabel ziet u de verschillende methoden die u kunt gebruiken om een HDInsight-cluster in te stellen.

Clusters gemaakt met Webbrowser Opdrachtregel REST-API SDK
Azure-portal      
Azure Data Factory
Azure-CLI      
Azure PowerShell      
cURL    
Azure Resource Manager-sjablonen      

Dit artikel begeleidt u bij het instellen in Azure Portal, waar u een HDInsight-cluster kunt maken.

Basisprincipes

hdinsight create options custom quick

Projectdetails

Azure Resource Manager helpt u bij het werken met de resources in uw toepassing als een groep, aangeduid als een Azure-resourcegroep. U kunt alle resources voor uw toepassing implementeren, bijwerken, bewaken of verwijderen in één gecoördineerde bewerking.

Clusterdetails

Clusternaam

HdInsight-clusternamen hebben de volgende beperkingen:

  • Toegestane tekens: a-z, 0-9, A-Z
  • Maximale lengte: 59
  • Gereserveerde namen: apps
  • Het clusternaambereik is voor alle Azure-abonnementen. De clusternaam moet dus wereldwijd uniek zijn.
  • De eerste zes tekens moeten uniek zijn binnen een virtueel netwerk

Regio

U hoeft de clusterlocatie niet expliciet op te geven: het cluster bevindt zich op dezelfde locatie als de standaardopslag. Voor een lijst met ondersteunde regio's selecteert u de vervolgkeuzelijst Regio in HDInsight-prijzen.

Clustertype

Azure HDInsight biedt momenteel de volgende clustertypen, elk met een set onderdelen om bepaalde functionaliteiten te bieden.

Belangrijk

HDInsight-clusters zijn beschikbaar in verschillende typen, elk voor één workload of technologie. Er is geen ondersteunde methode om een cluster te maken dat meerdere typen combineert, zoals HBase op één cluster. Als uw oplossing technologieën vereist die zijn verdeeld over meerdere HDInsight-clustertypen, kan een virtueel Azure-netwerk de vereiste clustertypen verbinden.

Clustertype Functionaliteit
Hadoop Batchquery en analyse van opgeslagen gegevens
HBase Verwerking voor grote hoeveelheden schemaloze NoSQL-gegevens
Interactieve query In-memory caching voor interactieve en snellere Hive-query's
Kafka Een gedistribueerd streamingplatform dat kan worden gebruikt voor het bouwen van realtime streaminggegevenspijplijnen en -toepassingen
Spark In-memory verwerking, interactieve query's, verwerking van microbatchstromen

Versie

Kies de versie van HDInsight voor dit cluster. Raadpleeg Ondersteunde HDInsight-versies voor meer informatie.

Clusterreferenties

Met HDInsight-clusters kunt u twee gebruikersaccounts configureren tijdens het maken van het cluster:

  • Gebruikersnaam voor clusteraanmelding: de standaardgebruikersnaam is beheerder. Deze maakt gebruik van de basisconfiguratie in Azure Portal. Soms wordt het clustergebruiker of HTTP-gebruiker genoemd.
  • SSH-gebruikersnaam (Secure Shell): wordt gebruikt om via SSH verbinding te maken met het cluster. Zie SSH gebruiken met HDInsight voor meer informatie.

De HTTP-gebruikersnaam heeft de volgende beperkingen:

  • Toegestane speciale tekens: _ en @
  • Tekens zijn niet toegestaan: #;.",/:'!*?$()[]{}<>|&--=+%~^spatie
  • Maximale lengte: 20

De SSH-gebruikersnaam heeft de volgende beperkingen:

  • Toegestane speciale tekens:_ en @
  • Tekens zijn niet toegestaan: #;.",/:'!*?$()[]{}<>|&--=+%~^spatie
  • Maximale lengte: 64
  • Gereserveerde namen: hadoop, gebruikers, oozie, hive, mapred, ambari-qa, zookeeper, tez, hdfs, sqoop, yarn, hcat, ams, hbase, administrator, admin, user, user1, test, user2, test1, user3, admin1, 1, 123, a, actuser, adm, admin2, aspnet, backup, console, david, guest, john, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark

Storage

Cluster storage settings: HDFS-compatible endpoints

Hoewel voor een on-premises installatie van Hadoop hdfs (Hadoop Distributed File System) wordt gebruikt voor opslag op het cluster, gebruikt u in de cloud opslageindpunten die zijn verbonden met het cluster. Als u cloudopslag gebruikt, kunt u de HDInsight-clusters die worden gebruikt voor berekeningen veilig verwijderen terwijl u uw gegevens nog steeds behoudt.

HDInsight-clusters kunnen gebruikmaken van de volgende opslagopties:

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1
  • Azure Storage Algemeen gebruik v2
  • Azure Storage Algemeen gebruik v1
  • Blok-blob van Azure Storage (alleen ondersteund als secundaire opslag)

Zie Opslagopties vergelijken voor gebruik met Azure HDInsight-clusters voor meer informatie over opslagopties met HDInsight.

Waarschuwing

Het gebruik van een extra opslagaccount op een andere locatie dan het HDInsight-cluster wordt niet ondersteund.

Tijdens de configuratie geeft u voor het standaardopslageindpunt een blobcontainer op van een Azure Storage-account of Data Lake Storage. De standaardopslag bevat toepassings- en systeemlogboeken. U kunt eventueel extra gekoppelde Azure Storage-accounts en Data Lake Storage-accounts opgeven waartoe het cluster toegang heeft. Het HDInsight-cluster en de afhankelijke opslagaccounts moeten zich op dezelfde Azure-locatie bevinden.

Notitie

Met de functie waarvoor beveiligde overdracht is vereist, worden alle aanvragen voor uw account afgedwongen via een beveiligde verbinding. Alleen HDInsight-clusterversie 3.6 of hoger ondersteunt deze functie. Zie Apache Hadoop-cluster maken met opslagaccounts voor veilige overdracht in Azure HDInsight voor meer informatie.

Belangrijk

Het inschakelen van beveiligde opslagoverdracht nadat u een cluster hebt gemaakt, kan leiden tot fouten met uw opslagaccount en wordt niet aanbevolen. Het is beter om een nieuw cluster te maken met behulp van een opslagaccount waarvoor beveiligde overdracht al is ingeschakeld.

Notitie

Azure HDInsight draagt uw gegevens die zijn opgeslagen in Azure Storage, niet automatisch over van de ene regio naar de andere.

Metastore-instellingen

U kunt optionele Hive- of Apache Oozie-metastores maken. Niet alle clustertypen ondersteunen echter metastores en Azure Synapse Analytics is niet compatibel met metastores.

Zie Externe metagegevensarchieven gebruiken in Azure HDInsight voor meer informatie.

Belangrijk

Wanneer u een aangepaste metastore maakt, gebruikt u geen streepjes, afbreekstreepjes of spaties in de databasenaam. Dit kan ertoe leiden dat het proces voor het maken van het cluster mislukt.

SQL-database voor Hive

Als u uw Hive-tabellen wilt behouden nadat u een HDInsight-cluster hebt verwijderd, gebruikt u een aangepaste metastore. Vervolgens kunt u de metastore koppelen aan een ander HDInsight-cluster.

Een HDInsight-metastore die is gemaakt voor één HDInsight-clusterversie, kan niet worden gedeeld in verschillende HDInsight-clusterversies. Zie Ondersteunde HDInsight-versies voor een lijst met HDInsight-versies.

Belangrijk

De standaard-metastore biedt een Azure SQL Database met een basic DTU-limiet van laag 5 (niet upgradebaar)! Geschikt voor eenvoudige testdoeleinden. Voor grote of productieworkloads raden we u aan om te migreren naar een externe metastore.

SQL-database voor Oozie

Gebruik een aangepaste metastore om de prestaties te verbeteren bij het gebruik van Oozie. Een metastore kan ook toegang bieden tot Oozie-taakgegevens nadat u uw cluster hebt verwijderd.

SQL-database voor Ambari

Ambari wordt gebruikt om HDInsight-clusters te controleren, configuratiewijzigingen aan te brengen en clusterbeheerinformatie en taakgeschiedenis op te slaan. Met de aangepaste Ambari DB-functie kunt u een nieuw cluster implementeren en Ambari instellen in een externe database die u beheert. Zie Custom Ambari DB voor meer informatie.

Belangrijk

U kunt een aangepaste Oozie-metastore niet opnieuw gebruiken. Als u een aangepaste Oozie-metastore wilt gebruiken, moet u een lege Azure SQL Database opgeven bij het maken van het HDInsight-cluster.

Beveiliging en netwerk

hdinsight create options choose enterprise security package

Enterprise Security Package

Voor hadoop-, Spark-, HBase-, Kafka- en Interactive Query-clustertypen kunt u ervoor kiezen om het Enterprise Security Package in te schakelen. Dit pakket biedt de mogelijkheid om een veiligere clusterinstallatie te hebben met behulp van Apache Ranger en integratie met Microsoft Entra ID. Zie Overzicht van bedrijfsbeveiliging in Azure HDInsight voor meer informatie.

Met het Enterprise-beveiligingspakket kunt u HDInsight integreren met Active Directory en Apache Ranger. Er kunnen meerdere gebruikers worden gemaakt met behulp van het Enterprise-beveiligingspakket.

Zie Sandbox-omgeving maken die lid is van een domein voor meer informatie over het maken van een HDInsight-cluster dat lid is van een domein.

TLS

Zie Transport Layer Security voor meer informatie

Virtueel netwerk

Als uw oplossing technologieën vereist die zijn verdeeld over meerdere HDInsight-clustertypen, kan een virtueel Azure-netwerk de vereiste clustertypen verbinden. Met deze configuratie kunnen de clusters en alle code die u erop implementeert, rechtstreeks met elkaar communiceren.

Zie Een virtueel netwerk plannen voor HDInsight voor meer informatie over het gebruik van een virtueel Azure-netwerk met HDInsight.

Zie Apache Spark Structured Streaming gebruiken met Apache Kafka voor een voorbeeld van het gebruik van twee clustertypen in een virtueel Azure-netwerk. Zie Een virtueel netwerk plannen voor HDInsight voor HDInsight voor meer informatie over het gebruik van HDInsight met een virtueel netwerk, inclusief specifieke configuratievereisten voor het virtuele netwerk.

Instelling voor schijfversleuteling

Zie Schijfversleuteling die door de klant wordt beheerd voor meer informatie.

Kafka REST-proxy

Deze instelling is alleen beschikbaar voor het clustertype Kafka. Zie Een REST-proxy gebruiken voor meer informatie.

Identiteit

Zie Beheerde identiteiten in Azure HDInsight voor meer informatie.

Configuratie en prijzen

HDInsight choose your node size

U wordt gefactureerd voor het gebruik van knooppunten zolang het cluster bestaat. Facturering wordt gestart wanneer een cluster wordt gemaakt en stopt wanneer het cluster wordt verwijderd. Clusters kunnen niet ongedaan worden gemaakt of in bewaring worden geplaatst.

Knooppuntconfiguratie

Elk clustertype heeft een eigen aantal knooppunten, terminologie voor knooppunten en standaard-VM-grootte. In de volgende tabel staat het aantal knooppunten voor elk knooppunttype tussen haakjes.

Type Knooppunten Diagram
Hadoop Hoofdknooppunt (2), Werkknooppunt (1+) HDInsight Hadoop cluster nodes
HBase Hoofdserver (2), regioserver (1+), master/ZooKeeper-knooppunt (3) HDInsight HBase cluster type setup
Spark Hoofdknooppunt (2), Werkknooppunt (1+), ZooKeeper-knooppunt (3) (gratis voor de grootte van de ZooKeeper-VM) HDInsight spark cluster type setup

Zie Voor meer informatie de standaardknooppuntconfiguratie en de grootte van virtuele machines voor clusters in 'Wat zijn de Hadoop-onderdelen en -versies in HDInsight?'

De kosten van HDInsight-clusters worden bepaald door het aantal knooppunten en de grootte van de virtuele machines voor de knooppunten.

Verschillende clustertypen hebben verschillende knooppunttypen, aantallen knooppunten en knooppuntgrootten:

  • Standaard van hadoop-clustertype:
    • Twee hoofdknooppunten

    • Vier werkknooppunten

Als u ALLEEN HDInsight probeert, raden we u aan één Worker-knooppunt te gebruiken. Zie hdInsight-prijzen voor meer informatie over prijzen voor HDInsight.

Notitie

De limiet voor de clustergrootte verschilt per Azure-abonnement. Neem contact op met de ondersteuning van Azure-facturering om de limiet te verhogen.

Wanneer u Azure Portal gebruikt om het cluster te configureren, is de knooppuntgrootte beschikbaar via het tabblad Configuratie en prijzen . In de portal kunt u ook de kosten zien die zijn gekoppeld aan de verschillende knooppuntgrootten.

Grootten van virtuele machines

Wanneer u clusters implementeert, kiest u rekenresources op basis van de oplossing die u wilt implementeren. De volgende VM's worden gebruikt voor HDInsight-clusters:

Als u wilt achterhalen welke waarde u moet gebruiken om een VM-grootte op te geven tijdens het maken van een cluster met behulp van de verschillende SDK's of terwijl u Azure PowerShell gebruikt, raadpleegt u VM-grootten die moeten worden gebruikt voor HDInsight-clusters. Gebruik in dit gekoppelde artikel de waarde in de kolom Grootte van de tabellen.

Belangrijk

Als u meer dan 32 Werkknooppunten in een cluster nodig hebt, moet u een hoofdknooppuntgrootte met ten minste 8 kernen en 14 GB RAM-geheugen selecteren.

Zie Grootten voor virtuele machines voor meer informatie. Zie HDInsight-prijzen voor meer informatie over prijzen van de verschillende grootten.

Schijfbijlage

Notitie

De toegevoegde schijven zijn alleen geconfigureerd voor lokale mappen van knooppuntbeheer en niet voor datanodemappen

HDInsight-cluster wordt geleverd met vooraf gedefinieerde schijfruimte op basis van SKU. Het uitvoeren van een aantal grote toepassingen kan leiden tot onvoldoende schijfruimte (met volledige schijffout - LinkId=221672#ERROR_NOT_ENOUGH_DISK_SPACE) en taakfouten.

Er kunnen meer schijven aan het cluster worden toegevoegd met behulp van de lokale map van nodeManager van de nieuwe functie. Op het moment dat het Hive- en Spark-cluster is gemaakt, kan het aantal schijven worden geselecteerd en toegevoegd aan de werkknooppunten. De geselecteerde schijf, die elk 1 TB groot is, maakt deel uit van de lokale mappen van NodeManager.

  1. Op het tabblad Configuratie en prijzen
  2. Selecteer de optie Beheerde schijf inschakelen
  3. Voer het aantal schijven in van Standard-schijven
  4. Uw werkrolknooppunt kiezen

U kunt het aantal schijven controleren op het tabblad Controleren en maken , onder Clusterconfiguratie

Toepassing toevoegen

HDInsight-toepassing is een toepassing die gebruikers kunnen installeren op een HDInsight-cluster op basis van Linux. U kunt toepassingen gebruiken die door Microsoft, derden of door u zijn ontwikkeld. Zie Apache Hadoop-toepassingen van derden installeren in Azure HDInsight voor meer informatie.

De meeste HDInsight-toepassingen worden geïnstalleerd op een leeg edge-knooppunt. Een leeg edge-knooppunt is een virtuele Linux-machine waarop dezelfde clienthulpprogramma's zijn geïnstalleerd en geconfigureerd als in het hoofdknooppunt. U kunt het edge-knooppunt gebruiken voor toegang tot het cluster, het testen van uw clienttoepassingen en het hosten van uw clienttoepassingen. Zie Lege edge-knooppunten gebruiken in HDInsight voor meer informatie.

Scriptacties

U kunt extra onderdelen installeren of clusterconfiguratie aanpassen met behulp van scripts tijdens het maken. Dergelijke scripts worden aangeroepen via scriptactie. Dit is een configuratieoptie die kan worden gebruikt vanuit Azure Portal, HDInsight Windows PowerShell-cmdlets of de HDInsight .NET SDK. Zie HDInsight-cluster aanpassen met scriptactie voor meer informatie.

Sommige systeemeigen Java-onderdelen, zoals Apache Mahout en Cascading, kunnen op het cluster worden uitgevoerd als JAR-bestanden (Java Archive). Deze JAR-bestanden kunnen worden gedistribueerd naar Azure Storage en worden verzonden naar HDInsight-clusters met hadoop-mechanismen voor het indienen van taken. Zie Apache Hadoop-taken programmatisch verzenden voor meer informatie.

Notitie

Als u problemen ondervindt met het implementeren van JAR-bestanden in HDInsight-clusters of het aanroepen van JAR-bestanden in HDInsight-clusters, neemt u contact op met Microsoft Ondersteuning.

Trapsgewijs maken wordt niet ondersteund door HDInsight en komt niet in aanmerking voor Microsoft Ondersteuning. Zie Wat is er nieuw in de clusterversies van HDInsight voor lijsten met ondersteunde onderdelen.

Soms wilt u de volgende configuratiebestanden configureren tijdens het maken:

  • clusterIdentity.xml
  • core-site.xml
  • gateway.xml
  • hbase-env.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-env.xml
  • hive-site.xml
  • mapred-site
  • oozie-site.xml
  • oozie-env.xml
  • tez-site.xml
  • webhcat-site.xml
  • yarn-site.xml

Zie HDInsight-clusters aanpassen met Bootstrap voor meer informatie.

Volgende stappen