Skapa ett HDInsight-kluster

Slutförd

Det finns olika metoder för att skapa ett HDInsight-kluster, det kan vara allt från att använda Azure-portalen för ett enkelt användargränssnitt till skriptkonfigurationer som kan hjälpa till med automatiserade distributioner. I följande tabell visas de olika metoder som du kan använda för att konfigurera ett HDInsight-kluster.

Kluster som skapats med Webbläsare Kommandorad REST API SDK
Azure Portal
Azure Data Factory
Azure CLI
Azure PowerShell
cURL
.NET SDK
Azure Resource Manager-mall

Alla HDInsight-installationer kräver följande grundläggande information, inklusive:

Fliken Grundläggande

Projektinformation

Abonnemang

Definierar den Azure-prenumeration under vilken HDInsight ska faktureras och hanteras.

Namn på resursgrupp

En resursgrupp är en logisk gruppering av Azure-tekniker och -tjänster som vanligtvis är relaterade till samma program eller programlivscykel. Att gruppera tjänster i samma resursgrupp underlättar det administrativa underhållet.

A screenshot of the basic tab in the Create HDInsight Cluster screen in the Azure portal

Klusterinformation

Klusternamn

HDInsight-klusternamn har följande begränsningar:

  • Tillåtna tecken: a-z, 0-9, A-Z
  • Max längd: 59
  • Reserverade namn: appar
  • Omfånget för klusternamngivning gäller för alla Azure-prenumerationer. Klusternamnet måste därför vara unikt över hela världen.
  • De första sex tecknen måste vara unika i ett virtuellt nätverk

Plats

Anger platsen där klustertypen lagras. Om ingen plats har definierats är klustret indelade på samma plats som standardlagringen. Platsen ska vara så nära dina användare som möjligt för att minska svarstiden.

Klustertyper

Definierar den teknikstack som etablerats i klustret med resurser. Välj en klustertyp baserat på vilken typ av data du har och vilken typ av bearbetning ditt scenario kräver. Tillgängliga klustertyper som visas i följande tabell.  

Klustertyp Beskrivning
Apache Hadoop Ett ramverk som använder HDFS och en enkel MapReduce-programmeringsmodell för att bearbeta och analysera batchdata. 
Apache Spark Ett ramverk för parallellbearbetning med öppen källkod som stöder intern bearbetning för att höja prestandan hos program för stordataanalys.
HBase En NoSQL-databas som bygger på Hadoop och ger slumpmässig åtkomst och stark konsekvens för stora mängder ostrukturerade och delstrukturerade data – potentiellt miljarder rader gånger miljoner kolumner. 
Apache Interaktiv fråga Minnesintern cachelagring för interaktiva och snabba Hive-frågor. 
Apache Kafka En öppen källkodsplattform som används för att skapa strömmande datapipelines och program. Kafka tillhandahåller även en meddelandeköfunktion med vilken du kan publicera och prenumerera på dataströmmar.

Version:

Definierar versionen av HDInsight för det här klustret. HDInsight 4.0 är den senaste versionen och har de senaste ramverken etablerade till kluster.

Klusterautentiseringsuppgifter

Med HDInsight-kluster kan du konfigurera två användarkonton när klustret skapas.

Klusterinloggning och lösenord

Standardanvändarnamnet är admin. Den använder den grundläggande konfigurationen på Azure-portalen. Ibland kallas det "Klusteranvändare".

SSH-användarnamn och lösenord

Används för att ansluta till klustret via SSH.

Kommentar

Med Enterprise-säkerhetspaketet kan du integrera HDInsight med Active Directory och Apache Ranger. Flera användare kan skapas med hjälp av Enterprise-säkerhetspaketet.

Fliken Lagring

HDInsight-kluster kan använda följande lagringsalternativ som visas på lagringsskärmen:

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1
  • Azure Storage Generell användning v2
  • Azure Storage Generell användning v1
  • Blockblob för Azure Storage (stöds endast som sekundär lagring)

På lagringsskärmen kan du definiera det primära lagringskontot och standardcontainern. Du kan också länka ytterligare Azure Storage till klustret. Med metaarkivinställningarna kan du definiera en extern SQL-databas för att lagra Hive-tabeller när ett kluster har tagits bort och för att förbättra Oozies prestanda genom att lagra metadata i ett externt arkiv.

A screenshot of the storage tab in the Create HDInsight Cluster screen in the Azure portal

Säkerhet och nätverk

För klustertyperna Hadoop, Spark, HBase, Kafka och Interaktiv fråga kan du välja att aktivera Enterprise Security Package. Det här paketet ger möjlighet att ha en säkrare klusterkonfiguration med hjälp av Apache Ranger och integrering med Microsoft Entra-ID.

A screenshot of the Security and Networking tab in the Create HDInsight Cluster screen in the Azure portal

Dessutom rekommenderar vi alltid att du distribuerar HDInsight-kluster i ett virtuellt nätverk och du kan definiera och ange det virtuella nätverket på den här skärmen. Om din lösning kräver tekniker som är spridda över flera HDInsight-klustertyper kan ett virtuellt Azure-nätverk ansluta de klustertyper som krävs. Med den här konfigurationen kan klustren och all kod som du distribuerar till dem kommunicera direkt med varandra.

Konfiguration och prissättning

På den här sidan kan du konfigurera klustrets storlek och prestanda och visa uppskattad kostnadsinformation. På den här skärmen kan du definiera de virtuella datorer som ska användas för huvudnoderna (huvudnoderna) och även för arbetsnoderna.

A screenshot of the Configuration and Pricing tab in the Create HDInsight Cluster screen in the Azure portal