Den här artikeln innehåller svar på några av de vanligaste frågorna om hur du kör Azure HDInsight.
Skapa eller ta bort HDInsight-kluster
Hur gör jag för att etablera ett HDInsight-kluster?
Information om hur du granskar typerna av HDInsight-kluster och etableringsmetoderna finns i Konfigurera kluster i HDInsight med Apache Hadoop, Apache Spark, Apache Kafka med mera.
Hur gör jag för att ta bort ett befintligt HDInsight-kluster?
Mer information om hur du tar bort ett kluster när det inte längre används finns i Ta bort ett HDInsight-kluster.
Försök att lämna minst 30 till 60 minuter mellan skapande- och borttagningsåtgärder. Annars kan åtgärden misslyckas med följande felmeddelande:
Conflict (HTTP Status Code: 409) error when attempting to delete a cluster immediately after creation of a cluster. If you encounter this error, wait until the newly created cluster is in operational state before attempting to delete it.
Hur gör jag för att välja rätt antal kärnor eller noder för min arbetsbelastning?
Det lämpliga antalet kärnor och andra konfigurationsalternativ beror på olika faktorer.
Mer information finns i Kapacitetsplanering för HDInsight-kluster.
Vilka är de olika typerna av noder i ett HDInsight-kluster?
Vilka är metodtipsen för att skapa stora HDInsight-kluster?
- Rekommenderar att du konfigurerar HDInsight-kluster med en anpassad Ambari DB för att förbättra klustrets skalbarhet.
- Använd Azure Data Lake Storage Gen2 för att skapa HDInsight-kluster för att dra nytta av högre bandbredd och andra prestandaegenskaper för Azure Data Lake Storage Gen2.
- Huvudnoderna bör vara tillräckligt stora för att rymma flera huvudtjänster som körs på dessa noder.
- Vissa specifika arbetsbelastningar som Interaktiv fråga behöver också större Zookeeper-noder. Överväg minst åtta virtuella kärndatorer.
- När det gäller Hive och Spark använder du externt Hive-metaarkiv.
Enskilda komponenter
Kan jag installera fler komponenter i mitt kluster?
Ja. Om du vill installera fler komponenter eller anpassa klusterkonfigurationen använder du:
Skript under eller efter skapandet. Skript anropas via skriptåtgärd. Skriptåtgärd är ett konfigurationsalternativ som du kan använda från Azure Portal, HDInsight Windows PowerShell-cmdletar eller HDInsight .NET SDK. Det här konfigurationsalternativet kan användas från Azure Portal, HDInsight Windows PowerShell-cmdletar eller HDInsight .NET SDK.
HDInsight Application Platform för att installera program.
En lista över komponenter som stöds finns i Vilka Apache Hadoop-komponenter och -versioner är tillgängliga med HDInsight?
Kan jag uppgradera de enskilda komponenter som är förinstallerade i klustret?
Om du uppgraderar inbyggda komponenter eller program som är förinstallerade i klustret stöds inte den resulterande konfigurationen av Microsoft. Dessa systemkonfigurationer har inte testats av Microsoft. Försök att använda en annan version av HDInsight-klustret som kanske redan har den uppgraderade versionen av komponenten förinstallerad.
Du kan till exempel inte uppgradera Hive som en enskild komponent. HDInsight är en hanterad tjänst och många tjänster är integrerade med Ambari-servern och testas. Om du uppgraderar en Hive på egen hand ändras indexerade binärfiler för andra komponenter, vilket orsakar problem med komponentintegrering i klustret.
Kan Spark och Kafka köras i samma HDInsight-kluster?
Nej, det går inte att köra Apache Kafka och Apache Spark på samma HDInsight-kluster. Skapa separata kluster för Kafka och Spark för att undvika problem med resurskonkurrering.
Hur gör jag för att ändra tidszon i Ambari?
Öppna Ambari Web UI på , där CLUSTERNAME är namnet på
https://CLUSTERNAME.azurehdinsight.net
klustret.I det övre högra hörnet väljer du admin | Inställningar.
I fönstret Användarinställningar väljer du den nya tidszonen i listrutan Tidszon och väljer sedan Spara.
Metaarkiv
Hur kan jag migrera från det befintliga metaarkivet till Azure SQL Database?
Information om hur du migrerar från SQL Server till Azure SQL Database finns i Självstudie: Migrera SQL Server till en enkel databas eller pooldatabas i Azure SQL Database offline med DMS.
Tas Hive-metaarkivet bort när klustret tas bort?
Det beror på vilken typ av metaarkiv som klustret är konfigurerat att använda.
För ett standardmetaarkiv: Standardmetaarkivet är en del av klusterlivscykeln. När du tar bort ett kluster tas även motsvarande metaarkiv och metadata bort.
För ett anpassat metaarkiv: Livscykeln för metaarkivet är inte kopplad till ett klusters livscykel. Därför kan du skapa och ta bort kluster utan att förlora metadata. Metadata som dina Hive-scheman bevaras även efter att du har tagit bort och återskapat HDInsight-klustret.
Mer information finns i Använda externa metadatalager i Azure HDInsight.
Migrerar migrering av ett Hive-metaarkiv även standardprinciperna för Ranger-databasen?
Nej, principdefinitionen finns i Ranger-databasen, så om du migrerar Ranger-databasen migreras principen.
Kan du migrera ett Hive-metaarkiv från ett ESP-kluster (Enterprise Security Package) till ett icke-ESP-kluster och tvärtom?
Ja, du kan migrera ett Hive-metaarkiv från en ESP till ett icke-ESP-kluster.
Hur beräknar jag storleken på en Hive-metaarkivdatabas?
Ett Hive-metaarkiv används för att lagra metadata för datakällor som används av Hive-servern. Storlekskraven beror delvis på antalet och komplexiteten i dina Hive-datakällor. Dessa objekt kan inte beräknas i förväg. Som beskrivs i Riktlinjerna för Hive-metaarkiv kan du börja med en S2-nivå. Nivån ger 50 DTU och 250 GB lagringsutrymme, och om du ser en flaskhals skalar du upp databasen.
Har du stöd för andra databaser än Azure SQL Database som ett externt metaarkiv?
Nej, Microsoft stöder endast Azure SQL Database som ett externt anpassat metaarkiv.
Kan jag dela ett metaarkiv i flera kluster?
Ja, du kan dela anpassat metaarkiv i flera kluster så länge de använder samma version av HDInsight.
Anslutningar och virtuella nätverk
Vilka är konsekvenserna av att blockera portarna 22 och 23 i mitt nätverk?
Om du blockerar port 22 och port 23 har du inte SSH-åtkomst till klustret. Dessa portar används inte av HDInsight-tjänsten.
Mer information finns i följande dokument.
Kan jag distribuera fler virtuella datorer i samma undernät som ett HDInsight-kluster?
Ja, du kan distribuera fler virtuella datorer i samma undernät som ett HDInsight-kluster. Följande konfigurationer är möjliga:
Gränsnoder: Du kan lägga till ytterligare en kantnod i klustret enligt beskrivningen i Använda tomma kantnoder i Apache Hadoop-kluster i HDInsight.
Fristående noder: Du kan lägga till en fristående virtuell dator i samma undernät och komma åt klustret från den virtuella datorn med hjälp av den privata slutpunkten
https://<CLUSTERNAME>-int.azurehdinsight.net
. Mer information finns i Kontrollera nätverkstrafik.
Ska jag lagra data på en gränsnods lokala disk?
Nej, det är ingen bra idé att lagra data på en lokal disk. Om noden misslyckas går alla data som lagras lokalt förlorade. Vi rekommenderar att du lagrar data i Azure Data Lake Storage Gen2 eller Azure Blob Storage, eller genom att montera en Azure Files-resurs för lagring av data.
Kan jag lägga till ett befintligt HDInsight-kluster i ett annat virtuellt nätverk?
Nej, det kan du inte. Det virtuella nätverket bör anges vid tidpunkten för etableringen. Om inget virtuellt nätverk anges under etableringen skapar distributionen ett internt nätverk som inte är tillgängligt utifrån. Mer information finns i Lägga till HDInsight i ett befintligt virtuellt nätverk.
Säkerhet och certifikat
Vilka är rekommendationerna för skydd mot skadlig kod i Azure HDInsight-kluster?
Information om skydd mot skadlig kod finns i Microsoft Antimalware för Azure Cloud Services och Virtual Machines.
Hur gör jag för att skapa en nyckelflik för ett HDInsight ESP-kluster?
Skapa en Kerberos-nyckelflik för ditt domänanvändarnamn. Du kan senare använda den här nyckelfliken för att autentisera till fjärranslutna domänanslutna kluster utan att ange ett lösenord. Domännamnet är versalt:
ktutil
ktutil: addent -password -p <username>@<DOMAIN.COM> -k 1 -e aes256-cts-hmac-sha1-96
Password for <username>@<DOMAIN.COM>: <password>
ktutil: wkt <username>.keytab
ktutil: q
När krävs saltning för AES256-kryptering när du skapar nyckelfliken?
Om ditt TenantName & DomainName skiljer sig (till exempel TenantName – bob@CONTOSO.ONMICROSOFT.COM & DomainName – ) bob@CONTOSOMicrosoft.ONMICROSOFT.COMmåste du lägga till ett SALT-värde med alternativet -s.
Hur gör jag för att fastställa rätt SALT-värde?
- Använd en interaktiv Kerberos-inloggning för att fastställa rätt saltvärde för nyckelfliken. Interaktiv Kerberos-inloggning använder den högsta krypteringen som standard. Spårning ska aktiveras för att observera saltet. Nedan visas en Kerberos-exempelinloggning:
$ KRB5_TRAACE=/dev/stdout kinit <username> -V
- Titta igenom utdata för saltet "......." linje.
- Använd det här saltvärdet när du skapar nyckelfliken.
ktutil
ktutil: addent -password -p <username>@<DOMAIN.COM> -k 1 -e aes256-cts-hmac-sha1-96 -s <SALTvalue>
Password for <username>@<DOMAIN.COM>: <password>
ktutil: wkt <username>.keytab
ktutil: q
Kan jag använda en befintlig Microsoft Entra-klient för att skapa ett HDInsight-kluster som har ESP?
Aktivera Microsoft Entra Domain Services innan du kan skapa ett HDInsight-kluster med ESP. Hadoop med öppen källkod förlitar sig på Kerberos för autentisering (till skillnad från OAuth).
Om du vill ansluta virtuella datorer till en domän måste du ha en domänkontrollant. Microsoft Entra Domain Services är den hanterade domänkontrollanten och anses vara en förlängning av Microsoft Entra-ID. Microsoft Entra Domain Services tillhandahåller alla Kerberos-krav för att skapa ett säkert Hadoop-kluster på ett hanterat sätt. HDInsight som en hanterad tjänst integreras med Microsoft Entra Domain Services för att tillhandahålla säkerhet.
Kan jag använda ett självsignerat certifikat i en säker LDAP-konfiguration av Microsoft Entra Domain Services och etablera ett ESP-kluster?
Vi rekommenderar att du använder ett certifikat som utfärdats av en certifikatutfärdare. Men att använda ett självsignerat certifikat stöds också på ESP. Mer information finns i:
Kan jag installera Data Analytics Studio (DAS) som ett ESP-kluster?
Nej, DAS stöds inte i ESP-kluster.
Hur hämtar jag inloggningsaktiviteten som visas i Ranger?
För granskningskrav rekommenderar Microsoft att du aktiverar Azure Monitor-loggar enligt beskrivningen i Använda Azure Monitor-loggar för att övervaka HDInsight-kluster.
Kan jag inaktivera "Clamscan" i mitt kluster?
Clamscan
är antivirusprogrammet som körs på HDInsight-klustret och används av Azure Security (azsecd) för att skydda dina kluster mot virusattacker. Microsoft rekommenderar starkt att användarna avstår från att göra några ändringar i standardkonfigurationen Clamscan
.
Den här processen stör inte eller tar inga cykler bort från andra processer. Det kommer alltid att ge efter för andra processer. CPU-toppar från Clamscan
bör endast visas när systemet är inaktivt.
I scenarier där du måste styra schemat kan du använda följande steg:
Inaktivera automatisk körning med följande kommando:
sudo
usr/local/bin/azsecd config -s clamav -d Disabled
sudo service azsecd restartLägg till ett Cron-jobb som kör följande kommando som rot:
/usr/local/bin/azsecd manual -s clamav
Mer information om hur du konfigurerar och kör ett cron-jobb finns i Hur gör jag för att konfigurera ett Cron-jobb?
Varför är LLAP tillgängligt i Spark ESP-kluster?
LLAP är aktiverat av säkerhetsskäl (Apache Ranger), inte prestanda. Använd virtuella datorer med större noder för att hantera resursanvändningen för LLAP (till exempel minsta D13V2).
Hur lägger jag till ytterligare Microsoft Entra-grupper när jag har skapat ett ESP-kluster?
Det finns två sätt att uppnå det här målet: 1 – Du kan återskapa klustret och lägga till den extra gruppen när klustret skapas. Om du använder begränsad synkronisering i Microsoft Entra Domain Services kontrollerar du att grupp B ingår i den begränsade synkroniseringen.
2 – Lägg till gruppen som en kapslad undergrupp i föregående grupp som användes för att skapa ESP-klustret. Om du till exempel har skapat ett ESP-kluster med gruppen A
kan du senare lägga till gruppen B
som en kapslad undergrupp av A
och efter ungefär en timme synkroniseras det och blir tillgängligt i klustret automatiskt.
Storage
Kan jag lägga till ett Azure Data Lake Storage Gen2 till ett befintligt HDInsight-kluster som ytterligare ett lagringskonto?
Nej, det går för närvarande inte att lägga till ett Azure Data Lake Storage Gen2-lagringskonto i ett kluster som har bloblagring som primär lagring. Mer information finns i Jämför lagringsalternativ.
Hur hittar jag det länkade tjänstens huvudnamn för ett Data Lake-lagringskonto?
Du hittar dina inställningar i Data Lake Storage Gen1-åtkomst under dina klusteregenskaper i Azure Portal. Mer information finns i Verifiera klusterkonfiguration.
Hur beräknar jag användningen av lagringskonton och blobcontainrar för mina HDInsight-kluster?
Gör något av följande:
Hitta storleken på /user/hive/. Papperskorg/ mapp i HDInsight-klustret med hjälp av följande kommandorad:
hdfs dfs -du -h /user/hive/.Trash/
Hur konfigurerar jag granskning för mitt bloblagringskonto?
Om du vill granska bloblagringskonton konfigurerar du övervakning med hjälp av proceduren i Övervaka ett lagringskonto i Azure Portal. En HDFS-granskningslogg innehåller endast granskningsinformation för det lokala HDFS-filsystemet (hdfs://mycluster). Den innehåller inte åtgärder som utförs på fjärrlagring.
Hur kan jag överföra filer mellan en blobcontainer och en HDInsight-huvudnod?
Kör ett skript som liknar följande gränssnittsskript på huvudnoden:
for i in cat filenames.txt
do
hadoop fs -get $i <local destination>
done
Kommentar
Filen filenames.txt har den absoluta sökvägen till filerna i blobcontainrarna.
Finns det några Ranger-plugin-program för lagring?
För närvarande finns det inget Ranger-plugin-program för bloblagring och Azure Data Lake Storage Gen1 eller Gen2. För ESP-kluster bör du använda Azure Data Lake Storage. Du kan åtminstone ange detaljerade behörigheter manuellt på filsystemnivå med hjälp av HDFS-verktyg. När du använder Azure Data Lake Storage gör ESP-kluster dessutom en del av filsystemets åtkomstkontroll med hjälp av Microsoft Entra-ID på klusternivå.
Du kan tilldela dataåtkomstprinciper till användarnas säkerhetsgrupper med hjälp av Azure Storage Explorer. Mer information finns i:
Kan jag öka HDFS-lagringen i ett kluster utan att öka diskstorleken för arbetsnoder?
Nej. Du kan inte öka diskstorleken för någon arbetsnod. Så det enda sättet att öka diskstorleken är att släppa klustret och återskapa det med större virtuella arbetsdatorer. Använd inte HDFS för att lagra någon av dina HDInsight-data, eftersom data tas bort om du tar bort klustret. Lagra i stället dina data i Azure. Att skala upp klustret kan också lägga till ytterligare kapacitet i HDInsight-klustret.
Gränsnoder
Kan jag lägga till en kantnod när klustret har skapats?
Hur ansluter jag till en kantnod?
När du har skapat en gränsnod kan du ansluta till den med hjälp av SSH på port 22. Du hittar namnet på gränsnoden från klusterportalen. Namnen slutar vanligtvis med -ed.
Varför körs inte bevarade skript automatiskt på nyligen skapade gränsnoder?
Du använder beständiga skript för att anpassa nya arbetsnoder som lagts till i klustret genom skalningsåtgärder. Beständiga skript gäller inte för kantnoder.
REST-API
Vilka ÄR REST API-anropen för att hämta en Tez-frågevy från klustret?
Du kan använda följande REST-slutpunkter för att hämta nödvändig information i JSON-format. Använd grundläggande autentiseringshuvuden för att göra begäranden.
Tez Query View
: https://< cluster name.azurehdinsight.net/ws/v1/timeline/HIVE_QUERY_ID/>Tez Dag View
: https://< cluster name.azurehdinsight.net/ws/v1/timeline/TEZ_DAG_ID/>
Hur gör jag för att hämta konfigurationsinformationen från HDI-klustret med hjälp av en Microsoft Entra-användare?
Om du vill förhandla om rätt autentiseringstoken med din Microsoft Entra-användare går du igenom gatewayen med följande format:
<cluster dnsname>
https://.azurehdinsight.net/api/v1/clusters/testclusterdem/stack_versions/1/repository_versions/1
Hur gör jag för att använda Ambari RESTful för att övervaka YARN-prestanda?
Om du anropar Curl-kommandot i samma virtuella nätverk eller ett peer-kopplat virtuellt nätverk är kommandot:
curl -u <cluster login username> -sS -G
http://<headnodehost>:8080/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu
Om du anropar kommandot utanför det virtuella nätverket eller från ett icke-peer-kopplat virtuellt nätverk är kommandoformatet:
För ett icke-ESP-kluster:
curl -u <cluster login username> -sS -G https://<ClusterName>.azurehdinsight.net/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu
För ett ESP-kluster:
curl -u <cluster login username>-sS -G https://<ClusterName>.azurehdinsight.net/api/v1/clusters/<ClusterName>/services/YARN/components/NODEMANAGER?fields=metrics/cpu
Kommentar
Curl uppmanar dig att ange ett lösenord. Du måste ange ett giltigt lösenord för användarnamnet för klusterinloggning.
Fakturering
Hur mycket kostar det att distribuera ett HDInsight-kluster?
Mer information om priser och vanliga frågor och svar om fakturering finns på sidan priser för Azure HDInsight.
När startar och slutar HDInsight-faktureringen?
Debiteringen för HDInsight-klustret börjar när ett kluster skapas och stoppas när klustret tas bort. Faktureringen är proportionell per minut.
Hur gör jag för att avbryta min prenumeration?
Information om hur du avbryter din prenumeration finns i Avbryt din Azure-prenumeration.
Vad händer när jag har avbrutit min prenumeration för betala per användning-prenumeration?
Information om din prenumeration när den har avbrutits finns i Vad händer när jag har avbrutit min prenumeration?
Hive
Varför visas Hive-versionen som 1.2.1000 i stället för 2.1 i Ambari-användargränssnittet trots att jag kör ett HDInsight 3.6-kluster?
Även om endast 1.2 visas i Ambari-användargränssnittet innehåller HDInsight 3.6 både Hive 1.2 och Hive 2.1.
Andra vanliga frågor och svar
Vad erbjuder HDInsight för dataströmbearbetningsfunktioner i realtid?
Information om integreringsfunktioner för dataströmbearbetning finns i Välja en dataströmbearbetningsteknik i Azure.
Finns det något sätt att dynamiskt döda huvudnoden i klustret när klustret är inaktivt under en viss period?
Du kan inte utföra den här åtgärden med HDInsight-kluster. Du kan använda Azure Data Factory för dessa scenarier.
Vilka efterlevnadserbjudanden erbjuder HDInsight?
Information om efterlevnad finns i Microsoft Trust Center.